主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
End-to-Endの音声認識モデルは、高品質な学習データを使用することで、高い性能を発揮することが知られている。一方、高品質な学習データを作成するには一般的には人的コストや管理コストが大きくなる。 本研究は、音声認識モデルのための高品質な学習データを効率的にアノテーションするため、アクティブラーニングの手法を用いたデータ選択手法を提案する。音声波形から算出した特徴量を用いて構築した、文字誤り率(CER)予測モデルにより、データプールから優先的にアノテーションするデータを選択することを実現した。また、提案手法により構築した音声認識モデルは、ランダムにアノテーションした学習データと比較して優れたパフォーマンスを示し、提案手法が効率的な学習データの作成に寄与することを実証した。一方、ラベルの品質面から見た効率的なラベル付けは、アノテーターの心理的側面に影響し、コストや音声認識モデルの精度に良い影響を及ぼすことをあきらかにした。