主催: 人工知能学会
会議名: 第102回言語・音声理解と対話処理研究会
回次: 102
開催地: 国立国語研究所 講堂
開催日: 2024/11/28 - 2024/11/29
p. 109-114
音声認識システムの精度の向上により、単語誤り率(WER)による評価では音声認識システムは人間を上回るとされている。しかし、音声認識の誤りに起因する音声対話応答の失敗は依然として存在する。人間は対話中に対話応答の生成に必要な部分だけを選択的に聞いている可能性があり、音声対話システムに同様の考え方を導入することで、音声認識の誤りに起因する音声対話応答の失敗を回避できる可能性がある。そこで本研究では、人間が対話応答を生成する際に相手の発話を選択的に聴取していることを実験で確認しその傾向を分析した。また実験結果に基づき、人間の選択的聴取を考慮した新しい音声認識評価方法の可能性についても議論した。その結果、人間の選択的聴取を考慮した新しい評価指標は、WERなどの従来の音声認識評価手法より音声対話システムに必要な認識内容を強調して評価できていることが示唆された。