主催: 人工知能学会
会議名: 第106回言語・音声理解と対話処理研究会
回次: 106
開催地: 早稲田大学 早稲田キャンパス8号館B107
開催日: 2026/03/03 - 2026/03/04
p. 88-93
音声対話における「沈黙」は、思考、ターン調整、ためらいなど多様な意図を含んでいるが、従来の音声対話処理では主に「無音区間の長さ」という物理量として扱われてきた。本研究では沈黙の分類体系を構築することを目的とする。まず、クラウドソーシングを用い、対話音声中の沈黙に対して聴取者が抱いた「その理由」と「印象」を自由記述で収集した。次に、大規模言語モデル(LLM)を用いた質的コーディングを適用し、記述データの概念化と構造化を行った。このボトムアップなアプローチにより、沈黙の「理由」で10種類、「印象」で12種類の分類ラベルを構築した。また、構築したラベルの自動認識実験を通じて、現在のLLMでは対人関係や感情に関わる沈黙の認識には課題があることがわかった。