主催: 人工知能学会
会議名: 第103回言語・音声理解と対話処理研究会
回次: 103
開催地: 早稲田大学 40号館 グリーン・コンピューティング・システム研究開発センター
開催日: 2025/03/20 - 2025/03/22
p. 189-194
音声対話システムの次なる研究対象として多人数対話への対応が挙げられる。そこでは、一対一の対話と比べてインタラクションが複雑になり、いくつかの新たなタスクを解決する必要が生じる。本研究では、その中でも特に重要な受話者推定に焦点を当てる。我々はこれまでに、3人による対面対話・議論を対象とした「鼎談コーパス」の収集を進めてきた。本研究ではまず、このコーパスに対して、ターンおよび受話者のアノテーションを行った。その結果、ターンの約2割において受話者が明示的に示されていることがわかった。次に、受話者推定の難易度を評価するため、大規模言語モデル(LLM: GPT-4o)を用いて受話者推定の精度を検証した。その結果、チャンスレベルを僅かに上回るのみであり、LLMが多人数対話の複雑さを十分に理解するには至っていないことが示唆された。