主催: 人工知能学会
会議名: 第105回言語・音声理解と対話処理研究会
回次: 105
開催地: 東京科学大学大岡山キャンパス 蔵前記念会館 くらまえホール
開催日: 2025/11/10 - 2025/11/11
p. 174-179
本研究では、日本語・英語・中国語の三言語に対応するマルチリンガル相槌予測モデルを構築し、相槌タイミングの言語間比較分析を行った。提案モデルはTransformerを基盤とし、約250時間の多言語対話データを用いて、聞き手の相槌が生起する確率をフレーム単位で予測する。実験の結果、マルチリンガルモデルは各言語において単言語モデルと同等以上の性能を示した。さらに、摂動評価を通じてモデルの挙動を分析したところ、相槌予測に寄与する音声特徴が言語ごとに異なることが明らかになった。これらの結果は、本モデルが言語に普遍的な手がかりと各言語固有のパターンの双方を学習していることを示唆しており、相槌タイミングの言語横断的な理解に貢献するものである。