主催: 人工知能学会
会議名: 第103回言語・音声理解と対話処理研究会
回次: 103
開催地: 早稲田大学 40号館 グリーン・コンピューティング・システム研究開発センター
開催日: 2025/03/20 - 2025/03/22
p. 171-176
人間どうしの対話において、頷き・視線・表情などの非言語情報は言語情報同様に重要な役割を担っており、近年研究が進んでいる音声対話システムにおいても、これらの非言語情報を適切に表出することが求められている。本研究では、非言語的聞き手反応の中で頷きに焦点を当て、それらのタイミングと種類をリアルタイムに予測するモデルを提案する。傾聴対話データに対して追加的に聞き手ジェスチャーを収録し、頷きを3種類に分類、アノテーションした。提案モデルとして話し手と聞き手の音声両方を用いるVAPをベースとしたモデルを紹介する。実験では相槌とのマルチタスク学習および汎用的な対話データを用いた事前学習を実施し、その有効性を確認した。提案モデルはリアルタイムアバター傾聴対話システムへ統合することができる。