主催: 人工知能学会
会議名: 第104回言語・音声理解と対話処理研究会
回次: 104
開催地: 広島大学 東広島キャンパス 法人本部 4階会議室
開催日: 2025/09/08 - 2025/09/09
p. 104-109
ターンテイキング予測モデルは、音声対話システムや会話ロボットにおいて不可欠な要素である。近年の手法では、トランスフォーマーベースのアーキテクチャであるVoice Activity Projection(VAP)が活用され、連続的かつリアルタイムな予測が実現されている。本研究では、テキストプロンプトによりターンテイキング予測を動的に制御可能な新たなVAPモデルを提案する。これにより「より速く」や「より落ち着いて」といった直感的な制御が可能となり、会話相手や状況に応じた柔軟な適応が実現される。既存のデータセットにはテキストプロンプトが含まれていないため、950時間の音声対話データに対して、大規模言語モデル(LLM)を用いて合成プロンプト文を生成して活用した。実験の結果、提案モデルは予測精度を向上させるとともに、プロンプトに応じてターンテイキング予測が直感的に変化することが示された。