人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
104回(2025/9)
会議情報

プロンプト制御可能なターンテイキング予測モデル
井上 昂治Elmers MikeyFu YahuiPang Zi HaurLala Divesh越智 景子河原 達也
著者情報
会議録・要旨集 認証あり

p. 104-109

詳細
抄録

ターンテイキング予測モデルは、音声対話システムや会話ロボットにおいて不可欠な要素である。近年の手法では、トランスフォーマーベースのアーキテクチャであるVoice Activity Projection(VAP)が活用され、連続的かつリアルタイムな予測が実現されている。本研究では、テキストプロンプトによりターンテイキング予測を動的に制御可能な新たなVAPモデルを提案する。これにより「より速く」や「より落ち着いて」といった直感的な制御が可能となり、会話相手や状況に応じた柔軟な適応が実現される。既存のデータセットにはテキストプロンプトが含まれていないため、950時間の音声対話データに対して、大規模言語モデル(LLM)を用いて合成プロンプト文を生成して活用した。実験の結果、提案モデルは予測精度を向上させるとともに、プロンプトに応じてターンテイキング予測が直感的に変化することが示された。

著者関連情報
© 2025 人工知能学会
前の記事
feedback
Top