主催: 人工知能学会
会議名: 第99回言語・音声理解と対話処理研究会
回次: 99
開催地: 国立国語研究所 講堂 / オンライン
開催日: 2023/12/13 - 2023/12/14
p. 131-133
ChatGPTのような大規模言語モデル(LLM)を用いた対話システムは,テキストベースの対話において大きな進歩を遂げた.しかし,LLMを用いて音声対話システムを構築する場合,いくつか問題が生じる.まず,ほとんどの LLMがテキスト情報しか扱えず,ユーザの非言語情報(音声感情,表情感情,動作)を扱うことができない点が挙げられる.また,LLMによる応答生成は時間がかかるため,ユーザの発話終了からシステムの発話開始までに時間を要したり,自然な話者交代が困難になるという問題がある.そこで本研究ではユーザの対話中の非言語情報を音声および画像から取得し,プロンプトに追加することで非言語情報を考慮した応答を生成する手法を提案する.また,ユーザ発話が途中の段階で応答生成を開始することで,応答遅延を低減する手法を提案する.その際にも非言語情報を活用し,ユーザ発話の一部分からだけでも適切な応答を生成する.