人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
99回 (2023/12)
会議情報

LLMに基づく音声対話システムのための非言語情報を活用したユーザ心情の考慮とリアルタイム性の向上
金子 拓正稲葉 通将
著者情報
会議録・要旨集 フリー

p. 131-133

詳細
抄録

ChatGPTのような大規模言語モデル(LLM)を用いた対話システムは,テキストベースの対話において大きな進歩を遂げた.しかし,LLMを用いて音声対話システムを構築する場合,いくつか問題が生じる.まず,ほとんどの LLMがテキスト情報しか扱えず,ユーザの非言語情報(音声感情,表情感情,動作)を扱うことができない点が挙げられる.また,LLMによる応答生成は時間がかかるため,ユーザの発話終了からシステムの発話開始までに時間を要したり,自然な話者交代が困難になるという問題がある.そこで本研究ではユーザの対話中の非言語情報を音声および画像から取得し,プロンプトに追加することで非言語情報を考慮した応答を生成する手法を提案する.また,ユーザ発話が途中の段階で応答生成を開始することで,応答遅延を低減する手法を提案する.その際にも非言語情報を活用し,ユーザ発話の一部分からだけでも適切な応答を生成する.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top