LLMに基づく音声対話システムのための非言語情報を活用したユーザ心情の考慮とリアルタイム性の向上

金子 拓正; 稲葉 通将

doi:10.11517/jsaislud.99.0_131

抄録

ChatGPTのような大規模言語モデル(LLM)を用いた対話システムは，テキストベースの対話において大きな進歩を遂げた．しかし，LLMを用いて音声対話システムを構築する場合，いくつか問題が生じる．まず，ほとんどの LLMがテキスト情報しか扱えず，ユーザの非言語情報(音声感情，表情感情，動作)を扱うことができない点が挙げられる．また，LLMによる応答生成は時間がかかるため，ユーザの発話終了からシステムの発話開始までに時間を要したり，自然な話者交代が困難になるという問題がある．そこで本研究ではユーザの対話中の非言語情報を音声および画像から取得し，プロンプトに追加することで非言語情報を考慮した応答を生成する手法を提案する．また，ユーザ発話が途中の段階で応答生成を開始することで，応答遅延を低減する手法を提案する．その際にも非言語情報を活用し，ユーザ発話の一部分からだけでも適切な応答を生成する．

著者関連情報

お気に入り & アラート

閲覧履歴

発行機関からのお知らせ

PDF閲覧時に認証を求められる記事がございます（発行後1年間）が，研究会登録メンバーは無料で閲覧可能です．認証のための購読者番号やパスワードは会員マイページにログインし「お知らせ」にてご確認下さい．メンバー以外の方は，storesにて購入いただけます．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）