主催: 人工知能学会
会議名: 第99回言語・音声理解と対話処理研究会
回次: 99
開催地: 国立国語研究所 講堂 / オンライン
開催日: 2023/12/13 - 2023/12/14
p. 96-101
本発表は,シチュエーショントラックにおいて,OpenAI社が提供する大規模言語モデルであるGPT-4を利用し,発話内容に沿った表情・ジェスチャー生成を行うマルチモーダル対話システムについて報告する.本発表の対話システムは,発話生成と,表情・動作生成によって構成されている.発話生成では,プロンプトエンジニアリングによって,シチュエーションと実際の対話例を与えた.また,システムの表情・動作生成は,GPT-4を用いて,システム発話の感情と対話行為を特定し,適切な反応を生成する仕組みを導入した.これにより,特定のシチュエーションで,システムが自身の立場を考慮し,ユーザと意見を交換し議論を行う対話システムを実現した.従来のマルチモーダルシステムが専用のモデルを必要とした感情・対話行為分析を,単一の言語モデルで実現することは,対話システム開発における新しいアプローチを示唆する.