主催: 人工知能学会
会議名: 第105回言語・音声理解と対話処理研究会
回次: 105
開催地: 東京科学大学大岡山キャンパス 蔵前記念会館 くらまえホール
開催日: 2025/11/10 - 2025/11/11
p. 22-26
近年、大規模言語モデルの発展により、人間らしく自然な対話が可能となりつつある。今後は3Dアバターなどの対話エージェントを介したマルチモーダルな対話機会が増加すると予想される。その際、単なる言語理解だけでなく、音声や動作などの多様な表現を考慮しつつ統合的に生成する必要がある。本研究は、テキストから音声および頭部動作・顔表情を同時に生成できるマルチモーダルモデルの構築を目的とし、最適輸送条件付きフローマッチング手法を応用することで複数モダリティの一貫した生成を実現している。