人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
105回 (2025/11)
会議情報

発話に伴う頭部動作と顔表情のマルチモーダル同時生成モデル
Alexi Ayrton三河 多聞太田 健吾西村 良太北岡 教英
著者情報
会議録・要旨集 認証あり

p. 22-26

詳細
抄録

近年、大規模言語モデルの発展により、人間らしく自然な対話が可能となりつつある。今後は3Dアバターなどの対話エージェントを介したマルチモーダルな対話機会が増加すると予想される。その際、単なる言語理解だけでなく、音声や動作などの多様な表現を考慮しつつ統合的に生成する必要がある。本研究は、テキストから音声および頭部動作・顔表情を同時に生成できるマルチモーダルモデルの構築を目的とし、最適輸送条件付きフローマッチング手法を応用することで複数モダリティの一貫した生成を実現している。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top