発話に伴う頭部動作と顔表情のマルチモーダル同時生成モデル

Alexi Ayrton; 三河 多聞; 太田 健吾; 西村 良太; 北岡 教英

doi:10.11517/jsaislud.105.0_22

抄録

近年、大規模言語モデルの発展により、人間らしく自然な対話が可能となりつつある。今後は3Dアバターなどの対話エージェントを介したマルチモーダルな対話機会が増加すると予想される。その際、単なる言語理解だけでなく、音声や動作などの多様な表現を考慮しつつ統合的に生成する必要がある。本研究は、テキストから音声および頭部動作・顔表情を同時に生成できるマルチモーダルモデルの構築を目的とし、最適輸送条件付きフローマッチング手法を応用することで複数モダリティの一貫した生成を実現している。

著者関連情報

お気に入り & アラート

閲覧履歴

発行機関からのお知らせ

PDF閲覧時に認証を求められる記事がございます（発行後1年間）が，研究会登録メンバーは無料で閲覧可能です．認証のための購読者番号やパスワードは会員マイページにログインし「お知らせ」にてご確認下さい．メンバー以外の方は，storesにて購入いただけます．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）