主催: 人工知能学会
会議名: 第93回 言語・音声理解と対話処理研究会
回次: 93
開催地: オンライン
開催日: 2021/11/29 - 2021/11/30
p. 56-61
機械と人間のより円滑なコミュニケーションを実現するための手法として,人間らしい応答が可能な対話エージェントを導入することが挙げられる.近年,対話エージェントの応答の韻律や表情をニューラルベースの手法で個別に制御する手法が検討されている.これに対して我々は,言語,韻律,表情の複数のモダリティを用いてエージェントの表情と韻律の両方を制御するためのエンコーダー・デコーダーモデルを提案する.実験から,複数のモダリティ,特に表情モダリティを入力として利用した場合に客観評価値が向上することを確認した.また,マルチタスク学習を行うことで全体的な性能がさらに改善する可能性が示唆された.