主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
近年,VRゲームやVirtual YouTuberなどアバターを介したコミュニケーションが普及しつつある.このようなアバターを通じてユーザの心理状態を伝達させるために,特定の感情を示す表情をアバターに表出させる方法や,自身の表情や動作をアバターと同期させる方法がよく用いられている.代表的な表情同期手法としてFace Trackingが挙げられるが,表情を持たない収録済みの音声や合成音声から表情を作り出すことができない.そこで本研究では,音声のみを用いて表情アニメーションの自動生成を行うことを提案する.具体的には発話音声の音響的特徴量を入力とし,表情動画から解析されたAction Unitのパラメータを教師データとして学習モデルを設計する.評価として,既存手法(CNN)と提案手法(CNN-LSTM)のLoss値を比較した.実験の結果,提案手法のLoss値の方が既存手法よりも下がっていることを確認した.また,出力結果を時系列にグラフ化すると提案手法の方がより滑らかに推移していることも確認できた.このことは表情アニメーションにおいて自然な表情として知覚できることを示している.