End-to-End 学習を用いた音声からの表情アニメーション生成

大道 博文; 目良 和也; 黒澤 義明; 竹澤 寿幸

doi:10.11517/pjsai.JSAI2020.0_3Rin404

抄録

近年，VRゲームやVirtual YouTuberなどアバターを介したコミュニケーションが普及しつつある．このようなアバターを通じてユーザの心理状態を伝達させるために，特定の感情を示す表情をアバターに表出させる方法や，自身の表情や動作をアバターと同期させる方法がよく用いられている．代表的な表情同期手法としてFace Trackingが挙げられるが，表情を持たない収録済みの音声や合成音声から表情を作り出すことができない．そこで本研究では，音声のみを用いて表情アニメーションの自動生成を行うことを提案する．具体的には発話音声の音響的特徴量を入力とし，表情動画から解析されたAction Unitのパラメータを教師データとして学習モデルを設計する．評価として，既存手法（CNN）と提案手法（CNN-LSTM）のLoss値を比較した．実験の結果，提案手法のLoss値の方が既存手法よりも下がっていることを確認した．また，出力結果を時系列にグラフ化すると提案手法の方がより滑らかに推移していることも確認できた．このことは表情アニメーションにおいて自然な表情として知覚できることを示している．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）