マルチモーダル情報に基づく相槌的応答と表情強度の推定

上野 諒祐; 坂戸 達陽; 中野 有紀子

doi:10.11517/pjsai.JSAI2021.0_3E2OS5b01

抄録

話し手に相槌を返すことは，会話を維持するために不可欠なコミュニケーション信号である．話し手の発言に対する聞き手の反応を伝えるためには，言語による相槌的応答だけでなく表情も有効なモダリティとなる．また，表情の種類だけでなく，表情の強さも相槌の意味に影響を与える可能性がある．本研究では，マルチモーダルな深層学習モデルを提案し，相槌と同時に発生する表情の強さを予測する．本研究では，3人のグループによる33のビデオ会話を収集し，各参加者の言語・表情・音声データを取得した．また，相槌的応答をアノテーションし，さらにそれらのBERTによるembedding表現をクラスタリングし，相槌的応答の種類分けを行った．提案手法では，音声，視覚，言語の各モダリティに注意メカニズムを導入した17種類のAUの強度値をフレームごとに生成するデコーダと相槌ラベルの分類器をマルチタスク学習により学習した．相槌ラベルの予測性能の評価では，カテゴリによって予測性能の偏りが見られた．AU強度予測においては，シングルタスクのモデルよりもマルチタスクモデルの方が損失関数の値(loss)が小さく，より優れたモデルが得られた．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）