人工知能学会全国大会論文集
Online ISSN : 2758-7347
第35回 (2021)
セッションID: 3E2-OS-5b-01
会議情報

マルチモーダル情報に基づく相槌的応答と表情強度の推定
*上野 諒祐坂戸 達陽中野 有紀子
著者情報
会議録・要旨集 フリー

詳細
抄録

話し手に相槌を返すことは,会話を維持するために不可欠なコミュニケーション信号である.話し手の発言に対する聞き手の反応を伝えるためには,言語による相槌的応答だけでなく表情も有効なモダリティとなる.また,表情の種類だけでなく,表情の強さも相槌の意味に影響を与える可能性がある. 本研究では,マルチモーダルな深層学習モデルを提案し,相槌と同時に発生する表情の強さを予測する.本研究では,3人のグループによる33のビデオ会話を収集し,各参加者の言語・表情・音声データを取得した.また,相槌的応答をアノテーションし,さらにそれらのBERTによるembedding表現をクラスタリングし,相槌的応答の種類分けを行った.提案手法では,音声,視覚,言語の各モダリティに注意メカニズムを導入した17種類のAUの強度値をフレームごとに生成するデコーダと相槌ラベルの分類器をマルチタスク学習により学習した. 相槌ラベルの予測性能の評価では,カテゴリによって予測性能の偏りが見られた.AU強度予測においては,シングルタスクのモデルよりもマルチタスクモデルの方が損失関数の値(loss)が小さく,より優れたモデルが得られた.

著者関連情報
© 2021 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top