主催: 人工知能学会
会議名: 第96回研究会言語・音声理解と対話処理研究会
回次: 96
開催地: 国立国語研究所
開催日: 2022/12/13 - 2022/12/14
p. 45-
本稿ではテキスト・音声・ジェスチャーを制御したマルチモーダルな対話システムの開発に取り組んだ。本対話システムは応答生成器と感情分類器によって構成されている。応答生成器にはGPT-2を用いた。GPT-2では、学習済みモデルをTwitterから収集したデータによって転移学習をした。感情分類器にはBERTを用いた。BERTの学習では、学習済みモデルを感情分析データセットであるWRIMEによってファインチューニングした。WRIMEでは1つの文章に8つの感情カテゴリのアノテーションがされている。そのためBERTでは多ラベルの学習を行い、分類時には最もスコアの高い感情カテゴリを対話システムの表出感情とした。表出感情を基に、事前に作成したデータセットからジェスチャーと音声の制御を抽出し、システム発話と共に出力した。