アバター傾聴対話システムにおける多様な頷きのリアルタイム予測

加藤 利梓; 井上 昂治; 河原 達也

doi:10.11517/jsaislud.103.0_171

抄録

人間どうしの対話において、頷き・視線・表情などの非言語情報は言語情報同様に重要な役割を担っており、近年研究が進んでいる音声対話システムにおいても、これらの非言語情報を適切に表出することが求められている。本研究では、非言語的聞き手反応の中で頷きに焦点を当て、それらのタイミングと種類をリアルタイムに予測するモデルを提案する。傾聴対話データに対して追加的に聞き手ジェスチャーを収録し、頷きを3種類に分類、アノテーションした。提案モデルとして話し手と聞き手の音声両方を用いるVAPをベースとしたモデルを紹介する。実験では相槌とのマルチタスク学習および汎用的な対話データを用いた事前学習を実施し、その有効性を確認した。提案モデルはリアルタイムアバター傾聴対話システムへ統合することができる。

著者関連情報

お気に入り & アラート

閲覧履歴

発行機関からのお知らせ

PDF閲覧時に認証を求められる記事がございます（発行後1年間）が，研究会登録メンバーは無料で閲覧可能です．認証のための購読者番号やパスワードは会員マイページにログインし「お知らせ」にてご確認下さい．メンバー以外の方は，storesにて購入いただけます．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）