視線・口・頭部の動作特徴量に着目したマルチモーダル発話終了予測

倉田 楓真; 佐伯 真於; 藤江 真也; 松山 洋一

doi:10.11517/jsaislud.96.0_15

抄録

本研究では，言語・音響・視覚情報を用いたターンテイキングのためのマルチモーダルな深層学習モデルを提案する．これまでの対話システムにおけるターンテイキング研究では主に言語情報と音響情報の扱いに焦点が当てられてきた．しかし，伝統的な会話分析によれば,視覚情報はターンテイクの手がかりとして有用であることが示されている．そこで本研究では視覚的手がかりの中でも視線・口・頭部の動作に着目し，それらを活用したマルチモーダル発話終了予測モデルを構築した．そして，それらの視覚特徴の有効性を検証した．実験の結果，視線が最も重要なターンテイクの手がかりであり，次いで口，頭の動きが重要であるという結果になった．また，提案手法は音響情報と言語情報のみを用いたモデルよりも高い性能を示した．

著者関連情報

お気に入り & アラート

閲覧履歴

INFOSTA著作権セミナー　著作権法改正の動向について：INFOSTAとしてできること！　参加報告

発行機関からのお知らせ

PDF閲覧時に認証を求められる記事がございます（発行後1年間）が，研究会登録メンバーは無料で閲覧可能です．認証のための購読者番号やパスワードは会員マイページにログインし「お知らせ」にてご確認下さい．メンバー以外の方は，storesにて購入いただけます．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）