人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
96回 (2022/12)
会議情報

視線・口・頭部の動作特徴量に着目したマルチモーダル発話終了予測
倉田 楓真佐伯 真於藤江 真也松山 洋一
著者情報
会議録・要旨集 フリー

p. 15-

詳細
抄録

本研究では,言語・音響・視覚情報を用いたターンテイキングのためのマルチモーダルな深層学習モデルを提案する.これまでの対話システムにおけるターンテイキング研究では主に言語情報と音響情報の扱いに焦点が当てられてきた.しかし,伝統的な会話分析によれば,視覚情報はターンテイクの手がかりとして有用であることが示されている.そこで本研究では視覚的手がかりの中でも視線・口・頭部の動作に着目し,それらを活用したマルチモーダル発話終了予測モデルを構築した.そして,それらの視覚特徴の有効性を検証した.実験の結果,視線が最も重要なターンテイクの手がかりであり,次いで口,頭の動きが重要であるという結果になった.また,提案手法は音響情報と言語情報のみを用いたモデルよりも高い性能を示した.

著者関連情報
© 2022 人工知能学会
前の記事 次の記事
feedback
Top