主催: 人工知能学会
会議名: 第96回研究会言語・音声理解と対話処理研究会
回次: 96
開催地: 国立国語研究所
開催日: 2022/12/13 - 2022/12/14
p. 15-
本研究では,言語・音響・視覚情報を用いたターンテイキングのためのマルチモーダルな深層学習モデルを提案する.これまでの対話システムにおけるターンテイキング研究では主に言語情報と音響情報の扱いに焦点が当てられてきた.しかし,伝統的な会話分析によれば,視覚情報はターンテイクの手がかりとして有用であることが示されている.そこで本研究では視覚的手がかりの中でも視線・口・頭部の動作に着目し,それらを活用したマルチモーダル発話終了予測モデルを構築した.そして,それらの視覚特徴の有効性を検証した.実験の結果,視線が最も重要なターンテイクの手がかりであり,次いで口,頭の動きが重要であるという結果になった.また,提案手法は音響情報と言語情報のみを用いたモデルよりも高い性能を示した.