自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
Visual Question Answering における視線情報を用いた質問の曖昧性解消
稲積 駿河野 誠也湯口 彰重川西 康友吉野 幸一郎
著者情報
ジャーナル フリー

2025 年 32 巻 1 号 p. 3-35

詳細
抄録

画像に対する質問応答 (VQA: Visual Question Answering)のような画像を参照する会話では指示語の利用により質問に曖昧さが生じる.また,言語によっては質問の中核となる情報を持つ項の省略が行われ,問題はさらに複雑になる.こうした質問の曖昧さが生じる場合,質問の話者は相手と言外に共有している情報,例えば視線(注視)や指差しなど,を前提にしている場合が多い.本研究ではこうした視線情報の参照による質問の曖昧性解消に着目し,注視対象の物体と質問の指示語や省略が対応づいた視線情報付き VQA データセット (LookVQA) を提案する.本研究ではさらに,本データセットにおける質問応答の精度を高めるため,話者の視線元からの注視対象推定を活用する質問応答モデルを提案する.実験の結果,提案モデルは LookVQA における特定の質問タイプに精度良く回答ができ,注視対象推定を用いない既存モデルと比較して優れた性能を達成した.

著者関連情報
© 2025 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top