2025 年 32 巻 1 号 p. 3-35
画像に対する質問応答 (VQA: Visual Question Answering)のような画像を参照する会話では指示語の利用により質問に曖昧さが生じる.また,言語によっては質問の中核となる情報を持つ項の省略が行われ,問題はさらに複雑になる.こうした質問の曖昧さが生じる場合,質問の話者は相手と言外に共有している情報,例えば視線(注視)や指差しなど,を前提にしている場合が多い.本研究ではこうした視線情報の参照による質問の曖昧性解消に着目し,注視対象の物体と質問の指示語や省略が対応づいた視線情報付き VQA データセット (LookVQA) を提案する.本研究ではさらに,本データセットにおける質問応答の精度を高めるため,話者の視線元からの注視対象推定を活用する質問応答モデルを提案する.実験の結果,提案モデルは LookVQA における特定の質問タイプに精度良く回答ができ,注視対象推定を用いない既存モデルと比較して優れた性能を達成した.