主催: 人工知能学会
会議名: 第99回言語・音声理解と対話処理研究会
回次: 99
開催地: 国立国語研究所 講堂 / オンライン
開催日: 2023/12/13 - 2023/12/14
p. 113-118
Visual Question Answering (VQA)のように画像を参照する質問応答や対話では,しばしば指示語の利用により質問に曖昧さが生じる.また日本語のように,言語によってはしばしば項の省略が行われ,問題はさらに複雑になる.こうした質問の曖昧さは,実際にはユーザとの共同注視やユーザの視線といった情報で補完されていることが多い.本研究ではこうした視線情報の参照による質問の曖昧性解消に着目し,視線情報を用いることで質問の曖昧さが解消されるような視線情報付きVQAデータセット(GazeVQA)を提案する.さらに,このGazeVQAの質問に対する回答の精度を高めるため,視線元からの注視対象推定を活用する手法を提案した.GazeVQAを用いた実験では,提案手法のパフォーマンスが注視対象推定を用いない既存モデルよりも上回ることを確認した.