主催: 人工知能学会
会議名: 第96回研究会言語・音声理解と対話処理研究会
回次: 96
開催地: 国立国語研究所
開催日: 2022/12/13 - 2022/12/14
p. 13-
視覚的質問応答(VQA: Visual Question Answering)は、画像に関する質問が与えられた時に回答を導くタスクであり、質問と画像中の情報から回答が一意に決定する状況を仮定する。しかし、VQAをロボット対話などの実世界対話に応用しようとした場合、主語の省略や指示語の利用が生じ、その情報を補完するように視線や指差しなど様々なコンテキスト情報が用いられる場合がある。本研究ではこうした曖昧性に対処できるVQAシステムを構築することを指向して、特に画像中の人物が見ている対象の情報を利用したVQAデータセットを構築した。具体的には、視線情報がアノテーションされた画像に対して、視線情報で補完される曖昧な質問を含むVQAデータセットをクラウドソーシングで構築した。