視線情報付き視覚的質問応答データセットの構築

稲積 駿; 河野 誠也; 湯口 彰重; 川西 康友; 吉野 幸一郎

doi:10.11517/jsaislud.96.0_13

96回 (2022/12)

DOI https://doi.org/10.11517/jsaislud.96.0_13

会議情報

主催: 人工知能学会

会議名: 第96回研究会言語・音声理解と対話処理研究会

回次: 96

開催地: 国立国語研究所

開催日: 2022/12/13 - 2022/12/14

視線情報付き視覚的質問応答データセットの構築

稲積駿, 河野誠也, 湯口彰重, 川西康友, 吉野幸一郎

著者情報

会議録・要旨集フリー

p. 13-

詳細

抄録

視覚的質問応答(VQA: Visual Question Answering)は、画像に関する質問が与えられた時に回答を導くタスクであり、質問と画像中の情報から回答が一意に決定する状況を仮定する。しかし、VQAをロボット対話などの実世界対話に応用しようとした場合、主語の省略や指示語の利用が生じ、その情報を補完するように視線や指差しなど様々なコンテキスト情報が用いられる場合がある。本研究ではこうした曖昧性に対処できるVQAシステムを構築することを指向して、特に画像中の人物が見ている対象の情報を利用したVQAデータセットを構築した。具体的には、視線情報がアノテーションされた画像に対して、視線情報で補完される曖昧な質問を含むVQAデータセットをクラウドソーシングで構築した。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）