人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
96回 (2022/12)
会議情報

視線情報付き視覚的質問応答データセットの構築
稲積 駿河野 誠也湯口 彰重川西 康友吉野 幸一郎
著者情報
会議録・要旨集 フリー

p. 13-

詳細
抄録

視覚的質問応答(VQA: Visual Question Answering)は、画像に関する質問が与えられた時に回答を導くタスクであり、質問と画像中の情報から回答が一意に決定する状況を仮定する。しかし、VQAをロボット対話などの実世界対話に応用しようとした場合、主語の省略や指示語の利用が生じ、その情報を補完するように視線や指差しなど様々なコンテキスト情報が用いられる場合がある。本研究ではこうした曖昧性に対処できるVQAシステムを構築することを指向して、特に画像中の人物が見ている対象の情報を利用したVQAデータセットを構築した。具体的には、視線情報がアノテーションされた画像に対して、視線情報で補完される曖昧な質問を含むVQAデータセットをクラウドソーシングで構築した。

著者関連情報
© 2022 人工知能学会
前の記事 次の記事
feedback
Top