人工知能学会全国大会論文集
Online ISSN : 2758-7347
第34回 (2020)
セッションID: 2Q1-GS-10-04
会議情報

多段階時空間推論による映像質問応答
*宮西 大樹前川 卓也川鍋 一晃
著者情報
キーワード: 質問応答, 映像
会議録・要旨集 フリー

詳細
抄録

本研究では、多段階時空間推論による映像質問応答手法を提案する。映像質問応答とは、ある映像とその映像に関する質問が与えられたときに、その質問に対して適切な答えを返す課題である。映像は複数のフレーム画像から構成されるため、これまで画像フレームとテキストの関係を表す時間的構造を考慮した映像質問応答手法が数多く提案され、複数の映像質問応答データセットで良い性能を示してきた。しかし、映像を構成する画像フレームには複数の物体が映ることが多いにもかかわらず、時間と空間の両方の情報を同時に考慮できる高性能な映像質問応答手法はまだ少ない。映像に対して、より複雑かつ正確な推論を行うには、映像の時空間的構造と自然言語で記述された質問を同時に考慮することが不可欠である。そこで、本研究では空間情報を扱う視覚的推論課題で高い性能を示すCompositional Attention Networksを時空間情報を処理できるネットワークへと拡張し、これを映像質問応答に利用する。本手法を、公開されている4つの映像質問応答データセットに適用したところ、従来の手法と比較して全てのデータセットで最も良い性能を示すことがわかった。

著者関連情報
© 2020 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top