主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
本研究では、多段階時空間推論による映像質問応答手法を提案する。映像質問応答とは、ある映像とその映像に関する質問が与えられたときに、その質問に対して適切な答えを返す課題である。映像は複数のフレーム画像から構成されるため、これまで画像フレームとテキストの関係を表す時間的構造を考慮した映像質問応答手法が数多く提案され、複数の映像質問応答データセットで良い性能を示してきた。しかし、映像を構成する画像フレームには複数の物体が映ることが多いにもかかわらず、時間と空間の両方の情報を同時に考慮できる高性能な映像質問応答手法はまだ少ない。映像に対して、より複雑かつ正確な推論を行うには、映像の時空間的構造と自然言語で記述された質問を同時に考慮することが不可欠である。そこで、本研究では空間情報を扱う視覚的推論課題で高い性能を示すCompositional Attention Networksを時空間情報を処理できるネットワークへと拡張し、これを映像質問応答に利用する。本手法を、公開されている4つの映像質問応答データセットに適用したところ、従来の手法と比較して全てのデータセットで最も良い性能を示すことがわかった。