主催: 一般社団法人 人工知能学会
会議名: 2021年度人工知能学会全国大会(第35回)
回次: 35
開催地: オンライン
開催日: 2021/06/08 - 2021/06/11
本研究では,外観・動作・音声情報を同時に用いて,映像に対する質問に回答するオープンエンド型のマルチモーダル映像質問応答手法を提案する.音声情報は映像コンテンツを理解するために視覚情報と合わせて有用だと考えられるものの,既存手法の多くは動作と外観情報を利用しており,音声情報は利用されていない.また,外観・動作・音声情報を用いた一部の先行研究では,詳細なマルチモーダルデータを効果的に統合することができなかったため,あまり良い結果が得られていなかった.これらの問題を解決するため,我々はテキスト情報で条件付けしたマルチストリーム3次元畳み込みネットワーク(3D ConvNets)手法を提案する。我々のモデルでは,複数の3D ConvNets上で微細なマルチモーダル情報を表現し,質問の意味内容で条件付した時空間情報を用いて解答を予測する.公開されている音声トラック付きの映像質問応答データセットMSRVTT-QAとActivityNet-QAを用いた実験結果から,我々の手法は,動作・外観・音声情報を効果的に組み合わせ,最先端の手法よりも優れた結果を示すことができた.