マルチモーダル推論のための動画アクションデータセットの構築

横関 茉衣; 村上 夏輝; 鈴木 莉子; 谷中 瞳; 峯島 宏次; 戸次 大介

doi:10.11517/pjsai.JSAI2021.0_4I1GS7b01

抄録

本論文では、動画像に写る人物のアクション情報を（人物，動作，対象）の三つ組の形式で付与した、動画像テキスト間推論のためのデータセットを提案する。動画に対して157種類のアクション情報を付与した大規模データセットCharadesから200件の動画をランダムに選択し、1つあたり30秒程度の動画に対して約28件のアクション情報を人手でアノテーションする。アノテーション作業は2名で行い、第三者によるアノテーション結果の統合・確認作業を行うことで、アクション情報を多様な表現で記述でき、かつ質の高いデータセットの構築を試みた。今回作成したデータセットは、動画200本に対して総アクション数が5554となり、アクションラベルは1942種類となった。アクションラベルには既存のデータセットや静止画には現れないような「食べ続ける」「閉めようとする」といった動画特有の様々な表現が含まれている。本データセットは、否定や数量といった意味的に複雑な文と動画間の推論システムの評価や動画のシーン検索への応用が期待される。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）