主催: 一般社団法人 人工知能学会
会議名: 2021年度人工知能学会全国大会(第35回)
回次: 35
開催地: オンライン
開催日: 2021/06/08 - 2021/06/11
本論文では、動画像に写る人物のアクション情報を(人物,動作,対象)の三つ組の形式で付与した、動画像テキスト間推論のためのデータセットを提案する。動画に対して157種類のアクション情報を付与した大規模データセットCharadesから200件の動画をランダムに選択し、1つあたり30秒程度の動画に対して約28件のアクション情報を人手でアノテーションする。アノテーション作業は2名で行い、第三者によるアノテーション結果の統合・確認作業を行うことで、アクション情報を多様な表現で記述でき、かつ質の高いデータセットの構築を試みた。今回作成したデータセットは、動画200本に対して総アクション数が5554となり、アクションラベルは1942種類となった。アクションラベルには既存のデータセットや静止画には現れないような「食べ続ける」「閉めようとする」といった動画特有の様々な表現が含まれている。本データセットは、否定や数量といった意味的に複雑な文と動画間の推論システムの評価や動画のシーン検索への応用が期待される。