人工知能学会全国大会論文集
Online ISSN : 2758-7347
第35回 (2021)
セッションID: 4I1-GS-7b-01
会議情報

マルチモーダル推論のための動画アクションデータセットの構築
*横関 茉衣村上 夏輝鈴木 莉子谷中 瞳峯島 宏次戸次 大介
著者情報
会議録・要旨集 フリー

詳細
抄録

本論文では、動画像に写る人物のアクション情報を(人物,動作,対象)の三つ組の形式で付与した、動画像テキスト間推論のためのデータセットを提案する。動画に対して157種類のアクション情報を付与した大規模データセットCharadesから200件の動画をランダムに選択し、1つあたり30秒程度の動画に対して約28件のアクション情報を人手でアノテーションする。アノテーション作業は2名で行い、第三者によるアノテーション結果の統合・確認作業を行うことで、アクション情報を多様な表現で記述でき、かつ質の高いデータセットの構築を試みた。今回作成したデータセットは、動画200本に対して総アクション数が5554となり、アクションラベルは1942種類となった。アクションラベルには既存のデータセットや静止画には現れないような「食べ続ける」「閉めようとする」といった動画特有の様々な表現が含まれている。本データセットは、否定や数量といった意味的に複雑な文と動画間の推論システムの評価や動画のシーン検索への応用が期待される。

著者関連情報
© 2021 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top