動画キャプション生成とMetaVDを用いた動作認識データセットの拡張

後藤 颯志; チャクラボルティ シュデシナ; 森田 武史; 吉川 友也; 山本 泰智; 江上 周作; 鵜飼 孝典; 福田 賢一郎

doi:10.11517/jsaisigtwo.2025.SWO-065_03

抄録

既存の動作認識データセットでは，多くの場合，各動画に一つの動作ラベルのみが付与されており，動画に含まれる複数の動作を網羅できていない．本研究では，動画キャプション生成とメタ動画データセットMetaVDを用いた動作認識データセット拡張手法を提案する．提案手法は，大規模視覚言語モデルで生成した動画キャプションを基に，大規模言語モデルを用いてMetaVDから関連する動作ラベルを抽出し，それらとequal関係にある動作ラベルも併せて抽出して，対象動画に付与する．評価実験では，HMDB51に含まれる動画に対し，提案手法が付与した動作ラベルの復元率と人手による妥当性の検証により，提案手法の有効性を示す．

著者関連情報

お気に入り & アラート

閲覧履歴

発行機関からのお知らせ

第二種研究会の全記事は認証なしでアクセス可能です．また，各記事の著作権は原則として著者に帰属します．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）