2025 年 2025 巻 SWO-065 号 p. 03-
既存の動作認識データセットでは,多くの場合,各動画に一つの動作ラベルのみが付与されており,動画に含まれる複数の動作を網羅できていない.本研究では,動画キャプション生成とメタ動画データセットMetaVDを用いた動作認識データセット拡張手法を提案する.提案手法は,大規模視覚言語モデルで生成した動画キャプションを基に,大規模言語モデルを用いてMetaVDから関連する動作ラベルを抽出し,それらとequal関係にある動作ラベルも併せて抽出して,対象動画に付与する.評価実験では,HMDB51に含まれる動画に対し,提案手法が付与した動作ラベルの復元率と人手による妥当性の検証により,提案手法の有効性を示す.