主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
作業手順の遵守状況の把握や各作業時間の計測の自動化を目的として,自動車製造における作業員の行動解析に対する要望が高まっている.先行研究で提案された,行動解析を行うための深層ニューラルネットワークを教師あり学習により訓練するためには,映像を構成するフレーム単位のラベルが必要となり,教師データの不足が問題となる.一方で近年,画像と言語で共通する埋込みを大規模事前学習によって獲得する視覚言語モデル(Vision and Language Model: VLM)が基盤モデルの一種として注目を集めている.VLMの活用により,従来は大量の教師ラベル付き訓練データが必要とされていた領域においても,より効率的なモデル構築が可能となりつつある.このため本研究では,代表的なVLMの1つであるCLIP(Contrastive Language-Image Pre-training)を自動車組立映像の行動解析に適用し,言語モダリティを活用した学習手法を提案する.特に,言語モダリティの活用をすることにより,少量の教師付き訓練データでのモデルを構築が可能であるかを検証する.