自動車組立作業映像におけるVision and Language基盤モデルを利用した行動解析に関する基礎検討

清田 航暉; 久保 莞太; 久冨 あすか; 伊藤 浩隆; 東園 雄太; 小野 智司

doi:10.11517/pjsai.JSAI2025.0_3N6GS702

第39回 (2025)

セッションID: 3N6-GS-7-02

DOI https://doi.org/10.11517/pjsai.JSAI2025.0_3N6GS702

会議情報

主催: 一般社団法人人工知能学会

会議名: 2025年度人工知能学会全国大会（第39回）

回次: 39

開催地: 大阪国際会議場＋オンライン

開催日: 2025/05/27 - 2025/05/30

自動車組立作業映像におけるVision and Language基盤モデルを利用した行動解析に関する基礎検討

*清田航暉, 久保莞太, 久冨あすか, 伊藤浩隆, 東園雄太, 小野智司

著者情報

キーワード: マルチモーダル基盤モデル, 行動解析, 時系列行動セグメンテーション, 自然言語処理, 動画像処理

会議録・要旨集フリー

詳細

抄録

作業手順の遵守状況の把握や各作業時間の計測の自動化を目的として，自動車製造における作業員の行動解析に対する要望が高まっている．先行研究で提案された，行動解析を行うための深層ニューラルネットワークを教師あり学習により訓練するためには，映像を構成するフレーム単位のラベルが必要となり，教師データの不足が問題となる．一方で近年，画像と言語で共通する埋込みを大規模事前学習によって獲得する視覚言語モデル（Vision and Language Model: VLM）が基盤モデルの一種として注目を集めている．VLMの活用により，従来は大量の教師ラベル付き訓練データが必要とされていた領域においても，より効率的なモデル構築が可能となりつつある．このため本研究では，代表的なVLMの1つであるCLIP（Contrastive Language-Image Pre-training）を自動車組立映像の行動解析に適用し，言語モダリティを活用した学習手法を提案する．特に，言語モダリティの活用をすることにより，少量の教師付き訓練データでのモデルを構築が可能であるかを検証する．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）