人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 3N6-GS-7-02
会議情報

自動車組立作業映像におけるVision and Language基盤モデルを利用した行動解析に関する基礎検討
*清田 航暉久保 莞太久冨 あすか伊藤 浩隆東園 雄太小野 智司
著者情報
会議録・要旨集 フリー

詳細
抄録

作業手順の遵守状況の把握や各作業時間の計測の自動化を目的として,自動車製造における作業員の行動解析に対する要望が高まっている.先行研究で提案された,行動解析を行うための深層ニューラルネットワークを教師あり学習により訓練するためには,映像を構成するフレーム単位のラベルが必要となり,教師データの不足が問題となる.一方で近年,画像と言語で共通する埋込みを大規模事前学習によって獲得する視覚言語モデル(Vision and Language Model: VLM)が基盤モデルの一種として注目を集めている.VLMの活用により,従来は大量の教師ラベル付き訓練データが必要とされていた領域においても,より効率的なモデル構築が可能となりつつある.このため本研究では,代表的なVLMの1つであるCLIP(Contrastive Language-Image Pre-training)を自動車組立映像の行動解析に適用し,言語モダリティを活用した学習手法を提案する.特に,言語モダリティの活用をすることにより,少量の教師付き訓練データでのモデルを構築が可能であるかを検証する.

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top