注目領域を制御可能な橋梁点検特化型マルチモーダルLLMの構築 －学習不要なVisual Prompt Learning に基づく領域誘導型制御機構の導入－

前田 圭介; 佐藤 雅也; 小川 貴弘; 長谷山 美紀

doi:10.11532/jsceiii.6.3_479

抄録

Multimodal Large Language Model（MLLM）は様々な分野で応用が進んでおり，インフラ維持管理においても，対象データを用いた Instruction Tuning により，専門知識に基づく推論が可能となっている．しかしながら，十分な学習データが得られない環境では，「どこに注目して判断すべきか」といった領域情報を MLLM に明示的に学習させることは困難である．そこで本研究では，画像とプロンプトに加えて，推論時に注目すべき領域を入力として指定し，その領域の影響が MLLM の出力に強く反映されるよう，潜在表現を最適化するVisual Prompt Learning を導入する．本手法により，従来の画像・プロンプトのみを用いた MLLM と比較して，対象領域へのアテンションを誘導し，高精度な推論が可能となる．本手法は MLLM自体のパラメータを更新する必要がなく，注目領域と画像を用いた大規模な学習も不要であることから，実運用に適したアプローチである．xROAD に蓄積された橋梁点検データを用いた実験を通じて，提案手法の有効性を実証した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）