AI・データサイエンス論文集
Online ISSN : 2435-9262
注目領域を制御可能な橋梁点検特化型マルチモーダルLLMの構築 -学習不要なVisual Prompt Learning に基づく領域誘導型制御機構の導入-
前田 圭介佐藤 雅也小川 貴弘長谷山 美紀
著者情報
ジャーナル オープンアクセス

2025 年 6 巻 3 号 p. 479-488

詳細
抄録

Multimodal Large Language Model(MLLM)は様々な分野で応用が進んでおり,インフラ維持管理においても,対象データを用いた Instruction Tuning により,専門知識に基づく推論が可能となっている.しかしながら,十分な学習データが得られない環境では,「どこに注目して判断すべきか」といった領域情報を MLLM に明示的に学習させることは困難である.そこで本研究では,画像とプロンプトに加えて,推論時に注目すべき領域を入力として指定し,その領域の影響が MLLM の出力に強く反映されるよう,潜在表現を最適化するVisual Prompt Learning を導入する.本手法により,従来の画像・プロンプトのみを用いた MLLM と比較して,対象領域へのアテンションを誘導し,高精度な推論が可能となる.本手法は MLLM自体のパラメータを更新する必要がなく,注目領域と画像を用いた大規模な学習も不要であることから,実運用に適したアプローチである.xROAD に蓄積された橋梁点検データを用いた実験を通じて,提案手法の有効性を実証した.

著者関連情報
© 2025 公益社団法人 土木学会
前の記事 次の記事
feedback
Top