2025 年 6 巻 2 号 p. 173-178
近年,技術者数の減少に伴い効率的なインフラ管理が進められている.しかし,点検に必要な構造物の図面はデータベースに統合されておらず,スキャンされた図面の効率的なCADデータ化が求められている.本研究では,図面のCADデータ化に向け,文字検出モデル(FCENet)と大規模マルチモーダルモデル (LMM,GPT-4o)を統合して図面の数値認識を行う手法を提案する.実験の結果,文字検出モデルによって数値の位置を特定し,背景や不要な線の影響を抑えた上で個々の検出結果をLMMに入力する提案手法は,LMMが数値の位置を推測する負担を軽減し,より安定した数値認識が可能であることが示された.また,LMMのモデル更新は図面の数値認識精度の向上において重要であり,将来的には,より高度なモデルを採用することでさらなる精度の向上が期待できる.