視覚言語モデルを用いたボーリング柱状図からの構造化データ自動生成

志賀 正崇

doi:10.11532/jsceiii.7.1_133

抄録

本研究では，視覚言語モデル（Vision-Language Model: VLM）を用いて，文字情報が埋め込まれていないボーリング柱状図画像から構造化データを自動生成する手法を提案する．従来の OCR 技術では，画像内の文字認識は可能であるものの，ボーリング柱状図特有の複雑な図表構造の意味理解や，地層情報・試験値の関連付けには限界があった．本手法では，Google Gemini API を用いた 2 段階 VLM 処理（スキーマ要素選択 + YAML 抽出）により，画像から直接，地質・土質調査成果電子納品要領に沿った YAML 形式構造化データを生成する．ほくりく地盤情報システムから取得した 10 本のボーリングデータ（評価対象12 ページ）を対象に，モデルの違いおよび画像解像度条件の違いが抽出精度に与える影響を検証した．実験の結果，Gemini 3 Pro モデルを用いた場合の地層情報抽出精度（F1）は 0.950，標準貫入試験値の深度マッチ精度（F1）は 0.793，N 値一致率は 80.8%となり，ボーリング柱状図画像からの自動構造化が実用的な精度で可能であることを確認した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）