人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 3Win5-34
会議情報

グラフ情報の記述を使ったCLIPの対照学習は画像エンコーダーのダイアグラム認識能力を向上させる
*寺下 直行戸崎 友輔表 英輝CONGKHA Nguyen中本 陵介是枝 祐太尾崎 太亮
著者情報
会議録・要旨集 フリー

詳細
抄録

図表を含む文書を入力とするテキスト生成タスクには,テキストと画像の両方に基づく推論が可能なVisual language model(VLM)の活用が期待されている.特に産業応用のためには,技術文書に頻出するフローチャートや回路図など,線と図形を用いて構造や関係性を視覚化する図表(ダイアグラム)を正確に認識することが求められる.しかし、近年の研究は、VLMで広く用いられる画像エンコーダーがダイアグラムを正確に認識していない可能性を指摘している。本研究では、画像エンコーダーのエッジ認識能力獲得における学習データの寄与を実験的に評価した。具体的には、人工的に生成したダイアグラム画像と、Mermaid記法で記述したグラフ情報のテキストを用いた対照学習を実施した。その結果、エッジの有無や方向に関する画像エンコーダーの認識性能が複数の指標で向上することを確認し,VLMのダイアグラム認識能力におけるCLIPの学習データの寄与の一部を明らかにした.

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top