グラフ情報の記述を使ったCLIPの対照学習は画像エンコーダーのダイアグラム認識能力を向上させる

寺下 直行; 戸崎 友輔; 表 英輝; CONGKHA Nguyen; 中本 陵介; 是枝 祐太; 尾崎 太亮

doi:10.11517/pjsai.JSAI2025.0_3Win534

第39回 (2025)

セッションID: 3Win5-34

DOI https://doi.org/10.11517/pjsai.JSAI2025.0_3Win534

会議情報

主催: 一般社団法人人工知能学会

会議名: 2025年度人工知能学会全国大会（第39回）

回次: 39

開催地: 大阪国際会議場＋オンライン

開催日: 2025/05/27 - 2025/05/30

グラフ情報の記述を使ったCLIPの対照学習は画像エンコーダーのダイアグラム認識能力を向上させる

*寺下直行, 戸崎友輔, 表英輝, CONGKHA Nguyen, 中本陵介, 是枝祐太, 尾崎太亮

著者情報

キーワード: マルチモーダル, グラフ, 大規模言語モデル, 図表認識, 視覚言語モデル

会議録・要旨集フリー

詳細

抄録

図表を含む文書を入力とするテキスト生成タスクには，テキストと画像の両方に基づく推論が可能なVisual language model（VLM）の活用が期待されている．特に産業応用のためには，技術文書に頻出するフローチャートや回路図など，線と図形を用いて構造や関係性を視覚化する図表（ダイアグラム）を正確に認識することが求められる．しかし、近年の研究は、VLMで広く用いられる画像エンコーダーがダイアグラムを正確に認識していない可能性を指摘している。本研究では、画像エンコーダーのエッジ認識能力獲得における学習データの寄与を実験的に評価した。具体的には、人工的に生成したダイアグラム画像と、Mermaid記法で記述したグラフ情報のテキストを用いた対照学習を実施した。その結果、エッジの有無や方向に関する画像エンコーダーの認識性能が複数の指標で向上することを確認し，VLMのダイアグラム認識能力におけるCLIPの学習データの寄与の一部を明らかにした．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）