図表を含む文書を入力とするテキスト生成タスクには,テキストと画像の両方に基づく推論が可能なVisual language model(VLM)の活用が期待されている.特に産業応用のためには,技術文書に頻出するフローチャートや回路図など,線と図形を用いて構造や関係性を視覚化する図表(ダイアグラム)を正確に認識することが求められる.しかし、近年の研究は、VLMで広く用いられる画像エンコーダーがダイアグラムを正確に認識していない可能性を指摘している。本研究では、画像エンコーダーのエッジ認識能力獲得における学習データの寄与を実験的に評価した。具体的には、人工的に生成したダイアグラム画像と、Mermaid記法で記述したグラフ情報のテキストを用いた対照学習を実施した。その結果、エッジの有無や方向に関する画像エンコーダーの認識性能が複数の指標で向上することを確認し,VLMのダイアグラム認識能力におけるCLIPの学習データの寄与の一部を明らかにした.