表構造解析手法のトークン抽出処理の改良とFinTabNetを用いた評価

田上 歩夢; 金澤 輝一; 上野 史; 太田 学

doi:10.57413/wii.21.0_108

抄録

文書に含まれる表を有効活用するには，表の構造を正確に解析する必要がある．青柳らは，グラフニューラルネットワークを用いたPDF文書の表構造解析手法を提案し，我々はその解析結果の誤りの修正手法をDEIM 2025で提案した．青柳らや我々の研究では，ICDAR 2013 Table Competitionの表データを対象に評価したが，この表データは規模が小さく，文書レイアウトの多様性も限定的であった．これに対して，FinTabNetはS&P 500企業の年次報告書から収集された大規模かつ多様なレイアウトを持つ表のデータセットである．しかし，FinTabNetに収録されているPDFの表から，我々が表構造解析に用いるpdfaltoによりトークンを抽出すると欠落や誤抽出が見られた．そこで本研究では，OCRを併用してトークン抽出処理を改良するとともに，学習データから無作為に抽出した150表に構造情報を付与し，それを用いて表構造解析を行うNNモジュールをファインチューニングした．実験では，FinTabNetのテストデータ10,635表を構造解析し，DEIM 2025で我々が提案した表構造解析手法等と，表構造解析精度を比較した．その結果，表構造解析精度の一つであるTEDSスコアは0.780となり，これはDEIM 2025で提案した手法を8.9ポイント上回った．

著者関連情報

2025 この論文のすべての権利と著作権は著者に帰属します。

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）