Webインテリジェンスとインタラクション研究会 予稿集
Online ISSN : 2758-2922
第21回研究会
会議情報

セッション6:情報抽出・レシピ
表構造解析手法のトークン抽出処理の改良とFinTabNetを用いた評価
田上 歩夢金澤 輝一上野 史太田 学
著者情報
会議録・要旨集 フリー

p. 108-115

詳細
抄録

文書に含まれる表を有効活用するには,表の構造を正確に解析する必要がある.青柳らは,グラフニューラルネットワークを用いたPDF文書の表構造解析手法を提案し,我々はその解析結果の誤りの修正手法をDEIM 2025で提案した.青柳らや我々の研究では,ICDAR 2013 Table Competitionの表データを対象に評価したが,この表データは規模が小さく,文書レイアウトの多様性も限定的であった.これに対して,FinTabNetはS&P 500企業の年次報告書から収集された大規模かつ多様なレイアウトを持つ表のデータセットである.しかし,FinTabNetに収録されているPDFの表から,我々が表構造解析に用いるpdfaltoによりトークンを抽出すると欠落や誤抽出が見られた.そこで本研究では,OCRを併用してトークン抽出処理を改良するとともに,学習データから無作為に抽出した150表に構造情報を付与し,それを用いて表構造解析を行うNNモジュールをファインチューニングした.実験では,FinTabNetのテストデータ10,635表を構造解析し,DEIM 2025で我々が提案した表構造解析手法等と,表構造解析精度を比較した.その結果,表構造解析精度の一つであるTEDSスコアは0.780となり,これはDEIM 2025で提案した手法を8.9ポイント上回った.

著者関連情報
2025 この論文のすべての権利と著作権は著者に帰属します。
前の記事 次の記事
feedback
Top