主催: Webインテリジェンスとインタラクション研究会
会議名: WI2研究会
回次: 18
開催地: 高知工科大学/オンライン
開催日: 2022/11/25 - 2022/11/26
p. 1-8
学術論文では,実験結果を示すのに表が頻繁に用いられる.しかしながら,多くの数値を効率良く把握するにはグラフのほうが視覚的に優れている.そのため,表構造を自動解析して表データをグラフ化する研究などがある.本稿では,表検出を含むエンドツーエンドの表構造解析手法を提案しその精度を評価する.表検出には,複数の表検出データセットで優れた成果を残したCascadeTabNetを利用する.また,表構造解析には,ICDAR 2013 table datasetの解析において,そのコンペティションの参加者の最高成績を上回った我々が提案した表構造解析手法を用いる.本稿の評価実験でも評価対象としてICDAR 2013 table datasetを用い,評価指標にはICDAR 2013で採用されたセルの隣接関係に基づいた評価指標およびICDAR 2021で採用されたTree-Edit-Distance-based Similarityを用いる.評価実験ではまた,商用システムであるABBYY FineReader PDFと比較する.評価実験の結果,表検出ではABBYY FineReader PDFの表検出率が0.968,提案手法で用いたCascadeTabNetが0.962となった.また,表構造解析では,提案手法はABBYY FineReader PDFと比較して,セルの隣接関係に基づく評価指標のF値が0.962となり0.2ポイント上回った一方で,TEDSが0.948となり1ポイント下回る結果だった.