Webインテリジェンスとインタラクション研究会 予稿集
Online ISSN : 2758-2922
第18回研究会
会議情報

セッション1:QA・データ構造
表検出を含むエンドツーエンド表構造解析手法の評価
青柳 拓志金澤 輝一高須 淳宏上野 史太田 学
著者情報
会議録・要旨集 フリー

p. 1-8

詳細
抄録

学術論文では,実験結果を示すのに表が頻繁に用いられる.しかしながら,多くの数値を効率良く把握するにはグラフのほうが視覚的に優れている.そのため,表構造を自動解析して表データをグラフ化する研究などがある.本稿では,表検出を含むエンドツーエンドの表構造解析手法を提案しその精度を評価する.表検出には,複数の表検出データセットで優れた成果を残したCascadeTabNetを利用する.また,表構造解析には,ICDAR 2013 table datasetの解析において,そのコンペティションの参加者の最高成績を上回った我々が提案した表構造解析手法を用いる.本稿の評価実験でも評価対象としてICDAR 2013 table datasetを用い,評価指標にはICDAR 2013で採用されたセルの隣接関係に基づいた評価指標およびICDAR 2021で採用されたTree-Edit-Distance-based Similarityを用いる.評価実験ではまた,商用システムであるABBYY FineReader PDFと比較する.評価実験の結果,表検出ではABBYY FineReader PDFの表検出率が0.968,提案手法で用いたCascadeTabNetが0.962となった.また,表構造解析では,提案手法はABBYY FineReader PDFと比較して,セルの隣接関係に基づく評価指標のF値が0.962となり0.2ポイント上回った一方で,TEDSが0.948となり1ポイント下回る結果だった.

著者関連情報
2022 この論文のすべての権利と著作権は著者に帰属します。
次の記事
feedback
Top