2023 年 2023 巻 FIN-030 号 p. 100-105
我々は,有価証券報告書(有報)に含まれるさまざまなタイプの表の理解を目的に,表構造解析を行うタスクを計画している.有報にはタクソノミがテキストブロックとして定義された箇所があり,特に非財務情報を表現する表には様々なタイプが含まれる.既存研究を参考に有報の表の各セルをヘッダ,属性,データといったクラスに分類した結果,既存研究で分類された関係表,エンティティ表,行列表などのいずれのパターンにも分類されない複雑な構造の表が見られ,さらにそれらの構造がいくつかのパターンに分類できた.本稿ではまず,各セルの分類方法と,その結果発見された表構造のパターンについて報告する.これらのうちセルが正しく分類できた表については,NTCIR-17 UFOタスクの表データ抽出(TDE)サブタスクでアノテーションデータを公開し,評価型ワークショップとして取り組めるようにする予定である.本稿ではこのタスクのデータ形式,評価方法についても取り上げる.