人工知能学会第二種研究会資料
Online ISSN : 2436-5556
有価証券報告書を対象とした表構造解析のためのデータセットの構築に向けて
門脇 一真木村 泰知加藤 誠近藤 隆史乙武 北斗
著者情報
研究報告書・技術報告書 フリー

2023 年 2023 巻 FIN-030 号 p. 100-105

詳細
抄録

我々は,有価証券報告書(有報)に含まれるさまざまなタイプの表の理解を目的に,表構造解析を行うタスクを計画している.有報にはタクソノミがテキストブロックとして定義された箇所があり,特に非財務情報を表現する表には様々なタイプが含まれる.既存研究を参考に有報の表の各セルをヘッダ,属性,データといったクラスに分類した結果,既存研究で分類された関係表,エンティティ表,行列表などのいずれのパターンにも分類されない複雑な構造の表が見られ,さらにそれらの構造がいくつかのパターンに分類できた.本稿ではまず,各セルの分類方法と,その結果発見された表構造のパターンについて報告する.これらのうちセルが正しく分類できた表については,NTCIR-17 UFOタスクの表データ抽出(TDE)サブタスクでアノテーションデータを公開し,評価型ワークショップとして取り組めるようにする予定である.本稿ではこのタスクのデータ形式,評価方法についても取り上げる.

著者関連情報
© 2023 著作者
前の記事 次の記事
feedback
Top