人工知能学会第二種研究会資料
Online ISSN : 2436-5556
PDF形式の金融文書における項目-数値間関係を考慮したテーブル情報抽出
青野 有華市川 幸史近藤 浩史加藤 淳也
著者情報
研究報告書・技術報告書 フリー

2021 年 2021 巻 FIN-027 号 p. 19-

詳細
抄録

有価証券報告書などの金融文書において,重要な情報はテーブル形式で記載されることもあり,テーブル内の情報抽出は金融データの更なる利活用に向けて重要な役割を果たすと期待される.しかし,企業が共通して開示する文書であっても,企業によってテーブル形式が異なることや,情報抽出の難しいPDF 形式で開示される文書も存在することから,現状テーブル情報が抽出され,十分に活用されているとは言い難い.そこで本研究では,PDF 形式で開示されている日本語金融文書内のテーブルからの情報抽出を試みた.我々の手法では,PDF 内の罫線情報を利用しテーブル領域およびテーブル内セルを抽出した.その上でセル内での改行とセルの区切りを区別するために,セル内項目情報および数値情報に着目したBERT ベースの分割判定モデルを構築した.実験では,2 種類のPDF 形式の金融文書に含まれるテーブルを対象とした性能評価実験を行い,我々の提案手法が優れた性能を発揮することを確認した.

著者関連情報
© 2021 著作者
前の記事 次の記事
feedback
Top