人工知能学会第二種研究会資料
Online ISSN : 2436-5556
レイアウト認識に基づく論文構成要素の抽出
岩月 憲一加藤 恒昭山口 和紀
著者情報
研究報告書・技術報告書 フリー

2016 年 2016 巻 AM-12 号 p. 10-

詳細
抄録

学術論文は複数の構成要素から構成され,各要素は「本文」「図」等の文書内役割を持っている.この情報を抽出することで,特定の文書内役割に注目した論文検索等,より高度な論文活用が可能となる.本研究では,論文画像をOCRで処理したものを入力とし,論文構成要素の同定と,それに対する文書内役割の付与を試みた.OCRによる認識誤りを修正した後,CRFを用いて文書内役割の学習・推定を行う.実験の結果,文書内役割の付与は最も良い場合で正解率0.94となった.

著者関連情報
© 2016 著作者
前の記事
feedback
Top