レイアウト認識に基づく論文構成要素の抽出

岩月 憲一; 加藤 恒昭; 山口 和紀

doi:10.11517/jsaisigtwo.2016.AM-12_10

抄録

学術論文は複数の構成要素から構成され，各要素は「本文」「図」等の文書内役割を持っている．この情報を抽出することで，特定の文書内役割に注目した論文検索等，より高度な論文活用が可能となる．本研究では，論文画像をOCRで処理したものを入力とし，論文構成要素の同定と，それに対する文書内役割の付与を試みた．OCRによる認識誤りを修正した後，CRFを用いて文書内役割の学習・推定を行う．実験の結果，文書内役割の付与は最も良い場合で正解率0.94となった．

著者関連情報

お気に入り & アラート

閲覧履歴

発行機関からのお知らせ

第二種研究会の全記事は認証なしでアクセス可能です．また，各記事の著作権は原則として著者に帰属します．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）