日本図書館情報学会誌
Online ISSN : 2432-4027
Print ISSN : 1344-8668
ISSN-L : 1344-8668
論文
構造と構成要素に基づく学術論文の自動判定
石田 栄美安形 輝宮田 洋輔池内 淳上田 修一
著者情報
ジャーナル オープンアクセス

2014 年 60 巻 1 号 p. 18-34

詳細
抄録

ウェブ上に存在するPDFファイル群から学術論文を自動的に判定する手法の開発を目的とした。まず,学術論文の構成要素と構造がどのように発達してきたかを調査した。英語と日本語の学術論文1,172件に対して,それらが顕れているかを調査した。その結果,論文は共通した構成要素を有しており,見出しを持つ論文のうち40%近くがIMRAD形式またはそれに近い構造を採っていた。次に,これらの結果をもとに,学術論文を自動的に判定するためのルールを構築した。ウェブ上から無作為に収集した英語と日本語のPDFファイル集合を用いて判定性能を実験したところ,ランダムフォレストによる判定器を用いた場合,F値は英語集合では0.74,日本語集合では0.53であった。これらの結果から,本研究で用いたアプローチにより構築した判定ルールにより,ウェブ上に存在するPDFファイル群から学術論文を自動的に判定できる可能性が示唆された。

著者関連情報
© 2014 日本図書館情報学会
前の記事 次の記事
feedback
Top