電気学会論文誌C(電子・情報・システム部門誌)
Online ISSN : 1348-8155
Print ISSN : 0385-4221
ISSN-L : 0385-4221
<情報処理・ソフトウェア>
ビジネス文書からのメタデータ抽出のためのルール自動生成技術
松本 俊子大峡 光晴小野山 隆秋吉 政徳
著者情報
ジャーナル フリー

2011 年 131 巻 8 号 p. 1502-1511

詳細
抄録

Toward facile introduction of metadata-based document management system, we propose an algorithm which uses sample documents and their manually specified metadata as training data, and generates metadata-extraction rules. Our algorithm enumerates candidates of keywords and layout characteristics specific to the metadata on the basis of metadata occurrence in the training data. And then it examines whether each candidate is specific to only one kind of metadata. In an experiment on Japanese business documents and weekly reports, automatically generated rules have achieved metadata extraction as accurate as manually adjusted one.

著者関連情報
© 電気学会 2011
前の記事 次の記事
feedback
Top