文書,図面からの属性情報の一つであるキーワード候補抽出を行うプロダクションシステムを構築し,候補の中から選択,登録することによりオペレータの一連の作業負担を軽減する方法を提案する.
キーワード抽出に係る知識としてフォントサイズ,文書中に現れる位置,出現頻度などが一般的に知られているが,対象文書の形式によってこれら知識の重要度は異なるため,あらかじめレター形式,フォーム形式および図面形式に自動的に識別し,それぞれに最適なキーワード抽出方法を提案している.このとき,プロダクションシステムを用いるが,これは,各知識が独立しているため,知識の全体像が把握し難いなどの欠点を持つため,階層的分析法(Analytic Hierarchy Process: AHP)を導入して,この問題を克服している.
提案方法により,100種類の現実のテスト文書,図面を用いて実験したところ,検索キーワードを効率よく(98%)抽出することができるとの結論が得られた.AHPによる確信度の推定を行わず,知識評価項目(Fontsize,Y_Position,X_Position,Frequency)の重要度をすべて等しいと考えた場合,特定のキーワード候補のフォントサイズ,出現頻度が他の候補に比し異なる場合は正しくキーワードを抽出できるが,特に,キーワードの出現位置に関する知識については有効に作用せずに,結果として,75%しか自動的にキーワードが抽出できないことがわかった.結局,AHPによる確信度の評価の効果は約1.5倍の成功率の向上に結びつくことがわかった.
抄録全体を表示