抄録
大量に蓄積されつつある電子化データに対して, 機械学習, データベース, 統計などを基礎としたデータマイニング技術を応用した知識発見ツールが盛んに開発されている.また, 我々は, 相関ルレール導出アルゴリズムを適用した検索式生成支援システム「問答」の構築を行っている.そこで, 本稿では, ハイパーテキストであるweb文書, INSPECデータベース, 国会図書館雑誌記事索引データなどの大量の文書データに対してテキストマイニング披術を適用した実験結栗について諭じる.まず, 実時間性のある検索支援を行うための効率的なルール導出戦略に関する議論を行う.次に, ヒューリスティックに与えられる閾値と, 導出される相関ルールの関係について論じた上で, 検索精度の優れた相関ルールを導出する閾値決定法に関して, ROC(Receiver Operating Characteristics)グラフを利用しながら述べる.