システム制御情報学会 研究発表講演会講演論文集
第48回システム制御情報学会研究発表講演会
セッションID: 3004
会議情報
エントロピーによる文書DB検索高速化のための知識抽出
*森山 悟
著者情報
会議録・要旨集 フリー

詳細
抄録
日本語全文検索システムは、基本的な索引付けとして2グラムインデクスを用いてきたが、インデクスファイルの容量を減らすために、付加的な高次インデクスが性能向上に貢献するものとして期待されてきた。本論ではデータベースの内容から、どのように高次インデクスを選択するかについて述べている。ある文字列において、以下に続く文字の曖昧さを定義するために、エントロピーを用いた。このエントロピーを用いて高次インデクスを選択することを提案した。実際にそのためのプロトタイプシステムを構築して、新聞記事を文書データベースとして登録し、各単語の文書中に登場する回数をカウントして、それをもとにエントロピー計算をおこなった。そして高次インデクスを追加しての検索実験をおこない、性能を比較検証した。
著者関連情報
© 2004 システム制御情報学会
前の記事 次の記事
feedback
Top