抄録
日本語全文検索システムは、基本的な索引付けとして2グラムインデクスを用いてきたが、インデクスファイルの容量を減らすために、付加的な高次インデクスが性能向上に貢献するものとして期待されてきた。本論ではデータベースの内容から、どのように高次インデクスを選択するかについて述べている。ある文字列において、以下に続く文字の曖昧さを定義するために、エントロピーを用いた。このエントロピーを用いて高次インデクスを選択することを提案した。実際にそのためのプロトタイプシステムを構築して、新聞記事を文書データベースとして登録し、各単語の文書中に登場する回数をカウントして、それをもとにエントロピー計算をおこなった。そして高次インデクスを追加しての検索実験をおこない、性能を比較検証した。