本論文では, 指定した文書と類似する文書を検索する文書連想検索のための確率的クラスタリング HBC (Hierarchical Bayesian Clustering) を提案する. 文書連想検索を実現する際の問題点は, 類似文書の検索に時間がかかることである. 単純な網羅検索では, 比較対象の大きさPVに比例した
O (N) の検索時間を要する. 本論文では, クラスタ検索と呼ばれる検索手法を用いることでこの問題を解決する. クラスタ検索では, 通常, クラスタリングによりクラスタの二分木をあらかじめ構築しておき, その上でトップダウンに二分木検索を行うため, 検索時間を
O (log
2N) に抑えることができる. ところが, 従来のクラスタ検索では, 検索時に使う距離尺度とクラスタリング時に使う距離尺度が直接関係ないため, 単純な二分木検索では十分な検索精度が得られなかった. それに対しHBCは, クラスタリングの対象文書を自己検索した際の精度を最大化するため, 検索により適したクラスタリングである. 実験では, 「現代用語の基礎知識」を用いて, HBCを用いたクラスタ検索がWard法を用いた従来のクラスタ検索よりも優れていることを実証する. また, 「Wall Street Journal」を用いて, HBCを用いたクラスタ検索が網羅検索に比べノイズ頑健性に優れていることを実証する.
抄録全体を表示