自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
確率的クラスタリングを用いた文書連想検索
岩山 真徳永 健伸
著者情報
ジャーナル フリー

1998 年 5 巻 1 号 p. 101-117

詳細
抄録
本論文では, 指定した文書と類似する文書を検索する文書連想検索のための確率的クラスタリング HBC (Hierarchical Bayesian Clustering) を提案する. 文書連想検索を実現する際の問題点は, 類似文書の検索に時間がかかることである. 単純な網羅検索では, 比較対象の大きさPVに比例した O (N) の検索時間を要する. 本論文では, クラスタ検索と呼ばれる検索手法を用いることでこの問題を解決する. クラスタ検索では, 通常, クラスタリングによりクラスタの二分木をあらかじめ構築しておき, その上でトップダウンに二分木検索を行うため, 検索時間を O (log2N) に抑えることができる. ところが, 従来のクラスタ検索では, 検索時に使う距離尺度とクラスタリング時に使う距離尺度が直接関係ないため, 単純な二分木検索では十分な検索精度が得られなかった. それに対しHBCは, クラスタリングの対象文書を自己検索した際の精度を最大化するため, 検索により適したクラスタリングである. 実験では, 「現代用語の基礎知識」を用いて, HBCを用いたクラスタ検索がWard法を用いた従来のクラスタ検索よりも優れていることを実証する. また, 「Wall Street Journal」を用いて, HBCを用いたクラスタ検索が網羅検索に比べノイズ頑健性に優れていることを実証する.
著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top