抄録
サーチエンジンの検索結果などの Web ページ集合をクラスタリングする手法として,抽出された各重要語を含む Web ページ集合をひとつのクラスタとする手法が広く用いられている.しかし,従来の研究では重要語間の類似度を考慮していないために,類似した話題を表す語句が重要語として抽出されると,話題が類似するクラスタが複数出力されてしまうという欠点がある.そこで本研究では,この問題点を解消するために,単語間の類似度を考慮した Web 文書クラスタリング手法を提案する.本手法は,サーチエンジンが返すタイトルとスニペットの単語分布情報から,互いに類似していない重要語を抽出する.次に,どのクラスタにも属さない Web ページをできるだけ減らすために,重要語から直接 Web ページのクラスタを生成せずに,各重要語に類似した Web ページ集合に含まれる単語集合として単語グループを生成し,それらの単語グループのそれぞれに対応する Web ページクラスタを生成する.そして,実際に人手で分類した正解データを用いて従来手法(語句間の類似度を考慮しない方法)との比較評価を行い,本手法のほうがクラスタリング性能が高く,かつ類似したクラスタを生成してしまうという従来手法の問題点が解消できることを示す.