自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
ランダム・プロジェクションによるベクトル空間情報検索モデルの次元削減
佐々木 稔北 研二
著者情報
ジャーナル フリー

2001 年 8 巻 1 号 p. 5-19

詳細
抄録

ベクトル空間モデルは情報検索における代表的な検索モデルである. ベクトル空間モデルでは文書を索引語の重みベクトルで表現するが, 文書ベクトルは一般に要素数が非常に多く, スパースなベクトルになるため, 検索時間の長さや必要なメモリの量が大きな問題となる. 本論文では, この問題を解決するため, ベクトル空間モデルにおけるベクトルの次元圧縮を行う手法としてランダム・プロジェクションを用いた検索モデルを提案する. その有効性を評価するために, 評価用テストコレクションであるMEDLINEを利用して, 検索実験を行った. その結果, ランダム・プロジェクションはLSI (Latent Semantic Indexing) に比べ高速で, かつ同等な検索性能を持つ次元圧縮手法であることが確認された. また, ランダム・プロジェクションで次元圧縮に必要な行列を得るために, 球面κ平均アルゴリズムで得られる概念ベクトルの利用を提案する. 同様に検索実験を行った結果, 任意のベクトルを用いた検索性能に比べ改善され, 概念ベクトルが検索性能の向上に有効であることが確認された.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top