抄録
本論文ではフリーの特異値分解ツールSVDPACKCを紹介する. その利用方法を解説し, 利用事例として語義判別問題を扱う. 近年, 情報検索では潜在的意味インデキシング (Latent Semantic Indexing, LSI) が活発に研究されている. LSIでは高次元の索引語ベクトルを低次元の潜在的な概念のベクトルに射影することで, ベクトル空間モデルの問題点である同義語や多義語の問題に対処する. そして概念のベクトルを構築するために, 索引語文書行列に対して特異値分解を行う. SVDPACKCは索引語文書行列のような高次元かつスパースな行列に対して特異値分解を行うツールである. またLSIは, 高次元の特徴ベクトルを重要度の高い低次元のベクトルに圧縮する技術であり, 情報検索以外にも様々な応用が期待される. ここではSVDPACKCの利用事例として語義判別問題を取り上げる. SENSEVAL2の辞書タスクの動詞50単語を対象に実験を行った. LSIに交差検定を合わせて用いることで, 最近傍法の精度を向上させることができた. また最近傍法をベースとした手法は, 一部の単語に対して決定リストやNaive Bayes以上の正解率が得られることも確認できた.