従来, ベクトル空間法において, ベクトルの基底数を削減するため, ベクトルの基軸を変換する方法が提案されている. この方法の問題点として, 計算量が多く, 大規模なデータベースへの適用が困難であるこトが挙げられる. これに対して, 本論文では, 特性ベクトルの基底として, 単語の代わりに単語の意味属性 (「日本語語彙大系」で規定された約2, 710種類) を使用する方法を提案する. この方法は, 意味属性間の包含関係に基づいた汎化が可能で計算コストもきわめて少なく, 容易にベクトルの次元数を圧縮できることが期待される. また, 単語の表記上の揺らぎに影響されず, 同義語, 類義語も考慮されるため, 従来の単語を基底とする文書ベクトル空間法に比べて, 検索漏れを減少させることが期待される. BMIR-J2の新聞記事検索 (文書数約5,000件) に適用した実験結果によれば, 提案した方法は, 次元数の削減に強い方法であり, 検索精度をあまり落とすことなく, 文書ベクトルの基底数を300~600程度まで削減できることが分かった. また, 単語を基底とした文書ベクトルの方法と比べて高い再現率が得られることから, キーワード検索におけるKW拡張と同等の効果のあることが分かった.
抄録全体を表示