応用統計学
Online ISSN : 1883-8081
Print ISSN : 0285-0370
ISSN-L : 0285-0370
単語の共起に基づく関連文書検索,算法と検索事例
石岡 恒憲亀田 雅之
著者情報
ジャーナル フリー

1999 年 28 巻 2 号 p. 107-121

詳細
抄録
異なった文書に同時に現われる単語に着目することにより,潜在的な意味的検索をおこなうDeerwester(1990)のLatent Semantic Analysisを日本語の比較的大規模な文書集合に対して適用した.その中で,大型疎行列における特異値分解アルゴリズムの比較検討を行ない,日本語文書検索に適した方法を見つけた.これを実際の新聞記事で試し,文書検索,および関連語表示において有効であることの見通しを得た.また実装する上での工夫として,関連文書検索においては,文書の大きさによる基準化が必要なことがわかった.さらに,重複を許す単語のクラスタリングを試みた.
著者関連情報
© 応用統計学会
前の記事
feedback
Top