Document Retrieval Based on Words' Cooccurrences, the Algorithm and Its Application

Tsunenori ISHIOKA; Masayuki KAMEDA

doi:10.5023/jappstat.28.107

抄録

異なった文書に同時に現われる単語に着目することにより,潜在的な意味的検索をおこなうDeerwester(1990)のLatent Semantic Analysisを日本語の比較的大規模な文書集合に対して適用した.その中で,大型疎行列における特異値分解アルゴリズムの比較検討を行ない,日本語文書検索に適した方法を見つけた.これを実際の新聞記事で試し,文書検索,および関連語表示において有効であることの見通しを得た.また実装する上での工夫として,関連文書検索においては,文書の大きさによる基準化が必要なことがわかった.さらに,重複を許す単語のクラスタリングを試みた.

著者関連情報

お気に入り & アラート

お気に入りに追加
追加情報アラート
被引用アラート
認証解除アラート

閲覧履歴

Модернизация российской империи и заимствование западных знаний и науки
[title in Japanese]
¹²⁹I法による間隙水の年代測定と石油探鉱への応用
学会だより・編集後記・奥付
[title in Japanese]

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）