抄録
文書類似度を求めるため、従来はコサイン類似度がよく用いられていた。しかし、コサイン類似度は索引語間の無相関性を仮定しているため、実際の文書における索引語には厳しい仮定となっていた。この仮定をゆるめるため、Earth Mover's Distanceを類似度として用いるテキスト分類を提案する。索引語間の相関性を考慮するため、索引語間の距離を分類対象となる文書における索引語の統計的情報に基づいて決定することを特徴とする。本論文では、Reuters-21578を用いて評価実験を行うことにより、コサイン類似度を用いた手法に比べ提案手法が分類精度を改善することを確認した。