システム制御情報学会 研究発表講演会講演論文集
第51回システム制御情報学会研究発表講演会
セッションID: 4F1-3
会議情報

Earth Mover's Distanceを文書類似度とした文書分類
*柳本 豪一大松 繁
著者情報
会議録・要旨集 フリー

詳細
抄録
文書類似度を求めるため、従来はコサイン類似度がよく用いられていた。しかし、コサイン類似度は索引語間の無相関性を仮定しているため、実際の文書における索引語には厳しい仮定となっていた。この仮定をゆるめるため、Earth Mover's Distanceを類似度として用いるテキスト分類を提案する。索引語間の相関性を考慮するため、索引語間の距離を分類対象となる文書における索引語の統計的情報に基づいて決定することを特徴とする。本論文では、Reuters-21578を用いて評価実験を行うことにより、コサイン類似度を用いた手法に比べ提案手法が分類精度を改善することを確認した。
著者関連情報
© 2007 システム制御情報学会
前の記事 次の記事
feedback
Top