日本経営工学会論文誌
Online ISSN : 2187-9079
Print ISSN : 1342-2618
ISSN-L : 1342-2618
原著論文(理論・技術)
ベイズ符号化法によって推定される木情報源の類似度を用いた自動文書分類
岩間 大輝石田 崇後藤 正幸
著者情報
ジャーナル フリー

2013 年 64 巻 3 号 p. 438-446

詳細
抄録
本論文では,データ圧縮手法の一つであるベイズ符号化法を利用した自動文書分類手法を提案する.ベイズ符号化法は有限長のデータ系列に対してベイズ最適性を保証したデータ圧縮手法である.データ圧縮を用いた文書分類手法は辞書式のZIPフォーマットを用いた手法や,統計型のContext Tree Weighting (CTW) 法を用いた手法が提案されている.これらの手法ではあらかじめ個々の文書に対してデータ圧縮処理を行い,その圧縮率を用いて文書間の類似度を測り分類を行う手法である.一方,本手法ではベイズ符号化法がデータを圧縮する際に情報源の確率構造を陽に推定し,副次的にその確率構造を出力が可能であることを利用する.個々の文書ごとに推定された確率構造を用い,それらの距離によって文書同士の類似度を測ることにより文書分類を行う.さらに提案手法を著者判定の文書分類問題に適用し,その有効性を示す.
著者関連情報
© 2013 公益社団法人 日本経営工学会
前の記事 次の記事
feedback
Top