抄録
本論文では,データ圧縮手法の一つであるベイズ符号化法を利用した自動文書分類手法を提案する.ベイズ符号化法は有限長のデータ系列に対してベイズ最適性を保証したデータ圧縮手法である.データ圧縮を用いた文書分類手法は辞書式のZIPフォーマットを用いた手法や,統計型のContext Tree Weighting (CTW) 法を用いた手法が提案されている.これらの手法ではあらかじめ個々の文書に対してデータ圧縮処理を行い,その圧縮率を用いて文書間の類似度を測り分類を行う手法である.一方,本手法ではベイズ符号化法がデータを圧縮する際に情報源の確率構造を陽に推定し,副次的にその確率構造を出力が可能であることを利用する.個々の文書ごとに推定された確率構造を用い,それらの距離によって文書同士の類似度を測ることにより文書分類を行う.さらに提案手法を著者判定の文書分類問題に適用し,その有効性を示す.