抄録
本論文ではNon-negative Matrix Factorization (NMF) を利用したアンサンブル文書クラスタリングを提案する.
NMFは次元縮約を利用したクラスタリング手法であり, 文書クラスタリングのようにデータが高次元かつスパースとなる場合に効果を発揮する.ただしNMFは初期値によって得られるクラスタリング結果が異なるという問題がある.そのために通常は初期値を様々に変えて, 複数個得られたクラスタリング結果から, NMFの分解の精度の最もよい結果を選択する.しかしNMFの分解の精度はクラスタリング結果の精度を直接表しているわけではないので, 最適な選択が行える保証はない.ここではNMFによるクラスタリングの精度を高めるために, 複数個得られたクラスタリング結果をアンサンブルすることを試みる.アンサンブルは, 複数個のクラスタリング結果からハイパーグラフを作成し, そのハイパーグラフで表現されたデータをクラスタリングすることで行える.従来, そのハイパーグラフは0か1のバイナリ値が用いられていたが, ここではNMFの結果を用いて, 適切な実数値の重みを与えることで改良する.実験ではk-means, NMF, 通常のハイパーグラフを用いたアンサンブル手法および重み付きハイパーグラフを用いたアンサンブル手法 (本手法) のクラスタリング結果を比較し, 本手法の有効性を示す.