抄録
観測値に混合分布モデル,特に多変量正規混合分布モデルをあてはめ,EM法を用いてパラメータ推定を行うとき,その初期値を適当に選んだとしても解は必ずしも大域的な最適解である保証はなく,初期値の設定は重要な問題である.この問題に対して本論文はクラスタリングを混合分布モデルの初期値設定の方法として位置付け,大域的な解を得る可能性を高くする推定手続きを提案する.同時にこれを分類法として用いる分類方式を示す. つぎに,データ解析においてさまざまなクラスタリング法で分類を行ったとき,分類結果が異なるという現象は実際に直面する問題である.観測値が未知の混合分布からの実現値と仮定できるとき,混合分布モデルに基づく分類は分類結果を確率的,統計的に解釈できるので,この意味では合理的である.従って,混合分布モデルに基づく分類法はクラスタリングのもつ上記の問題に,ある程度答えることのできるものと考えられる.本論文では,混合分布モデルに基づく分類法が誤分類率の意味で,従来のクラスタリングに比べて有効であることを示す.実際のデータ解析(Irisデータ,糖尿病データ,キバハリアリデータ)とシミュレーション実験を通して,提案した分類方式の有効性を検証し,さらに,混合分布モデルの分類手法としての有効性を論ずる.