抄録
クラスタリングはデータによって与えられた対象の集まりを,外的基準なしに分類する手法である.対象はいくつかの属性の値によって特徴付けられており,属性に基づく類似度・非類似度によって,分類は行われる.本研究では名義属性のみで構成されたデータ(名義的データ)に注目する.名義的データに対して,従来では,まず対象間の非類似度を属性値の不一致度などによって定義し,平均,最大値,最小値などによってそれをクラスター間のものに拡張する.しかし,上記の手法ではクラスターの全体的な特徴が得られないことがある.これに対して,属性部分集合によるクラスター間の識別可能性に基づいた非類似度を新たに提案する.識別可能性はラフ集合理論で重要な役割を果たしており,提案する非類似度はラフ集合理論の属性縮約と関係する.階層的クラスタリングに適用する場合について,提案する非類似度の性質を考察する.