Journal of Computer Chemistry, Japan
Online ISSN : 1347-3824
Print ISSN : 1347-1767
ISSN-L : 1347-1767
Letters (Selected Paper)
Development of a Data-Clustering Method Focusing on Simplicity of Cluster Structures and Its Application to Chemoinformatics
Kou AMANOAkihiro YAMANOUCHIManabu SUGIMOTOMasamichi WADA
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2017 Volume 16 Issue 5 Pages 167-169

Details
Abstract

A cluster validity index (CVI) called "simplicity index" (SI) is newly proposed to enhance the accuracy of data clustering in machine learning. This index is derived to emphasize the importance of simplicity in cluster structures. The characteristics ofSI and its advantages over the known methods in the literature are discussed. SI is applied to classification of nucleotide sequences of nitrogen-fixing genes.

1 背景と目的

クラスタリングは化学分野でもよく用いられる基本的なデータ解析手法であるが, その結果がどの程度妥当であるかの判定は必ずしも明確でなく,難しい問題とされている [1]. それでもなお,クラスタリングの妥当性を評価する指標は多数開発されており,これらはクラスタリング評価指標(Cluster Varidity Index: CVI)と言われる. しかしながら,指摘される困難性を克服するためにはさらに多角的な視点での評価や異なる解析を必要とする.

そこで,本研究では,既報のCVIの効果や特徴を把握した上で,新たな観点に基づくCVIを提案することを目的とする. また,提案したCVIによるケモインフォマティクスへの応用について述べる.

なお,本研究で議論するCVIは非階層型クラスタリング評価指標である. 階層型クラスタリングに用いる場合は特定の階層への評価指標となる.

2 既報のCVI

現在までに少なくとも数十のCVIが発表されており,その発表は1970年代に集中している [2]. ここでは,Arbelaitzらの報告 [2]にある30のCVIから,さらに代表的と思われる4指標, Dunn (Dunn) [3],Calinski-Harabasz (CH) [4],Silhouette (Sil) [5],Score Function (SF) [6] をレビューする. レビューの視点はCVIの利用に際して我々が重要とみなす3要素: (1)元のデータに対する変換(シフト•スケール)が行われても指標値が変化しないこと, (2)最良値が存在すること, (3)クラスタ数に対する嗜好がないこと である. これらの判定は,式の解釈および評価用データにより行い,それぞれ (1)明確な依存性が認められない, (2)定義できない, (3)明確な嗜好が認められない場合に「なし」と判定した. 各CVIに対するレビューをTable 1にまとめる.これによれば,重要な3要素をすべて満たすCVIは存在しないことが判る.

Table 1. Properties of the existing CVIs
NameDefinitionProperty flags
DunnMini=1k(Minj=1+1kd(ci,cj)Maxm=1kdia(cm)),S
d(ci,cj)=Minxci,ycj||xy||, dia(c)=Maxx,yc||xy||, ci: cluster i.
CHssbssw×Nkk1,S C
ssb=i=1k||mim||, ssw=i=1kxci||xmi||,
x: each data point, ci: cluster i, mi: centroid of cluster i,
m: centroid of total data points, ni: number of members of cluster i.
Sil1Ni=1n(biai)Max(ai,bi),S B
ai: avarage distance between data point i and other members in ident cluster,
bi: minimum avarage distance between data point i and the members of other clusters.
SF11eebcdwcd,
bcd=i=1k||zizt||niN k, wcd=i=1k(1nixci||xzi||),B C
ci: cluster i, zi: centroid of cluster i,
zt: centroid of total data points, ni: number of members of cluster i.

S: CVI has tolerance to scale and shift of data set. B: CVI has best value of its validation. C: CVI has no preference for a specific number of clusters.

次に既報のCVIのコンセプトについて議論する. 既報のCVIに共通するコンセプトは,各クラスターの凝集性とクラスター間の分離性の,比もしくは差に基づくものである [7]. すなわちクラスターの凝集性が高いほど,また,クラスター間の分離性が高いほど適正とするものである. 一方,一般的に要素間に距離を持つ集合の分割においては,分割数を増やすほど,異なるクラスターメンバー間の距離の合計が増加し(分離性が高くなり),同一のクラスターメンバー間の距離の合計は減少する(凝集性も高くなる). つまり,既報のCVIのコンセプトは, クラスター数を増やすほど適正と判定されやすいという問題を有している.

以上を勘案すると,既報のCVIが前述の3要素を満たさない理由は,そのコンセプトに依存していると考えることができる. 例えば,クラスター数をデータポイント数に設定した場合に指標値が無限大になるために最良値を定義できない,などである.

3 新指標の提案

我々は以上の問題を有さないコンセプトとそれに基づく新しいCVIの提案を行った.

3.1 コンセプトの提案

クラスター構造は根を持つ木である. 非階層クラスター構造も階層が制限されている木であるとみなせる. 適切なCVIではこの木構造が単純であるほど適正となる. その条件として以下を設定する: (C.1)データポイントをリーフノードとする, (C.2)データポイント間には距離が定義される, (C.3)各データポイントは根への唯一のパスを持つ, (C.4)クラスター分離は根からデータポイントのパスへのノードの挿入である. これに対して,構造が単純であるとは,以下と定義する: (D.1)ノードの挿入数が少ないほど単純である, (D.2)各クラスターにおいてメンバー数が少ないほど単純である, (D.3)各クラスターにおいてその空間的広がり(Dispersion)が小さいほど単純である. (D.4)また,クラスター数の嗜好を排除する手段としてクラスター数が1の場合とデータポイント数の場合に同じ指標値を返す性質を持つものとする.

3.2 CVIの提案

以上のコンセプトに基づき,次式で定義されるSimplicity Index (SI)を提案する.   

SI=ki=1knidiD.(1)

または,   

SI=k(i=1knidiD)1k.(2)

ただし,kはクラスター数,niはクラスターiにおけるメンバー数, diはクラスターiの広がり(dispersion),Dはデータ全体の広がりを意味する.

上記2式は, クラスター数が1の時にdi=Dとなり,かつ, クラスターメンバー数が1の時にdi=0となる 場合において前述のD.4を充足し, 最良値として1,ベースライン(クラスター数が1の時とデータポイント数の時の指標値)としてデータポイント数を持つ. また, 当該指標はD.1D.2D.3の一種の積となっており値が小さいほど適正である. なお,ここでdiおよびDに対して具体的な定義は行わないが,たとえば,これにクラスター半径などを用いることにより自然とD.4は満たされる.

4 ケモインフォマティクスへの応用

ケモ(バイオ)インフォマティクスへの応用例として, 遺伝子クラスタリングの評価が挙げられる. 遺伝子クラスタリングはその塩基配列間の編集距離等に基づいて行われ, 評価にはブートストラップ値がよく利用されるが [8], 別の評価の観点としてSIを利用できる. 階層クラスタリングの各階層においてSIを適用し,その値をプロットすることにより各階層における妥当性が評価できるとともに, クラスター木全体の特徴を視覚的に捉えることができる. Figure 1 (2)は窒素固定遺伝子nifH群の塩基配列の編集距離によるデンドログラムの式(2)による評価である. diおよびDにはクラスター内メンバーのペアワイズ距離の平均を用いた. 局所的に細かい値の「揺らぎ」が生じており,他のより適切な階層クラスタリングが実行できる可能性が高いことを示している. このようなプロットとそれによる評価が可能となるのはSIのような ベースラインを持つCVIに限られる. なお,nifH遺伝子の詳細なリストは文献 [9]を参照されたい.

Figure 1.

 Dendrogram of nifH genes (1) and its hierarchical CVI plot (2).

5 まとめ

本研究では,新しいCVI群を定義した.群と称する理由は,式(1),(2)において,diDに対し,複数の定義が可能であることによる. 一般的にはdiを各クラスターの半径,Dを全データセットの半径とすることによりコンセプトの条件を満たす. 当該部分は他の定義も可能であり, ケモインフォマティクスに向けたCVI定義式のさらなるチューニングが望まれる.

参考文献
 
© 2018 Society of Computer Chemistry, Japan
feedback
Top