2018 年 7 巻 1 号 p. 9-19
クラスター分析手法のひとつであるReduced K-means法では,多変量データを縮約した部分空間を構成する次元軸と,その次元空間におけるクラスター中心が同時に推定される。本稿では,大規模な社会調査データにこの手法を適用した分析例を示しつつ,K-means法や主成分分析を併用したタンデム・クラスタリングによる結果との比較を行い,その有効性について論じる。また,この手法では,次元数およびクラスター数の設定について選択の余地があるので,最終的にどの解を採用するかを決定するための判断基準が必要となる。その点について,客観的なクラスター評価指標に基づく検討を試みる。
社会集団間の関係性を重視する社会学研究において,クラスター分析は,集団の分離を捉えるのに有効性を発揮する.ある社会から代表性のある標本を抽出した大規模データに基づき,類似した特性をもつ人々が集団としてまとめられた各クラスターの解釈は,分析に用いた特性を表す変数の平均値,すなわちクラスター中心を参照しつつ行われる.
ただし,その変数が多数である場合,すべてのクラスター中心を比較検討することに煩雑さが伴うので,クラスターの解釈が容易でなくなることもある.また,クラスターとして析出された集団間の関係性を検討するために,どのような主軸において人々が近接したり分離しているのかを明らかにすることは,社会学の観点においてきわめて重要である.したがって,多変量データを扱う場合,クラスターの析出だけでなく,クラスターの位置関係が表現されるような次元軸・次元空間を同時に析出することにより,各クラスターの特徴や解釈がいっそう明確になることが期待される.このときに有効性が高いと考えられるクラスタリング手法として,本稿ではReduced K-means 法(以降ではRKM)に焦点を当て,その適用例とともに,他の方法によるクラスタリングとの比較を行いつつ,RKM の特徴を整理していく.また,RKM を適用する際の検討事項など,今後行われる社会学的研究に向けての指針についてもあわせて示す.
なお,本稿では,同じデータにRKM を適用した林(2017) による分析結果も適宜紹介する.林(2017) では,焦点とする現象に関する調査研究の枠組みと分析結果の社会学的なインプリケーションを中心に論じているが,本稿ではRKM の手法および他の手法との比較に重点を置いた議論を展開する.
RKM は,De Soete and Carroll (1994) が提起した手法であり,R 次元から構成される部分空間(subspace)にK 個のクラスター中心を位置づけるというものである.その発想は,分割型のクラスター分析手法として多用されるK-means 法に基礎を置いた上で,次のように展開されている.通常のK-means 法においては,クラスター数をあらかじめ定めた上で,個体が所属するクラスターの中心への二乗距離が最小となるように,所属クラスターとクラスター中心が推定される.数式で表すと,個体i×変数j からなるデータ行列X について,式(1) の損失関数(lossfunction)が最小となるように推定する.
なお,Uは個体のクラスター所属を表すバイナリ行列(個体i×クラスターk),F はクラスター中心行列(クラスターk × 変数j)を表す.
RKM では,元の変数から次元を縮約した部分空間を想定するので,クラスター中心行列F は縮約次元におけるそれに代わり(クラスターk × 次元r),縮約次元に対する変数の負荷行列A(変数j × 次元r)が推定の対象に加わる.よって,損失関数は式(2) の通りとなる(De Soete &Carroll, 1994; Timmerman, Ceulemans, Kiers, & Vichi, 2010).
各行列の推定は,それぞれに初期値を与えた後,交互最小二乗法によって行われ(De Soete &Carroll, 1994; Terada, 2014),式(2) の損失関数が変化しないほど低減した段階で反復を終える1.
利用可能な分析プログラムは,統計ソフトウェアR (R Core Team, 2014) のパッケージ“clustrd”(Markos, D’Enza, & Van de Velden, 2013) として提供されている.本稿でも,それを利用して分析を行った結果を提示していく2.
以降で分析するデータは,日本全国20~59 歳男女のうち有職者を対象として,2013 年11~12月にかけてWeb 上で実施した「職業イメージに関する調査」から得られたもので,分析対象者は,回収された2069 人のうち現職の情報が有効な2053 人である.使用する変数は,36 職業への親近感/距離感(認知距離)の程度を表す,近い/やや近い/どちらでもない/やや遠い/遠いという5 段階評定の回答データであり,「近い」を5~「遠い」を1 と値を付与した上で,回答者内の職業および回答者間の相対的な値を比較するため,二重中心化処理を施した.以上の2053 人×36 変数からなるデータを用いて,職業への認知距離が近似する回答者をクラスター化する.本調査の回答者はすべて有職であり,親近感を示す対象に自身の職業が含まれることが多いので(林, 2017),このクラスター化を通して,人々の認知から見た職業集団間の分離構造を明らかにすることが見込まれる.
まず最初に,通常のK-means 法(以降ではKM)によるクラスター分析との対比を簡潔に示すために,3 クラスター解の結果を検討する.上記のデータに,クラスター数を3 と設定したKMを適用した結果,表1 のように,36 職業それぞれに対する認知距離の平均値がクラスター中心として得られた.クラスター1(C1)に含まれる人々は,官公庁事務職員,公立中学校教員,研究者などに対して親近感を示し,清掃員,飲食店接客係,電化製品製造作業者などに対して距離感を示す.クラスター2(C2)に含まれる人々は,飲食店接客係,清掃員,販売店員などに対して親近感を示し,研究者,経営者・役員,中間管理職などに対して距離感を示す.クラスター3(C3)に含まれる人々は,工場主,大工,エンジニアなどに対して親近感を示し,官公庁事務職員,受付窓口職員,飲食店接客係などに対して距離感を示す.
※クラスター中心の絶対値が0.6 を超える場合に太字で示す.
次に,同じくクラスター数を3 と設定しつつ,クラスターが分離する部分空間を構成する次元数を2 と設定したRKM を適用した結果を確認する3.図1 は,式(2) によって推定された行列A,すなわち2 次元それぞれに対する変数(36 職業)の負荷量をプロットしたものである.図中に明記した負荷量の大きな職業名に着目すると,次元1 正方向に地位の高い職業(高威信),負方向にそれが低い職業(低威信,非正規雇用)が位置している.次元2 正方向には,マニュアル職を中心とした男性就業者が多くを占める職業(男性職),負方向には女性就業者が多い職業(女性職)が位置している.したがって,次元1 は地位の分離,次元2 はそれとは独立した性別職域の分離を表すと解釈される.
そして,この2 次元空間におけるクラスター中心(式(2) における行列F)をプロットしたのが,図2 である.C1 の中心は次元1 正方向・次元2 やや負方向に位置することから,高地位の職業,あるいは女性就業者が多い職業に対して親近感を示す集団と言える.そして,C2 の中心は次元1負方向に位置することから,低地位職に対して親近感を示す集団,C3 の中心は次元2 正方向に位置することから,男性職に対して親近感を示す集団と言える.
RKM 2 次元3 クラスター解におけるクラスター中心プロット
RKM は,KM をベースとした手法であるが,同数のクラスター解でも両者のクラスター所属が一致するとは限らない.ただし,上述の解に限って言えば,KM とRKM のクラスター所属は完全に一致していた.このように同じ結果を得ているとしても,RKM ではクラスターが分離する次元軸の情報が加わることで,個々の職業名だけではなく,「地位」や「性別職域分離」といったような一般化された職業特性として解釈する余地が広がるのが大きな特徴である.
この特徴は,クラスター数を多く設定した場合に,より明確に有効性を見出せる.たとえば,KM において6 クラスター解を採用した場合,クラスター中心が高い正の値(親近感)を示す職業はそれぞれ,C1:研究者,経営者・役員,中間管理職/ C2:飲食店接客係,清掃員,販売店員/C3:エンジニア,電化製品製造作業者,道路工事作業者/ C4:商店店主,経営者・役員,コック/ C5:公立中学校教員,看護師,介護職員/ C6:経理事務員,受付窓口,官公庁事務職員であった(図表は略).
一方,林(2017) が採用したRKM による4 次元–6 クラスター解4(図3)によると,次元1 は「地位」による分離と解釈され,その軸の両極にC1 / C2 のクラスター中心が位置する.次元2 は「性別職域」による分離と解釈され,その両極にはC3・C4 / C5・C6 のクラスター中心が位置する.次元3 は男性職内部における「自律性」による分離と解釈され,その両極にはC3 / C4 のクラスター中心が位置する.次元4 は女性職内部における「技能」による分離と解釈され,その両極にはC5 / C6 のクラスター中心が位置する.
RKM・4 次元6 クラスター解の要約
※林(2017) p.82 図2 より許可を得て転載.
多元的な職業特性に応じてクラスターが段階的に分化するという構造は,RKM における推定方法と関係する.RKM における損失関数の最小化は,固有値問題の解法に相当し(Yamamoto& Hwang, 2014, p.117),固有値の大きさの順番に次元が定められるので,最も重要な次元1 から順にクラスターが分化していくのである.このような段階的な分化の構造は,KM によるクラスター中心の情報だけでは明確にならない5.大規模かつ多変量データの構造を,少数の次元空間上の集団布置として端的に表現できることが,RKM ならではの特質として評価できる.
ところで,個体× 変数データの構造を端的に表すために縮約された次元空間を析出するという主旨ならば,主成分分析により主軸を析出して,それをKM と併用させるという方法も考えられる.たとえば,先のデータに主成分分析を適用して,2 つの次元軸(第1・第2 主成分)からなる2 次元空間を析出した場合,変数の負荷(固有ベクトル)は,先に示したRKM における2 次元–3クラスター解のそれと同じように,高地位職–低地位職,男性職–女性職の分離を示した(図表は略).次に,個体ごとに推定される第1 主成分得点と第2 主成分得点6を用いてKMを適用すれば,RKM と同じように,2 次元空間上のクラスター中心が得られる.
このように,主成分分析により少数の次元に縮約した上で,その縮約次元における推定値を利用してクラスター分析を行うという2 段階の分析は,タンデム・クラスタリング(tandem clustering)と呼ばれる.しかし,この第2 段階の分析においては,元データの情報の一部しか利用していないため,適切なクラスターが得られない可能性が指摘されている(Arabie & Hubert, 1994; 山本,2015).
実際,本データで実行したタンデム・クラスタリングでも,RKM を適用した結果と比べてデータへの非適合度が大きい.図4(a) は,次元数2・クラスター数3 と設定した上で,異なる初期値をランダムに50 個発生させた場合の非適合度(クラスター内平方和)の分布である.RKM(図中“RKM2.3”)では,50 回の試行すべてにおいて非適合度が同程度に低いのに対し,タンデム・クラスタリング(図中“T2.3”)では,そのいくつかにおいて非適合度が高く,またそれが最も低い場合でも,RKM よりも非適合度が高いことがわかる.同様の傾向は,次元数4・クラスター数6 と設定した場合の分布を示した図4(b) からも確認できる.
初期値の異なるクラスタリング50 回試行によるクラスター内平方和の分布
一方で,タンデム・クラスタリングでない併用も考えられる.すなわち,次元縮約されていない完全データに対して主成分分析とKM を独立に実行するという,両分析の「並列」的な適用であり(岡太, 2015),それにより得られた主成分得点とクラスター所属の情報を事後的に突き合わせて検討する方法である7.ただし,主成分分析ではを端的に表現できるよう変数の重みづけを行って主軸を定めるのに対し,RKM では
を表現できるようその重みづけを行うという違いに留意する必要がある.したがって,「並列」的に主成分分析とKM を実行したとしても,前者の次元軸が後者のクラスター分離を表現するのに適当であるとは限らないのである.
実際,本データに基づく主成分分析による変数の負荷量と,RKM によって析出されたそれ(4次元–6 クラスター解)を比較してみると,両者の一致度はおおむね高かったが(相関は,次元1 から順に0.999,0.989,0.966,0.902),図5 に示すように,次元4 において負の負荷を示すいくつかの職業では若干の乖離が見られた.たとえば,主成分分析における軸では中間管理職や外回り営業の負の負荷が大きいのに対して,RKM における軸では経理事務の負荷が最も大きいことから,2 つの方法の間で主軸の解釈が異なる可能性もあるだろう.
次元4 における変数の負荷量(横軸:主成分分析,縦軸:RKM)
KMでは分析に先立ってクラスター数を設定するが,RKM ではこれに加えて次元数も設定する必要がある.次元数は,クラスター数–1 以下の任意の数が設定可能であり(De Soete & Carroll,1994; Terada, 2014),たとえば2~10 クラスター解を試行するならば,計45 個の解が得られることになる.その際には,最終的な解を決定するための基準が必要とされるだろう.次元数・クラスター数の両者を同時に決定する方法については検討の途上にある(山本, 2015) と指摘されていることをふまえ,ここでは,通常のクラスター分析でもよく利用されている基準の適用を,実例を示しつつ紹介する.
第1 の基準は,原データの再現度である.RKM では,先の式(2) で示した損失関数において最小化された値が解ごとに得られる.この値は,次元数あるいはクラスター数を増やせば減少するので,重要なのは,どの部分で大きく減少したかという肘(elbow)を見出すことである.たとえば,図6 に示す解ごとの損失関数において,次元数が1(R = 1)の場合はクラスター数が2 から3となる部分がそれに相当する.一方,次元数による比較からも減少分の違いが見出せる.減少幅は特に次元数1 と2 の間で大きく,次元数3 あるいは4 を超えると小さくなる.次元数を3 または4 と想定した場合,クラスター数をいくつにするかについては,それらの各次元においてクラスター数による「肘」が確認できないので,別の基準を参照した方が良い.
次元数・クラスター数ごとの損失関数
※ LF:損失関数,R:次元数
第2 の基準は,個体間の距離の再現度である.その指標として,各回答者ペアが同一のクラスターに所属しているか否かかが当該ペアのユークリッド距離をどの程度再現するかを表す点双列相関係数(point biserial correlation)が挙げられる(Milligan, 1981, p.196; 齋藤・宿久, 2006, pp.203–204).表2「PBC」欄を見ると,次元数(R)を3~4 に限定した場合,最も高い解は{R = 4, K = 6}であることが確認される.
第3 の基準は,クラスター間の分離度である.その指標として,クラスター内の分散に対するクラスター間の分散の比として計算されるCaliński-Harabasz のpseudo F 統計量が挙げられる(Caliński & Harabasz, 1974).次元数3~4 の中で最も高い解は{R = 3, K = 4} であった(表2「PF」欄).ただし,pseudo F 統計量は,次元を縮約しない元の変数の値に基づくクラスター分離度を表しており,次元を縮約する場合には捨象することになる情報も含んでいる.このことを考慮し,もし次元数が定まるならば,pseudo F 統計量を計算し8,クラスター数による比較を行うことができる.表2「PFsb」欄を確認すると,3 次元解(R = 3)の中ではK = 4が,4 次元解(R = 4)の中ではK = 6が最も高いことがわかる(この指標の場合は,次元空間が同じであることが前提となるので,異なる次元数の間での比較は行うのは適当でない).
pseudo F 統計量において候補となった{R = 3, K = 4} と{R = 4, K = 6} のうち,先に 示したデータ再現性と個体間距離の再現性(第1・第2 基準)の高さから,後者の4 次元–6 クラス ター解を採用するのが妥当と判断される9.
※PBC:点双列相関係数,PF:pseudo F 統計量,
PFsb:縮約次元空間におけるpseudo F 統計量
K:クラスター数,R:次元数
太字は,各指標において最も高い値であることを示す.
本稿では,大規模かつ多くの変数を含む社会調査データを例に,縮約された次元空間上にクラスターの分離を表現するRKM について,他のクラスタリング手法との比較も交えつつ紹介してきた.この方法による分析結果を通して,クラスターとして類型化された集団が相互にどのような関係性にあるのかが,次元空間上の位置関係に基づいて検討可能となる.
また,このことは,クラスターそのものの解釈を補強することにも役立つと考えられる.すなわち,分割型クラスタリング手法におけるクラスターの解釈は,元の変数の情報(本データでは職業名)に大きく依存することになるが,KM ではその手掛かりがクラスター中心のみであるのに対し,RKM では次元空間上の布置がそれに加わる.このように,解釈に関する多面的な手掛かりが提供されるという点からも,RKM の有効性を強調することができる.
社会学的研究において,ここで分析したデータのように30 を超える変数を同時に扱うことは多くないかもしれないが,多次元構造が想定されるデータに基づき個体を類型化することを目的とした研究—個人を単位とする研究のみならず,集団や地域・国を単位とする研究も含む—を行う際に,このRKM を応用することは一考に値すると言えるだろう.
本研究は,JSPS 科研費(科研費番号16K04032)の助成を受けたものです.有益なコメントをいただいた査読者および編集委員の先生方に,記して感謝いたします.