2016 Volume 5 Issue 1 Pages 3-15
アンケート調査において,複数回答の質問について年代や性別,出身地などに関する個人の属性や特定のグループ関連について考察する際に,アソシエーションルール分析と対応分析を用いた可視化方法を提案する.
本論文では属性を条件部に設定したアソシエーションルール分析を用いて属性に特化した特徴を抽出するルール抽出とその可視化を行った.また対応分析を用いて属性と質問項目の関係をマッピングすることで,グループ間の質問項目の反応の関連・相異を把握することが可能な可視化を提案し,アソシエーションルールの可視化の改良を行った.
The information that customer dataset usually provides is the personal surface information including gender, age and hometown. However, we can obtain personal internal information by analyzing questionnaire responses. In this paper, we proposed a visualization method that combined association analysis with correspondence analysis, it can find about difference of internal characteristics of six layers of gender and age.
アンケートを行った際に,年代や性別などのグループ毎の差異や関連を考慮することがある.質問項目が多い場合,各質問へのグループの反応についての類似や相異に興味があるときに分析する方法について考える.実際の例を用いることが問題設定の理解を高めると考えられるのでアンケートデータの解析を用いる.本論文で扱うデータは経営科学系研究部会連合協議会主催,平成25 年度データ解析コンペティションにおいて株式会社マクロミルから提供して頂いたスキャンパネルデータの中のモニタアンケートデータである.この6438 人のモニタに行ったアンケートの中から「普段感じている健康上の悩みについて,あなたに当てはまるものを全てお知らせください.(Q1 1:風邪を引きやすい,Q1 2:便秘気味,Q1 3:胃痛・胸やけ,⋯,Q1 39:特にない,Q1 40:答えたくない,全40 項目)」という多肢選択回答の質問について考察する.グループについては年代や性別,既婚・未婚などについても回答は得られているが,ここではメディア層と呼ばれる,M1 層(20~34 歳の男性)・M2 層(35~49 歳の男性)・M3 層(50 歳以上の男性)・F1 層(20~34 歳の女性)・F2 層(35~49 歳の女性)・F3 層(50 歳以上の女性)の6 つのグループの回答傾向について興味があるとし,この解析結果の解釈をより容易に行うためにアンケート結果の可視化を考える.
まず,このアンケートに対してどのような結果が得られたのか積み上げ棒グラフや帯グラフで確認する.図 1 は健康上の悩みの中から「風邪を引きやすい」,「加齢臭」,「生理痛」についての回答数を表す積み上げ棒グラフ(左側)と回答の割合を示す帯グラフ(右側)である.図 1 の左の棒グラフから,このアンケートの回答者は男女共に高年層(M3 とF3)が多く,最も回答しているのはF3 層であることがわかる.悩みを持っている人が少ないのか,全体的に「はい」と回答した人数が少ないこともわかる.右の帯グラフから「風邪を引きやすい」については,若年層が悩みを持っているが高年層との差は大きくない,「加齢臭」についてはM2 とM3,つまり男性で特に中・高年層の多くが悩んでいる,「生理痛」についてはF1 とF2,つまり女性で特に若・中年層の多くが悩んでいることがわかる.図 2 は全40 の質問項目について悩みがあると答えた人数の割合である.「おなかの脂肪が気になる」や「太っている・太りやすい」などの体型に関わる悩みは多く,「加齢臭」や「生理痛」などの回答するメディア層が限定されるような項目については回答率が低いことがわかる.

アンケートの分析では,複数回答の質問に関して,年代や性別などについて関連を把握したい場合には,図 1 のようなグラフを選択項目ごとにそれぞれ見ていくことによりその傾向をとらえることとなる.しかしながら,選択項目が多い場合にはそれぞれ見ていくことに時間がかかり,全体的な考察をすることは困難である.そこで,メディア層ごとの特徴として「○○層は特に××である」というメディア層とアンケート結果の関係性を見つけるために,アソシエーションルール分析( R. Agrawal and R. Srikant, 1994) を用いた. 伊藤他(2010) でもアンケートデータの解析にアソシエーションルール分析を用いた解析およびその可視化が提案されている.

図 1 では3 つの質問項目についてメディア層の反応傾向を見たが,40 の質問項目についてグループにより回答傾向に相異を見つける方法としてアソシエーションルール分析を用いる.アソシエーションルール分析がよく使われるのは同時購買データであるが,多肢選択アンケートデータは2 値データの形成で捉えることで,選択項目を購入商品と考えると,ある顧客が悩みがあるとした項目について1,そうでないものを0 とすることでマーケットバスケット分析を行うことができる.メディア層についても0-1 の2 値データとして扱った(表 1).

メディア層の各グループがどのアンケート項目に反応しているかを把握することを目的に,条件部がメディア層であるルールのみを抽出した.アソシエーションルール分析には,統計解析ソフトウェアR で apriori関数を用いた.またアソシエーションルールの限定をするために subset関数を用いた.
図 1 で見たように,悩みがあるとの回答率は高くなく,デフォルトの設定ではルールがあまり抽出されなかったため,支持度0.01 以上,確信度0.1 以上と設定した.意味のあるルールであるリフトが1 以上のルールは91 ルールあり,リフトが1.5 以上のルールを抽出すると表 2 の27ルールが抽出された.分析の目的は特徴のあるルールの抽出であるため,支持度のあまり高くないルールも抽出できるようにし,あるメディア層との関係が比較的強いルールが抽出できるようにしている.その中でさらによいルールと判断されるルールが抽出されるようにしている.表 2からF1 層とF2 層が「生理痛持ち」,M3 層が「血圧が高い」の悩みを持つ者の割合が高いなど,メディア層と健康上の悩みの関係を見つけることができる.しかしながら,27 のルール全体を把握するのは困難である.ルールの可視化としては PC. Wong et al. (1999) でも提案されているが,項目が多い場合に必ずしもわかりやすくないため,本論文でのルールの可視化はR の arulesVizパッケージの可視化の改良を行う.図 3 は,得られたルールを arulesViz パッケージを用いて可視化したものである.この可視化の矢印の太さは支持度が高いほど太く,矢印の濃さはリフトが大きいほど濃くなっている.この可視化では,項目の位置に関してはすべてのルールが見やすくなるようにランダムに配置される.この図から,F1 層とF2 層が共に「生理痛持ち」の悩みが多いことや,M2 層とM3 層が共に「加齢臭」の悩みが多いなど, 同年代や同性で同じようなルールが抽出されていたことが表 2 のようなリスト形式で一覧にされるよりもわかりやすい.


図 3 ではルールは俯瞰できるが,この可視化では回答項目の位置やメディア層の位置はそれぞれの項目の関連とは無関係である.そこで,ルールの可視化の際に各メディア層と回答項目の関連を反映する改善を試みる.そのための方法としてクロス集計の可視化で用いられる対応分析を用いる.対応分析は,質的変数のクロス表の反応が多いセルが近くに付置されるように行得点と列得点に数量化する方法であり,アンケートの質問項目と性別や年代などのカテゴリー変数の各カテゴリーとの関連性の分析に用いられ(中山, 2006),本論文で扱うカテゴリーと質問項目の付置に適している.
回答項目とメディア層に対する対応分析を行うために,回答項目とメディア層についてクロス集計を行った(表 3).
次に対応分析の基礎となるコレスポンデンス行列 Z ( r × c ) の成分を以下の式で求めた.

このとき, i = 1, . . . , r , j = 1, . . . , c で, f ij はクロス集計の各成分, f i . はクロス集計の各行和, f. j はクロス集計の各列和, n はクロス集計の総和である.
さらに対応分析で得られる行得点 X と列得点 Y は以下の式で求めた.



このとき, D r は p i .(= f i ./ n ) を要素とした対角行列, V は ZZ t の固有ベクトルからなる行列, D c は p. i (= f. i / n ) を要素とした対角行列, U は Z tZ の固有ベクトルからなる行列である.求めた行得点と列得点はそれぞれ表 4 と表 5 である.


ここで,得点の各軸がデータ全体の情報をどれくらい説明できるのかを示す指標として寄与率がある.寄与率が高いほど説明できる情報が多く,逆に寄与率が低いと説明できる情報が少なくなる.第 k 軸得点の寄与率は,以下の式である.

ここで,λ k ( k = 1, . . . , K , K = min( r , c )−1) は ZZ t ( Z tZ ) について求めた固有値である.また第 k 軸得点までの寄与率の合計を累積寄与率という.対応分析でどの軸まで使用してバイプロットするかは,主に第2 軸以上で累積寄与率が80%を超えた一番少ない軸数で決める.求めた固有値・寄与率・累積寄与率は表 6 であり,累積寄与率が第2 軸で80%を超えたため,第2 軸までの得点でバイプロットした(図 4).


図 4 から同じような項目はまとまって表示されていることから,メディア層の関係のもとに,健康の悩みに対する傾向が類似するものが近くに,そうでないものが遠くにマッピングされていることがわかる.さらに「太っている・太りやすい」や「運動能力が低下している」については中央に近い位置にマッピングされていることから,年代・性別を問わない健康上の悩みであることがわかる.
対応分析によって各項目の2 次元座標が得られたため,図 3 で示したルールの可視化として対応分析の行得点・列得点を用いたものに変更したのが図 5 である.この可視化では,回答項目が似ているものは近くに,そうでないものは遠くに配置されているため,図 3 の改善となっている.
しかし,図 5 ではルールに現れなかった項目は表示されていないため,この図だけではルールに現れなかった項目の情報が得られない.そこで,対応分析の結果である図 4 にアソシエーションルールを追加することで全項目がマッピングされている可視化が実現できる.
対応分析の結果についても,質問項目とメディア層について,回答数と合わせて改良を行った.図 6 は対応分析の結果に,メディア層に対して人数の度合いを表すひし形を,回答項目に対して図 2 の回答率の高さを表す円を追加で表示したものである.さらにメディア層は男性が青系の色,女性が赤系の色で年齢が高いほど濃い色で表示した.これにより,中央の項目は年代・性別を問わない多くの人の健康上の悩みであり,端の項目は反対に一部の人の健康上の悩みであることがわかる.


そして,図 6 にアソシエーションルールを追加した図 7 が本論文で提案する属性特化型特徴抽出アソシエーションプロットである.このプロットから得られたメディア層と健康上の悩みの関係について図 7 を用いて再度説明する.右側にマッピングされた項目は男性の悩みであり,特にM2・M3 層が「加齢臭」の悩みが多いことがわかる.また左側にマッピングされた項目は女性の悩みであり,特にF1・F2 層が「生理痛」で悩んでいることがわかる.さらに「太っている・太りやすい」や「運動能力が低下している」がプロットの中心に位置しており,図 2 から回答率が高いため性別・年代問わず多くの人が悩んでいることがわかるが,アソシエーションルールだけの可視化では表示されなかった,全ての項目に対して回答率が高かった質問項目がプロットの中心に表示されていることは,全質問項目の特徴を俯瞰するプロットができていることがわかる.

アソシエーションルールは支持度と確信度とリフトの下限の設定によって抽出されるルールが変わるため,得られるプロットは異なる.例えば図 7 は支持度0.01 以上,確信度0.1 以上,リフトを1.5 以上のルールを表示している.リフトの下限を高く設定することによりリフトの高いルールだけが表示され,メディア層の特定のグループに関係する悩みがはっきりと表れる.同じ質問について,支持度0.01 以上,確信度0.1 以上はそのままで,リフトを1.1 以上に設定した場合図 8 になる.リフトの下限を下げたことにより,ルールが多く表示され,メディア層の特徴が見え辛くなっている.次に,リフトを1.3 以上に設定した場合図 9 になる.図 8 よりリフトの下限を上げたことにより,弱いルールが表示されなくなっているが,図 7 に比べて共通の悩みの中で「少し女性より」のルールが表示されていることがわかる.
質問内容によってメディア層での特徴付けしやすいルールの数は異なるが,解析の際にアソシエーションルールの設定を調整することで対応できる.その調整を可能とするShiny アプリケーションを作成した.図 10 がそのアプリケーションである.左側にあるパネルで上から質問内容,支持度の下限,確信度の下限,リフトの下限,文字の大きさ,円の大きさ,ひし形の大きさが変更できるようになっている.



本論文では,多肢選択アンケートについて特定のグループが多く反応している回答項目を見つけ,またそれらの関連を含め,グループと回答項目の関連を可視化するプロットを提案した.アソシエーションルールだけを可視化した場合,全てのグループに関連の強い項目は特定のグループに関するルールとして抽出されず,図として表示されないという問題に気づくことができた.また対応分析だけを行った場合,支持度が低く外側にマッピングされた項目について関係性が弱い項目のように認識されることも問題であることがわかった.対応分析とアソシエーションルール分析の両方を用いることで,全ての項目を関連性により表示することができ,ルールによって支持度の低い項目でも関係性の強い項目として認識することもでき,個々で用いる場合の問題を相互で補うことができる可視化を実現できた.さらにアソシエーションルールの設定変更することが可能な可視化アプリケーションを作ることで,表示するルールの量を探索的に調整することが可能となった.
本論文で扱ったデータは経営科学系研究部会連合協議会主催,平成25 年度データ解析コンペティションで提供して頂いたデータであり,継続して本論文につながる研究への利用を認めて頂いた提供元の株式会社マクロミル様に深く御礼申し上げます.また,査読者には丁寧な査読をいただき大変感謝しております.