昨今,統計・データサイエンスが大いに広がりを見せ,データ分析に携わる人々の数も増加しつつある.その中で,
統計学
の教育や訓練がやや不足がちの人たちもいることから,「因果」と「相関」について,特に回帰分析の枠組みで考える.また近年,オープンデータの利活用が話題となっている.この種のデータの特徴は,集計データであることである.
そこで,集計データから個人の行動を推論する方法論としてのエコロジカルインファレンスが重要性を帯びてくる.本稿では,身近な例を取り上げ,それらの分析結果を提示すると共に,その解釈について詳しく議論する.特に,回帰分析の3つの役割である「記述」,「予測」,「制御」の違いを明確にすべきであることを強調する.また,それらのデータは集計データであることから,エコロジカルインファレンスのいくつかの技法を適用した結果も示す.例を2つ示したが,それらは全く同じ数値でありながらコンテクストが違うものである.したがって,解析の数値的な結果は全く同じであってもその解釈が異なっている.
本稿で伝えたいメッセージの第一は,データは数値と背景情報からなることという認識である.コンピュータのできるのは「数値解析」であり,「データ解析」を行うためには背景情報を十二分に吟味しなくてはいけないことを改めて伝えたい.
抄録全体を表示