昨年は年末に任期の半分というタイミングで衆院選挙が行われ,つい先日も統一地方選挙が行われたが,開票があまり進んでいないにもかかわらず,選挙速報で「当選確実」のクレジットが出るのを不思議に思われている方もいるのではないだろうか? 選挙では,よく出口調査をやっているのにお気付きだろう.結論を先に言えば,選挙速報での当確情報は,実際の開票状況と出口調査の結果に基づいている.
そもそも,調べたい対象の全てのデータを得ることは,多くの場合,不可能である.そのため一部のデータ,つまり抽出サンプルから,全体の母集団を推定することが必要になる.一部から全体を予測する統計的方法として,「推定」という考えがある.推定の良さは,一致性や不偏性などによって決まってくる.一致性とは,データの数が多くなればなるほど,1つの値に収れんしていく性質のことである.つまり,少ないサンプルよりは多数のサンプルを集めた方が,良い推定が可能になるということである.不偏性とは,偏りのないことであり,推定値の期待値が真の値に限りなく一致してくるということである.
説明を簡単にするために,出口調査で,ある候補者Aの得票率を推定することを考えてみよう.
例えば,投票を済ませた任意の100人の有権者に投票した候補者を聞いたところ,そのうち45人がAに投票したと答えたとしよう.この場合,注目するAの得票率は45/100=0.45である.この値は一点決め打ちの推定値なので点推定値と呼ぶ.この値に基づいて,Aの真の得票率(これは全部の票を開票してみないと分からない)に対する区間推定,つまり,上で調査した0.45という得票率がどのくらいの信頼性を持っているのかということを調べてみる.ここでは,Aが立候補した選挙区で投票した有権者全体が母集団ということになり,出口調査の対象となった100人が標本ということになる.標本が100人で,調査結果としてAに投票した人数が45であるとすると,得票率45%の信頼度95%の信頼区間は,0.3525~0.5475となる(簡単な式なので提示しておくと,p±1.96√
(p(1-p)/n)で計算できる).いま,Aに対立するB候補がいるとしよう.Bに投票したと答えた人数が100人中35人であったとする.そうすると,Aに投票したとする人よりも10%少ない.したがって,かなりの確率でAの方がBよりも得票率が高いと言えそうであるが,本当にそうだろうか? 実際にBの得票率について同じく95%信頼区間を計算してみると,0.2565~0.4435となる.これは,Aの信頼区間とかなり重なっている.つまり,Aの得票率は低ければ40%を切る可能性もあり,Bの得票率は高ければ40%を超えることも考えられる.したがって,この出口調査からだけでは,AがBを抑えて当選するとは言い切れない.これは出口調査の対象人数が少ないためである.もし,全投票者を出口調査対象とすれば答えは簡単であるが,そのような調査は不可能である.そうすると,どのくらいの人数が標本として適当なのかということになるが,出口調査の対象者を増やしてn人にしたとしよう.その場合でもAとBの得票率はそれぞれ45%,35%としておく.このとき,95%の確率で両候補の真の得票率に差があると言うためには,2つの信頼区間が重なり合わなければよいことになる.つまり,「Aの信頼区間の下端」>「Bの信頼区間の上端」であればよい訳である.信頼区間の公式に当てはめて計算すると,この場合,n>364.8となる.したがって,出口調査でAとBの得票率の差45-35=10%が信頼度95%で有意な差であると言うためには,365人以上の人に回答してもらう必要があるということになる.このように標本抽出して得られた結果を用いて,選挙速報で当選確実が出ている訳である(当然,本連載の去年の第1回に紹介したギャロップ調査のように,地域差,性別,年齢構成なども考慮して出口調査する投票所も選ばれているはずである).もし,接戦でB候補者の得票率が43%であったとすると,僅か2%の得票率の差を見いだすためには調査対象として9,462人が必要になってくる.
読者の皆さんは論文などで,この「95%信頼区間」という記述を目にされたことがあるだろう.95%信頼区間であれば,その区間内にその推定値が存在する確率が95%であることを示していることになる.さらに,その区間幅はサンプルサイズ,臨床研究や治験で言えば症例数が増えれば,狭くなる.つまり推定精度が高まる訳である.医薬の世界では,5%有意であるか否かという二者択一の「検定」偏重のきらいがあるが,検定の弱点は,具体的にどのくらいの差があるのかとか,その試験がどのくらいの精度で実施されたのかというようなことが分からないことである.「推定」は,「検定」の弱点を補強する情報を提示してくれる方法なのである.
抄録全体を表示