2025 年 74 巻 J-STAGE-1 号 p. 21-25
検定の基本的概念は,得られたデータが同一の母集団から得られたものであるかどうかを判定することにある。したがって,平均値の差の検定であれ,分散の差であれ,違いがあれば仮説を棄却し,差があると判断する。検定法は,背理法という証明方法を使って矛盾を導き出し,否定を証明する方法を用いる。得られたデータについて,正規分布が仮定できる場合はパラメトリック検定を行い,分布型が特定できない場合や正規分布が仮定できない場合にはノンパラメトリック検定を行う。そして,判定方法に方向性がある場合は片側検定,ない場合は両側検定を行う。さらに,αエラー(第一種の過誤),βエラー(第二種の過誤)の2種類の過誤の発生確率を理解し,コントロールしながら進める必要がある。また,検定結果はデータ数の影響を受けるため,データが多すぎると有意差が出やすくなる。統計的検定は複数の要素を考慮しながら慎重に進める必要がある。また,臨床的に意味のある差があるのかを判断することが求められる。
Aであることを証明するために,Aでないことを仮定して矛盾を導き出す方法を背理法と言う。すなわち,否定を証明する方法である。否定の証明とは,「~でないことを示す」の形の証明のことである。見方を変えると「否定」を否定すると「肯定」になるという理論である。
例えば,コインを投げたところ,4回中4回表が出たとする。偏りのないコインであれば表が出る確率は50%であるから,このコインには偏りがあり,表が出やすいのではないと考えるが,客観的に判断する物差しがない。また,4回の計測では不十分で,10回の計測が必要なのではないかなど迷う。このようなときには背理法と同じような論証方法として仮説検定法を用いる。統計処理を行う際には,常に母集団を意識して仮説を設定する必要がある。
仮説検定法の手順は,
①論証したい事柄を否定する仮説(帰無仮説)を設定する。
②仮説から導かれた事柄に,矛盾があることを示す。
③仮説が間違っているかどうかを判定する。
ここで帰無仮説は,これから証明しようとする命題で,統計を行ううえで最初に設定する仮説であり,H0という記号を用いて表される。この例では,帰無仮説H0は「コインに偏りはない」ということになる。続いて矛盾を証明するために確率を計算する。表が4回出る確率は,次式のようになる。すなわち,全く偏りがないコイン(母集団)であっても約6%の確率で,4回連続で表が出ることになる。
判定では,「仮定が正しい」としたときに,統計量の値が確率的に非常に小さい範囲に入っていた場合に,仮説が間違っていると考えたほうが妥当であると結論づける(仮説を棄却する)。確率的に非常に小さい範囲は,一般的に0.05(5%)または0.01(1%)を有意水準として用いることが多い。今回の場合,5%を使って判定すると6%は偶然起こりえる範囲となり,仮説を棄却することはできない。したがって,確率p > 0.05より「コインに偏りがあるとは言えない」という結果になる。ただし,0.05や0.01に統計学的根拠はないため,適応分野において適度な判断をしてかまわない。0.05や0.01が一般によく使われる根拠としては,多くの統計表が0.05や0.01を採用しており,利用しやすいためと考えられる。
2. 有意水準と有意確率pについて確率(p)は,有意であるかどうかを示す確率ではなく,偶然起こりうる確率を示していることに注意が必要である。
有意水準は第一種の過誤確率,すなわち帰無仮説が正しい場合に,誤って帰無仮説を棄却(否定)してしまう後述のαエラーを意味する。有意水準5%とは仮説が正しい場合に,繰り返し多数回実施して検定を行うとき,間違って帰無仮説を棄却する割合が5%であるという意味であり,特定の判断が間違っている確率が5%ということではない(頻度論)。
一方,有意確率pは,有意であるかどうかを示す確率ではなく,偶然が起こりうる確率を示していることに注意が必要である。
例として,コインを10回投げて2回だけ表が出た場合について考えてみる。帰無仮説を両側0.05(5%)すなわち,片側にすると0.025(2.5%)にした場合の例である(Figure 1)。この場合,比率の計算(二項確率)として計算ができる。計算式は以下の通りである。nは実行回数,rは出現度数,pは比率を示す。
p = nCr × pr × (1 − p)n−r
= 10C2 ×
= 0.044
10回のうち表または裏が2回しか出なかった場合,2回以下となる合計の確率をもって評価することになる。この場合,2回になる確率は,二項確率から0.044(両側では0.088)であり,1回は0.010(両側では0.020),0回は0.001(両側では0.002)で,合計すると有意確率p = 0.11(11%)で,有意水準0.05(5%)との関係は,p > 0.05のようになる。すなわち,10回のうち2回出ることは偶然の範囲であると解釈される。このように,偶然起こりうる範囲を超えているかどうかを判定するための確率が有意水準で,統計量から求められた確率が有意確率である。
3. 仮説検定の判定を行う場合の注意点仮説検定によって得られる判定は「必ず正しい」わけではない。確率によって正しい可能性の大小を述べているだけであることから,仮説を否定するという言葉は用いず,「仮説を棄却する」という表現をする。
4. パラメトリック検定とノンパラメトリック検定統計検定には大きく分けてパラメトリック検定とノンパラメトリック検定の2つがある。パラメトリック検定を用いるか,ノンパラメトリック検定を用いるかを判断する最初のステップは,母集団の分布が正規分布であるかどうかを見定めることにある。パラメトリック検定は,母集団のデータの分布が正規分布と仮定される場合であり,データ数や平均値,分散などのパラメータを使う。一方,ノンパラメトリック検定は母集団の分布型を規定しない方法であるため,平均や分散が使用できない場合に使用する。したがって,ノンパラメトリック検定は正規分布に従っていなくても使用できる検定であり,母集団分布型が不明のときでも使用することができる。
検定法によって判定結果が異なる場合があるが,ノンパラメトリック検定で有意なら統計的に有意とてして差し支えないことが多い。しかし,データの分布が正規分布の場合には,パラメトリック検定を適応した方が検定力は高くなる。
パラメトリック検定・ノンパラメトリック検定のどちらにするかは,検定力に影響するので,それぞれのデータに合った検定方法を選択することが重要になる。データの分布と臨床的意味を加味して判断することが大切である。次節のべき乗変換が可能な場合は,べき乗変換による正規分布変換を試みるとよい。
5. 両側検定と片側検定正規分布,t分布,二項分布とそれに類似した分布では,統計量の偏りを片側にするか,両側にするかで有意点が異なる。片側検定は明らかに方向性を持っている場合に使用する。例えばt検定の場合,一方より良いまたは悪いことを証明したい場合は一方に偏っているので片側検定でよいが,方向に関わりなく違いがあることを検定したいときは両側検定で行うことになる(Figure 2)。
z値は,標準正規分布に従う統計量で,平均が0,分散が1となるようにデータを変換したものである。z値は,次式で表される。
実際上は偏りが特定できない場合がほとんどなので,両側検定を用いるべきであり,通例とされている。ただし,F分布,χ2分布はマイナス側がない。したがって片側確率しか考慮しなくとも両側検定を行ったことになる。なお,両側検定と片側検定では,対立仮説が異なることに注意する。例えば,コインの表裏の出方について検定しようとするとき,帰無仮説は「コインの表裏の出方に差がない」となる。対立仮説は,片側検定の場合は「コインの表(裏)が出やすい」となるが,両側検定の場合は「コインの表裏の出方には違いがある」となる。
有意差検定において,判断の間違いには,2種類のエラーが起こる可能性がある。
1. αエラー(第1種の誤り)帰無仮説が本当は正しいのに,その仮説を棄却してしまう間違いのことを言う。αのことを有意水準といい,0.05(5%)が一般的に用いられるが,より厳密な検定を行うときには0.01(1%)を用いる。
2. βエラー(第2種の誤り)帰無仮説が本当は間違っているのに,仮説を棄却しないという間違いのこという。βは一般的に0.2が採用され,
統計的検定では,①サンプルサイズ,②有意水準,③見込まれる効果量,④検出力の4つが適切であることが求められる。サンプルサイズが小さすぎた場合,検出力が下がってしまう場合があり,逆にサンプルサイズが大きすぎる場合には第1種の過誤が発生する可能性が高くなる。したがって,適切なサンプルサイズを決めることが重要になる。そのためには,見込まれる効果量の設定が重要となる。
Figure 3に2群の差の検定を例としてαエラーとβエラーの関係について示す。通常αエラー(有意水準)を設定して検定を実施するため,αエラーを固定してβエラーについてサンプルサイズの影響を見る。サンプルサイズが小さいときは,2つの群の平均値の標準誤差(SE)が広くなるため,βエラーが大きくなる。一方,サンプルサイズが適切な場合は,SEが適度に狭くなるため,同じ平均値の違い(Δ)であっても βエラーは適切な値を示している。
aはαエラーとβエラー境界点を示す。
αエラーとβエラーの関係から,例数を増やせば検出力が増加し,試験は有意な差として現れやすくなる。例えば,20匹のラット(10匹 対 10匹)を使って高コレステロール血症の治療薬の効果を判定する実験を行ったときに,p = 0.08で有意な結果が得られなかったとする。ところがデータ数を10倍にするとSEは,0.32倍されて小さくなるため,SEは狭くなり,有意差ありと判定される(p < 0.01)(Figure 4)。
上:高コレステロール血症治療薬の効果(n = 10)
下:高コレステロール血症治療薬の効果(n = 100)
データ数が10対10の場合と100対100の場合の平均値 ± SEでは,データ数が10倍になるとSEは1/
データ数の違いによって検定結果が変わることを示したが,数百から数千のデータの場合,わずかな違いによって有意差を検出してしまうため,検定の結果が臨床的に意味を持たなくなってしまう。臨床的に意味のある差とするためには,先にどれくらいの差をもって有意とするか,見込まれる効果量を設定し,それに対する例数はどれくらいなのか決めて検討を行うのが理想的である。
5. 自由度n − 1の意味バラツキを示す標本分散s2を計算するには,n個の標本から求めた偏差の値が必要である。偏差を計算するためには平均値が必要で,平均値は全体の合計をデータ数で割ったものであるため,合計の値は既知となる。もし,このnに何の制約もなければ自由度はnとなるが,n個の変数の間には 平均値が既知という制約が1つある。つまり,1~n − 1個のデータxは自由にその値を取ることができるが,n番目のデータxは合計値が既知であるという制約を受け自由な値を取ることができず既知となってしまう。このため自由度はn − 1となる。
6. t分布t分布はデータ数(自由度df)によって変化する統計量で,Figure 5のような形をしている。データ数が少ないと正規分布に比べて裾野が広がる分布である。統計量が0から離れれば離れるほど確率pが小さくなるが,同じ確率pの統計量は,正規分布の統計量よりも大きなt値となる。独立二群の差の検定や関連二群の差の検定など多くの検定法で使用される分布である。
t分布は,正規分布に似た形をしており,データ数によって変化する統計量で,正規分布よりも両裾が伸びた形をしている。標本数が少ない場合に適応する確率分布で,データ数が多くなると正規分布に近づく。
最終的に求めるべき有効数字よりも1~2桁程度多く求めて計算処理を行い,最後に有効数字になるように数値の丸めを行う。ただし,コンピューターを使用して計算処理をする場合には,有効数字7~16桁程度で行っているので,最後の丸め処理だけで済むことになる。
統計処理を行うときの最終的に求めるべき有効数字は,平均値であれば測定値の有効数字+1桁。例数が少ない検定の場合(n = 20程度)には,統計量Zは小数点以下2桁で十分である。また,相関係数は,2~3桁で十分であるが,r = 0.999 と続く場合は数字が変わる点まで表示しても良い。
本論文に関連し,開示すべきCOI 状態にある企業等はありません。