2025 年 74 巻 J-STAGE-1 号 p. 71-77
3群もしくはそれ以上の群のグローバル(一括)検定において,データが正規分布で等分散あれば一元配置分散分析(ANOVA),正規分布でなければKruskal-Wallis検定が用いられる。ANOVAでは全体の変動を群間変動(要因変動)と郡内変動(誤差変動)に分けて分散の比に続けて,F検定を行う。Kruskal-Wallis検定では,順位データを用いてH統計量を求め,(カテゴリ数 − 1)のカイ二乗分布に従うという性質を用いて要因間に差があるかどうかを調べる。ANOVAでもKruskal-Wallis検定でも検定の結果が有意となった場合,少なくとも1組の代表値が異なることを意味する。どの群間に差があるかを調べる場合,有意差がないのに有意差ありと判断するαエラー(第1種の過誤)を増やしてしまうため,2群比較の手法を何度も行うことはできず,αエラーを調整した多重比較で行わなければならない。また,共分散分析は,分散分析と共変量を組み合わせた手法である。共分散分析では,先ず交互作用の有無を確認する。交互作用を認める場合,層別解析が必要である。交互作用がなければ回帰直線の傾きがゼロでないことを確認したのち,水準間の分散分析,多重比較および各水準における母平均の区間推定を行う。これらの手法は研究で用いることも多く,研究者の理解と判断に基づいて適切に行われる必要がある。
医療の分野では,2群比較のみならず,病期や検査値を階級で区切って,アウトカムと比較するようなことは多い。2群および多群の連続変数の比較(検定方法)についてTable 1にまとめた。
群 | 正規分布 | 対応 | 検定手法 |
---|---|---|---|
2群 | する | 無(等分散) | t test |
する | 無(異分散) | Welch’s t test | |
する | 有 | paired t test | |
しない | 無 | Wilcoxon rank sum test (Mann-Whitney U test) |
|
しない | 有 | Wilcoxon signed-rank test | |
多群 | する | 無 | 一元配置分散分析 |
しない | 無 | Kruskal-Wallis test |
多群の比較において,平均値が異なるかどうかを調べる場合,t検定のような2群比較を繰り返し行うことは避けなければならない。なぜならば,「多重比較」の問題が生じるからである。多重比較の問題とは,検定を繰り返すことで第1種の過誤(αエラー)を増大させてしまうことである。t検定のような2群比較を1度行った場合,第1種の過誤(αエラー)は5%に抑えられる(そのように設定している)。しかしA,BおよびCの3群に対し,t検定をA vs B,B vs CおよびA vs Cのように3回行えば,結果としてαエラーを14%まで増やすことになってしまう。
1 − (1 − 0.05)3 ≒ 0.143
例えば,がんのような病期stage(I, II, III, IV)と腫瘍マーカーを比較する研究において,分散分析を行うことを考えてみる。結果(腫瘍マーカー値)に影響を与える項目(病期stage)を要因(または因子)といい,要因の内訳(I, II, III, IV)を水準levelという。分散分析には,要因が1つの一元配置分散分析,要因が2つの二元配置分散分析等がある。ここでは,医療現場で比較的よく用いられる一元配置分散分析,クラスカル・ウォリス(Kruskal-Wallis)検定および共分散分析について紹介する。
一元配置分散分析(one way ANOVA)は,one way Analysis of Varianceの略で,1つの要因によって結果(平均値の差)に影響を与えているかどうかを調べる統計学的手法で,データが正規分布で等分散であるときに用いることができる(パラメトリック検定)。Table 2はある疾患における病期stage毎のマーカー値を示したものである(仮想データ)。
stage I | stage II | stage III | stage IV | |
---|---|---|---|---|
1 | 9 | 13 | 29 | 32 |
2 | 6 | 15 | 26 | 33 |
3 | 5 | 11 | 22 | 39 |
4 | 9 | 17 | 20 | 50 |
5 | 4 | 12 | 21 | 41 |
6 | 7 | 14 | 26 | 42 |
7 | 8 | 14 | 29 | 45 |
8 | 3 | 12 | 30 | |
9 | 3 | 18 | ||
10 | 4 | 15 | ||
合計 | 58 | 141 | 203 | 282 |
総合計 | 684 | |||
平均 | 5.8 | 14.1 | 25.4 | 40.3 |
Figure 1は,Table 2のデータを箱ひげ図として示したものである。病期stageが上あがれば(I→II→III→IV)マーカー値も上昇していることが分かる。このことを統計学的に示すにはどのようにすれば良いだろうか。
一元配置分散分析では,Figure 2のようにデータの値と平均値の差(偏差)に注目して解析を行う。
しかし偏差はその性質上,合計するとゼロになるため2乗した平方和として考える。具体的にはデータのバラつきを総変動ST,要因間の変動(要因変動)SAおよび要因内の変動(誤差変動)SEに分けて考え,以下の手順ですすめる。面倒に思われると思うが,実際は統計ソフトが瞬時に行ってしまう。
1. 総変動STの算出総変動STは以下のように計算する。
ST = (個々のデータの2乗和) − 修正項*
*修正項=総合計2/合計数
個々のデータの2乗和はTable 3のように19,282,修正項は6842/35 = 13367.3で,
総変動ST = 19282 − 13367.3 = 5914.7となる。
stage I | stage II | stage III | stage IV | |
---|---|---|---|---|
1 | 81 | 169 | 841 | 1,024 |
2 | 36 | 225 | 676 | 1,089 |
3 | 25 | 121 | 484 | 1,521 |
4 | 81 | 289 | 400 | 2,500 |
5 | 16 | 144 | 441 | 1,681 |
6 | 49 | 196 | 676 | 1,764 |
7 | 64 | 196 | 841 | 2,025 |
8 | 9 | 144 | 900 | |
9 | 9 | 324 | ||
10 | 16 | 225 | ||
個々のデータの2乗和 | 19,282 |
要因変動SAは,要因によるバラツキを示したものであり,以下のように計算する。
SA = Σ {(水準単位のデータの合計)2/群のデータ数} − 修正項
Table 4にその計算過程を示す。
stage I | stage II | stage III | stage IV | |
---|---|---|---|---|
1 | 9 | 13 | 29 | 32 |
2 | 6 | 15 | 26 | 33 |
3 | 5 | 11 | 22 | 39 |
4 | 9 | 17 | 20 | 50 |
5 | 4 | 12 | 21 | 41 |
6 | 7 | 14 | 26 | 42 |
7 | 8 | 14 | 29 | 45 |
8 | 3 | 12 | 30 | |
9 | 3 | 18 | ||
10 | 4 | 15 | ||
各群の個数 | 10 | 10 | 8 | 7 |
データの合計 | 58 | 141 | 203 | 282 |
データの合計の2乗 | 3,364 | 19,881 | 41,209 | 79,524 |
データの合計の2乗/各群の個数 | 336.4 | 1,988.1 | 5,151.1 | 11,360.6 |
修正項 | 13,367.3 | |||
要因変動SA | 5,468.9 |
要因変動SA
= (336.4 + 1988.1 + 5151.1 + 11360.6) − 13367.3
= 468.9
3. 誤差変動SEFigure 2のように,要因変動SAと誤差変動SEを加えたものが総変動STであることから,誤差変動SEは,総変動STから要因変動SAを引いたものになる。
総変動ST = 要因変動SA + 誤差変動SE
∴誤差変動SE = 総変動ST − 要因変動SA
= 5914.7 − 468.9
= 445.8
となる。
4. 分散分析表の作成(F検定の実施)F検定とは,2つ以上の群間での分散の均等性を検定する統計手法で,F値を用いてグループ間に統計的に有意な違いがあるかどうかを判断する。F値は要因による変動の平均平方を,誤差の平均平方で割った値であり,グループ間の変動(要因がどれだけデータに影響を与えているか)とグループ内の変動(測定のばらつきや個体差等要因以外の理由での変動)を比較する。
F値が1より大きければ,誤差変動SAより要因変動SEが大きく,逆にF値が1より小さければ誤差変動SAより要因変動SEが小さいことを意味する。しかし,実際はF値のみでは判断できず,F値と関連する確率(p値)を用いて結論を導く。Table 5のような分散分析表を作成すると分かりやすい。
平方和 | 自由度 | 平均平方 | F値 | p値 | |
---|---|---|---|---|---|
要因変動 | SA | φA = 水準数 − 1 | VA = SA/φA | VA/VE | |
誤差変動 | SE | φE = 総数 − 水準数 | VE = SE/φE |
今回の事例に当てはめるとTable 6のようになる。
平方和 | 自由度 | 平均平方 | F値 | p値 | |
---|---|---|---|---|---|
要因変動 | 5,468.9 | 3 | 1,823.0 | 126.7 | < 0.001 |
誤差変動 | 445.8 | 31 | 14.4 |
p値の算出は自由度とF値を用いて行う。ExcelのF.DIST.RT関数で簡単に行うことができる。
F.DIST.RT(F値,分子の自由度,分母の自由度)
= F.DIST.RT (126.76, 3, 31)
= 1.73354E − 17
= 1.73354 × 10−17
結果,p値は非常に小さな値(p < 0.001)となる。
5. 結果の解釈一元配置分散分析の[帰無仮説]と[対立仮説]は以下の通りである。
[帰無仮説]
Stage I~IVのどの組合せにおいてもマーカーの平均値に差はない
[対立仮説]
Stage I~IVの少なくとも1つの組合せにおいて,マーカーの平均値に差がある(「全ての組合せに差がある」ではないので注意が必要)
[帰無仮説]および[対立仮説]とp値の関係は以下のようになり,「stage I~IVの少なくとも1つの組合せにおいて,マーカーの平均値に差がある」となる。
p < 0.05→帰無仮説を棄却し対立仮説を支持
p ≥ 0.05→帰無仮説は棄却できない
しかし,どの群に差があるのかまでは言及していないので注意が必要である。言及するのであれば,p値を調整した多重比較が必要になる。2群比較を繰り返し行うことは,αエラー(第1種の過誤)を増大させてしまうので御法度である。多重比較の方法として,Bonferroni法,Tukey-Kramer法,Dunnett法,Steel-Dwass法など種々の方法がある。
一元配置分散分析は,データが正規分布し,かつ等分散であることが条件であったが,実際のデータは正規分布でなく,分散も異なることも多い。そのような場合,クラスカル・ウォリスKruskal-Wallis検定(ノンパラメトリック検定)が用いられる。クラスカル・ウォリス検定では実際の数値は用いず,数値から変換した順位をデータとして用いる。
[帰無仮説]と[対立仮説]は以下のようになる。
[帰無仮説]
Stage I~IVのどの組合せにおいてもマーカーの(順位の)数値に差はない
[対立仮説]
Stage I~IVの少なくとも1つの組合せにおいて,マーカーの(順位の)数値に差がある(「全ての組合せに差がある」ではないので注意が必要)
実際の計算は下式を用いて計算を行い,検定統計量Hが自由度(水準数 − 1 = 4 − 1 = 3)のカイ二乗分布に従うことを利用している。
記号の意味は以下のようになる。
Rj = j群での順位の和
nj = j群でのデータ数
n = 全てのデータ数
Table 2を順位データに置き換え,上記について計算すると,Table 7のようにH統計量は31.76となる。
stage I | stage II | stage III | stage IV | |
---|---|---|---|---|
1 | 1 | 11 | 21 | 29 |
2 | 2 | 12 | 22 | 30 |
3 | 3 | 13 | 23 | 31 |
4 | 4 | 14 | 24 | 32 |
5 | 5 | 15 | 25 | 33 |
6 | 6 | 16 | 26 | 34 |
7 | 7 | 17 | 27 | 35 |
8 | 8 | 18 | 28 | |
9 | 9 | 19 | ||
10 | 10 | 20 | ||
nj | 10 | 10 | 8 | 7 |
Rj | 55 | 155 | 196 | 224 |
nj | 35 |
H = {12(302.52402.5 + 480.2 + 7168)/35 × 36} − 3 × 36
= (12 × 14675/1260) − 108
= 139.76 − 108
= 31.76
p値はCHISQ DIST RT関数で求めることができる。
CHISQ.DIST.RT (31.76, 3)
= CHISQ.DIST.RT(H統計量,自由度)
= 5.87982e−7
= 5.88 × 10−7
結果p < 0.001と非常に小さな値となり[帰無仮説]は棄却され,一元配置分散分析と同様,「stage I~IVの少なくとも1つの組合せにおいて,マーカーの平均値に差がある」となる。
共分散分析は,分散分析と回帰分析を組合せたような手法でANCOVA(Analysis of Covariance)と略す。2水準以上の母集団においてそれぞれ回帰分析を行った結果,それらの回帰直線の傾きが同じである場合に,各水準で回帰直線から求められた平均値に差を認めるか否かを検定する手法である5)。
Table 8は,ある検査値xとアウトカムyおよび性別sex(0: female, 1: male)の架空データであり,Figure 3はその散布図である。性別の違いにより2つの集団は異なり,かつxとyとには正の相関がありそうなのが分かる。
x | y | sex | x | y | sex |
---|---|---|---|---|---|
11.1 | 59 | 0 | 8.3 | 219 | 1 |
7.1 | 75 | 0 | 9.5 | 221 | 1 |
12.3 | 123 | 0 | 6.6 | 222 | 1 |
20.4 | 106 | 0 | 13.7 | 258 | 1 |
14.5 | 70 | 0 | 13.8 | 273 | 1 |
9.8 | 69 | 0 | 16.9 | 257 | 1 |
13.7 | 101 | 0 | 10.0 | 244 | 1 |
7.0 | 70 | 0 | 18.1 | 271 | 1 |
19.9 | 115 | 0 | 7.5 | 215 | 1 |
18.0 | 128 | 0 | 5.3 | 210 | 1 |
20.1 | 140 | 0 | 7.4 | 256 | 1 |
9.2 | 105 | 0 | 10.5 | 244 | 1 |
9.3 | 90 | 0 | 10.6 | 247 | 1 |
14.4 | 70 | 0 | 11.7 | 253 | 1 |
10.5 | 100 | 0 | 16.8 | 263 | 1 |
sex:0=女;1=男
共分散分析の解析は,一般的に以下のようにすすめていく。
①各群の回帰直線が平行であるかの確認
②回帰係数がゼロでないかの確認
③水準間(性別)の分散分析
④多重比較
⑤各水準(性別)における母平均の区間推定
各群の回帰直線が平行であるかの確認(①)は,交互作用項を用いた回帰分析を行う。具体的には説明変数とカテゴリ変数を掛け合わせた項を投入し,有意かどうかを検討する。Figure 4は交互作用の模式図であり,(a)は交互作用を認めず2つの回帰直線の傾きは平行であるが,(b)は傾きが異なる。交互作用が有意であれば,水準間で傾きが異なっていることを示すため層別解析(この場合であれば男女別)を行う。
Figure 5は交互作用項を含めた回帰分析の結果で,sex#c.x maleの項は交互作用項を示す。交互作用項のp = 0.61であり有意ではない(交互作用は認めない)。
次に回帰係数がゼロでないかの確認を行う。Figure 6は交互作用項を含めていない回帰分析の結果である。Male,Femaleともに有意(p < 0.001)で,回帰係数は3.77でモデルとしても成立している(F検定,p < 0.001)。性別によってyは異なることを示している。推定式は以下のようになり,男女の平均値の差は156.7である。
Female → y = 3.74 × x + 45.6
Male → y = 3.74 × x + 202.0
残差の平方和が最小となるよう他の要素(ここではx)を調整して求めた最小2乗平均はFigure 6bのようにfemale:80.33,male:250.29となる。
95%信頼区間は次式で求められる。
平均値 ± t値 × 標準誤差
t値はT.INV.2T関数(t値,自由度)で求めることができる。自由度は(データ数 − 群の数 − 1)であり,
15 − 2 − 1 = 12となる。
T.INV.2T
= T.INV.2T (0.05,12)
= 2.178
よって,性別の95%信頼区間は以下のようになる。
Female:80.33 ± 2.178 × 4.67
70.16 ≤ 女性のy ≤ 90.50
Male:250.29 ± 2.178 × 5.56
238.18 ≤ 男性のy ≤ 262.4
となる。
本論文に関連し,開示すべきCOI 状態にある企業等はありません。