Tenri Medical Bulletin
Online ISSN : 2187-2244
Print ISSN : 1344-1817
ISSN-L : 1344-1817
Commentary
How to choose a statistical method ―Basic edition―
Hitoshi Obayashi
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2022 Volume 25 Issue 1 Pages 60-65

Details
Abstract

臨床から得られるデータを用いて,臨床研究の実施計画を立て,論文投稿や学会発表を行う際,データの統計処理が必要になる.その場合,どの統計検定手法を用いればよいか,悩むことも多い.

本稿では,解析の種類(単変量解析・多変量解析),対応の有無,変数の種類(連続変数・順序変数・名義変数),母集団の分布の型(パラメトリック・ノンパラメトリック),群の数,サンプル数の観点から,統計検定手法を選択する基本的な方法を解説する.

Translated Abstract

Statistical processing of data is necessary when planning the implementation of a clinical study, submitting a paper, or presenting results at a conference. In such situations, it is often difficult to determine the statistical method to use. This study outlines a basic method for selecting an appropriate statistical method from the viewpoint of type of analysis (univariate, multivariate), whether the data is paired or unpaired, type of variable (continuous, ordinal, nominal), type of distribution (parametric, non-parametric), number of groups, and number of samples.

はじめに

統計処理に関する相談を受けるなかで「どの統計検定手法を使えばいいか」という相談や,「この統計検定手法で合っているか」という相談を多く受ける.論文投稿や学会発表で,統計検定手法を誤って使用すると,論文が不採用になったり,研究自体が信頼のおけないものになってしまうからである.

臨床研究の実施計画を立て,臨床データを用いて論文投稿や学会発表を行う際,統計処理が必要になるが,統計検定手法を選択する時,「どこから手をつけていいかわからない」ということを耳にする.

そこで,今回,統計解析における6つのキーワードを理解し,適用することによって,統計検定手法の選択が可能になる方法を解説する.

なお,基本編としたのは,今回ご紹介する一覧表(表12)掲載以外の統計検定手法もあるためである.しかしながら,論文投稿や学会発表においては,多くは今回取り上げた統計検定手法で解決すると思われる 1, 2 .あてはまらない場合や違った解析法を希望する場合は,近くの臨床統計家に相談するか,書籍を参考にされたい 3-5

統計処理方法の選択におけるキーワード

キーワード1 解析の種類

解析の種類を,結果と要因の関係により,単変量解析(univariate analysis)と多変量解析(multivariate analysis)に分ける.

単変量解析は,結果(アウトカム・目的変数・従属変数)に対する,要因(共変量・説明変数・独立変数)が1つの場合の解析方法である.多変量解析は結果に対する要因が2つ以上の場合の解析方法になる.

ある疾患で入院し,手術をした患者で,開腹手術群と内視鏡下手術群の入院日数を比較したい場合は単変量解析,年齢・性別・生活習慣A・生活習慣B等の複数要因を同時に考慮(調整)し,ある疾患発症の有無と要因の関係を考察したい場合は多変量解析となる.

単変量解析には,差の検定や,検査の正確度の評価(ROC曲線),単変量の生存分析(Kaplan-Meier曲線)および相関関係の解析等がある(表1 3, 6, 7 .多変量解析は,線形回帰・2項ロジスティック回帰分析・Cox比例ハザードモデルの3つの手法が用いられることが多い(表2 8-10

キーワード2 対応の有無

対象について,データAの値とデータBの値のペアが決まっている場合を「対応あり」,データAの値とデータBの値のペアが決まっていない場合を「対応なし」と呼ぶ.

例えば,「同じ患者の術前と術後のデータ」を比較した時は「対応あり」,「手術の術式Aの患者群と術式Bの患者群のデータ」を比較した場合を「対応なし」と呼ぶ.

「対応あり」の場合,比較する群はペアが決まっているので,データの個数は同じである.「対応なし」の場合,ペアが決まっていないので,データの個数は異なっていても問題にはならない.

キーワード3 変数の種類

変数の種類は,連続変数・順序変数・名義変数・2値変数がある.

連続変数は,身長や体重のように等間隔の連続した値を示すもので,数値で表される.順序変数は,人気投票の順位や5段階評価のように順序や大小には意味があるが値は等間隔でないもの.名義変数は,手術の術式による群分けのように区別するためにグループ分けをしたもので値の順序や大小には意味がないもの.2値変数は,名義変数のなかで陽性/陰性や死亡/生存のように変数が1か0の2つの値で表すことができるものになる.

キーワード4 母集団の分布の型(パラメトリックとノンパラメトリック)

パラメトリック手法は,データの母集団が何らかの分布に従っていると仮定した場合の検定手法で,仮定する分布は多くの場合,正規分布となる.対象データが正規分布しているかどうかについて,視覚的に確認するためにヒストグラムを描いたり,正規性の検定(Kolmogorov-Smirnov正規性の検定)を行う.また,対象のデータ数(n)が大きい場合は,数学における中心極限定理(母集団の分布がどのような場合でも,標本の大きさが大きくなるにつれて標本平均の分布は正規分布に近づくという定理)を適用し,パラメトリック手法を用いることもできる 11-13

ノンパラメトリック手法は,データの母集団の分布の型を考慮しないでも適用できるようにした手法である.

対象データの基本統計量については,パラメトリックな場合は平均(average)・標準偏差(SD)・標準誤差(SE)を用い,ノンパラメトリックな場合は中央値(median)・四分位値(25%–75%)を用いることに留意が必要である.

キーワード5 群の数

比較する群の数は,2群か,3群以上かのどちらかで分ける.

キーワード6 サンプル数

サンプル数により,選択できる統計手法が限られる場合がある(表1).また,多変量解析では,サンプル数により,回帰式に投入可能な因子(共変量・説明変数)の数が制限される(表2).例えば,ロジスティック回帰分析においては,回帰式に投入したい因子1つにつき 10(アウトカムの少ないほうのサンプル数)となる.つまり,ロジスティック回帰分析で,あるイベントがあった群とイベントがなかった群があり,イベントあり群の人数のほうが少なかった時に,5つの因子を投入したい場合は,イベントあり群の人数が50人以上必要となる 14

表1. 単変量解析(univariate analysis)

解析の

種類

対応の有無

変数の

種類

母集団の

分布の型

群の数

サンプル数

統計手法

単変量解析

差の検定

対応なし

連続変数

パラメトリック

2

1群30以上

t 検定

等分散を仮定:Student(スチューデント)のt 検定

等分散を仮定しない:Welch(ウェルチ)のt 検定

パラメトリック

3≦

1群15以上

一元配置分散分析・多重比較

連続変数 ・順序変数

ノンパラメトリック

2

制限なし

Mann-Whitney(マン・ホイットニー)のU検定

ノンパラメトリック

3≦

制限なし

Kruskal-Wallis(クラスカル・ワリス)検定・多重比較

名義変数

ノンパラメトリック

総数20以上

カイ2乗検定、カイ2乗検定(Yatesの補正)

Fisher(フィッシャー)の正確確率検定

ノンパラメトリック

総数20未満

Fisher(フィッシャー)の正確確率検定

検査の正確度の評価

2

 

ROC曲線

打ち切り例のある2値変数 (生存分析や再発の有無など)

イベント 総数10以上

Log-rank(ログ・ランク)検定

Kaplan-Meier(カプランマイヤー)曲線

対応あり

連続変数

パラメトリック

2

30組以上

Paired(対応のある) t 検定

パラメトリック

3≦

30組以上

反復測定分散分析・多重比較

連続変数 ・順序変数

ノンパラメトリック

2

制限なし

Wilcoxon(ウイルコクソン)の符号順位検定

ノンパラメトリック

3≦

制限なし

Friedman(フリードマン)検定

名義変数

ノンパラメトリック

2

制限なし

McNemar(マクネマー)検定

相関

連続変数

パラメトリック

2

30組以上

Pearson(ピアソン)の相関係数

連続変数 ・順序変数

ノンパラメトリック

2

制限なし

Spearman(スピアマン)の順位相関係数

文献3,40頁; 文献6, 76頁から引用改変

 

表2. 多変量解析(multivariate analysis)

解析の

種類

変数の種類

サンプル数

統計手法

多変量解析

アウトカムが連続変数

回帰式に投入したい因子(共変量)1つにつき15

線形回帰・重回帰分析

アウトカムが2値(1,0)変数

回帰式に投入したい因子(共変量)1つにつき10(アウトカムの少ないほうのサンプル数)

2項ロジスティック回帰分析

アウトカムが打ち切り例のある2値(1,0)変数 (生存分析や再発の有無等)

回帰式に投入したい因子(共変量)1つにつきイベントありのサンプル数10

Cox(コックス)比例ハザードモデル

キーワードを用いた統計処理方法の選択の実際

解析の種類(キーワード1)からキーワードを逐次適用し,統計検定手法を選択する.

単変量解析(差の検定)

単変量解析の差の検定を,キーワードを使用して統計検定手法を選択した例を2つ示す.

例1

「貧血患者群(250名)において,貧血を改善する効果が予想されるA薬を投与した.A薬投与前と投与6ヶ月後の各患者のHb(ヘモグロビン)値を比較したい」

解析の種類は単変量解析で差の検定(キーワード1)→対応あり(キーワード2)→Hb値は数値なので連続変数(キーワード3)→サンプル数が多く,正規分布を仮定してパラメトリック解析(キーワード4)→群は2つ(キーワード5)→30組以上(キーワード6)から,統計検定手法は「paired(対応のある)t検定」となる.

例2

「ある疾患において,A薬を投与予定の220名とB薬を投与予定の150人,C薬を投与予定の120人の入院時年齢を比較したい」

解析の種類は単変量解析で差の検定(キーワード1)→対応なし(キーワード2)→年齢は数値なので連続変数(キーワード3)→サンプル数が多く,正規分布を仮定してパラメトリック解析(キーワード4)→群は3つ(キーワード5)→1群15以上(キーワード6)から,統計検定手法は「一元配置分散分析・多重比較」となる.一元配置分散分析で有意差が検出された場合は,群間比較のために多重比較を行う.多重比較には,Bonferoni法やTukey-Kramer法,Dunnet法などがある 15, 16

上記例以外の差の検定についても,同様にキーワードを適用し,統計検定手法を選択する(表1).

単変量解析(差の検定以外)

差の検定以外の単変量解析について,ROC曲線は,検査の正確度の評価である.2値(陽性・陰性)と判定に用いた検査値等を用いて,感度や特異度から曲線を描き,AUC(Area Under the Curve:曲線下面積)等より検査法の有用性評価に用いる(図1 17

生存分析の単変量解析は,Kaplan-Meier(カプランマイヤー)曲線・log-rank(ログ・ランク)検定を用いる(図2 18

図1. ROC曲線
図2. Kaplan-Meier 曲線

相関解析は,2変数間の単調な変化の関係を調べるために使用される.変数の種類が連続変数でパラメトリックな場合は,Pearson(ピアソン)の相関係数を用い,変数の種類が順序変数または連続変数でノンパラメトリックな場合は,Spearman(スピアマン)の順位相関係数を用いる(表1 7, 9

多変量解析

多変量解析は,線形回帰・2項ロジスティック回帰分析・Cox比例ハザードモデルの3つの手法が用いられることが多い.アウトカム(結果)の変数の種類と時間の概念の有無により選択する.アウトカム(結果)が連続変数のときは線形回帰(線形回帰のなかで,重回帰分析は説明変数の種類も連続変数に限られる),アウトカムが2値(1,0)の場合は2項ロジスティック回帰分析,アウトカムが2値(1,0)で生存分析のように時間の概念が加味されるときはCox(コックス)比例ハザードモデルを用いる(表2 8-10

多変量解析についての統計検定手法選択の例を示す.

「ある疾患の発症の有無に影響を及ぼす要因のなかで,いくつかの要因を同時に考慮(調整)し,どの要因が発症の有無に関与し,その程度はどれくらいかを知りたい」

アウトカム(結果)の変数の種類は疾患発症あり(1)・なし(0)で2値,時間的要素を考慮していないので,統計検定手法は「2項ロジスティック回帰分析」を選択する.

まとめ

統計処理におけるキーワードを理解し,適用することによって,統計検定手法の選択を可能にする方法を解説した.

多くは今回取り上げた統計検定手法選択の選び方で解決するが,該当しない場合もある.統計検定手法が当てはまらない場合,近くの臨床統計家に相談するか,書籍を参考にされたい.

参考文献
 
© 2022, Tenri Foundation, Tenri Institute of Medical Research
feedback
Top