2025 Volume 74 Issue J-STAGE-1 Pages 1-5
そもそも“統計”とは何なのか。統計の定義については様々なものがある。それは統計を利用する立場によって異なるためである。統計学を大きく分類すると,大量のデータや資料をまとめる学問として記述統計学,数学的な見方でデータを捉える学問として数理統計学がある。数理統計学はさらに確率的(頻度的)推測統計学とベクトルや行列を使ってデータの関連性を探索する多変量解析に分類される。医療統計学の立場で考えると,臨床検査によって得られたデータのデータ数や代表値(平均値,中央値)およびそのバラツキなどから,傾向や特徴を見いだして資料としてまとめるとともに,将来に利用できる情報として活用するためのものと考える。医療統計学では,このような様々な統計学を巧みに使用することで,医療に貢献することが求められる。近年,ビッグデータ時代を迎え,ますます統計の重要度が増してきている。しかし,統計処理法には難解な部分や様々な前提条件があるため,誤用して結果をまとめていることも多い。そこでデータ処理をする際に誤りやすい点などを含め実例を示しながら基本統計について解説していく。
統計はデータを要約し,わかりやすくすることであり,統計解析は医療現場において生じる様々な疑問に対して,客観的な判断を行うために使用される。根拠に基づく医療(evidence based medicine; EBM)を実践するためには,しっかりとした統計的考え方に基づき,高度な統計処理を行う必要がある。現在,コンピュータの発達と統計ソフトによって,容易に統計結果が得られるようになっているが,統計の根本はデータの収集方法,処理手順,データの読み方である。そのためには,ある程度の統計学的考え方と基本を知っておくべきである。
2. 統計学の分類 1) 記述統計学データを要約して調査対象の情報を数学的に記述し,集団の特徴や傾向を明らかにすることを目的とする。例えば,平均値,中央値,最頻値などの代表値を示したり,相関係数や回帰式を示すことをいう。また,図表を作成し,データの分布をヒストグラムで表現することも記述統計学に含まれる。
2) 推測統計学推測統計学は,得られたデータを記述するだけでなく,何らかの判断を下すことを目的とする。標本調査の場合,元の集団になるものを母集団(後述)という。母集団から抽出された一部の標本から,母集団の特徴や傾向を推測する学問で,「点推定」「区間推定」と「検定」に分けられる。点推定は,母集団を代表するパラメータとして,平均値,中央値,最頻値などの点を求めることであり,区間推定は未知の母集団から抽出された標本を基に,集団の平均値などがどのような範囲にあるのかを確率的に推定する方法である。例えば,日本人成人男子の身長の平均値が知りたい場合は,記述統計学では全員の計測を行って示す必要があるが,推測統計学を使うと一部のデータを抽出することによって母集団を推定し,ある程度の幅はあるものの成人男子身長の平均値などの代表値を求めることができる。さらに,推測統計学では有意差検定といってデータ間に何らかの差があるかどうかを確率的に判断する方法を行い,違いを統計学的に検出することも可能である(臨床的有用性とは異なる。有意差検定は結果が偶然によるものであるかを評価するが,臨床的有用性はその結果が実際に患者の診療上に意味があるかどうかを評価する。したがって,有意差検定と臨床的有用性の結果が異なる場合がある。)。
3. 母集団と標本統計では,バラツキのある大きなデータ(母集団)から一部分を抽出し,その抽出したデータ(標本)の性質を調べることで,元の母集団の性質を推測するための方法論を体系化したものである。そこで本章では,統計の基礎となる母集団と標本について述べる。
統計学を学ぶにあたって重要なのがデータ(集団)の扱いである。母集団とは関心の対象となる全てのデータのことをさす。母集団には有限母集団と無限母集団があり,例えば有限母集団とは,ある地域の中学生男子の身長などのように限定された集団のことをいい,無限母集団は一定の観測方法で得られるデータ全てのことをさす。一方標本とは,母集団全てを計測することは一般的に無理であることから,母集団から無作為に一部のデータを抽出したデータのことで,無作為標本と呼ばれる(Figure 1)。ただし,無作為に抽出するとは,単純にランダムに抽出することではない。例えば,地域性や周期性のあるもの(専門外来の診察日など),性別や年齢といった項目に対して,単純に乱数で振り分けてしまうと偏りが生じてしまう。そこで,層別化などの明確な意図をもって無作為に抽出することが求められる。
重要なことは,統計学(推測統計学)では,標本から母集団を予測することが基本となるため,得られた標本は母集団の縮図である必要があることである。例を挙げると,標本として6匹対6匹のマウスに対して,ある成分の2群間の比較検定を行うことができるが,この比較検定は母集団である世界中のマウスでも同じことが起こることを想定して行っているということである。統計処理を行う際は,常に母集団を意識して検討を進めることが求められる。
無作為抽出(ランダムサンプリング)とは,ある集団(母集団)から標本を無作為(ランダム)にサンプリングすることである。そして,明確な意図をもった無作為抽出で得られた標本データを使って母集団を推定する。無作為抽出が行われない場合,標本は母集団を反映していない可能性がある。
4. データの尺度測定値をある1つの尺度上に配置された尺度値と考えると,その測定値が意味する制約によって4つの尺度が考えられる。
1) 分類(名目)尺度他と区別し分類(カテゴリー)を主目的とする。カテゴリーの大小は意味をもたない。
(例)疾患分類,男女の分類,季節分類,学生番号,図書番号,車登録番号,性別コード,職業コードなど。それぞれが平等の関係にあり,大小関係がない。
2) 順序尺度順序づけを主目的とするもの。大小関係だけが意味をもつ。
(例)成績順位,ものの好き嫌いの順序,学歴コード,重症度分類(軽症,中等症,重症),効果判定(無効,やや有効,有効,著効),蛋白定性や細菌における菌量などの −,±,+,2+ の表現。
3) 間隔尺度任意の原点と単位をもち,一定間隔に求められた尺度。距離尺度ともいわれる。
(例)血圧,摂氏や華氏の温度,標準学力テストの得点など。
4) 比尺度絶対0点を原点にもち,そこから任意一定単位で目盛られた尺度。
(例)重さ(グラム単位),長さ(メートル単位),時間(秒単位)など多くの物理計測値。臨床検査ではTP・BUN・白血球数・赤血球数・酵素活性・身長・体重などである。
5. パラメトリックとノンパラメトリックパラメトリックは,母集団の特性を定義するパラメータに基づく仮説を立てる手法で,基本的に母集団が正規分布していることを前提とする。一方,ノンパラメトリックは母集団の分布形状を特定しない手法で,データの分布形状に関わらず使用できるため,その頑健性があるとされている。しかし,ノンパラメトリック手法はその頑健性がある反面,微細なデータの変化や分布形状の変動を捉えにくいという欠点もある。特に,データが二峰性(二つの異なる母集団からなるデータ分布)を示す場合,ノンパラメトリック分析を行う際には,解釈に注意が必要である。このような状況では,異なる母集団からのデータが混在しているという事実を見逃してしまうリスクがある。ノンパラメトリック手法を用いる際には,データの特性や潜在的な問題点を十分に考慮することが重要である。
数値を扱う検査データの場合,ヒストグラムを作成して正規分布から逸脱していないかを検討したうえで統計処理を行うことが求められる。特に飛び離れ値と多峰性になるようなデータ群では注意を要する。前提条件を確認しないままの統計処理は間違いの元になるので避けることが大切である。
データが正規分布する場合のバラツキの指標として標準偏差と標準誤差(standard error; SE)がある(3章 記述統計参照)。特に,SEはサンプルサイズの影響を受ける。SEは,式からもわかるようにバラツキの大きさをデータ数の平方根で割っているものである。すなわち,バラツキが大きければSEは大きくなり,データ数が大きくなればSEは小さくなる。
SEは母平均μのありそうな範囲を示すもので,各種の検定で重要な役割を果たし,平均値 ± SEという形で母平均μの推定区間を表す。
2. サンプルサイズ標準誤差で示したように,抽出したデータ数が増えていくと曖昧さが減少し,母平均値の取り得る信頼区間が狭くなり,わずかな差でも検出できるようになる。信頼性の高い統計処理を行ううえで必要なデータ数を求めて,実施することが求められる。また,実験における研究費用や作業量の負担軽減のためには,できるだけ少ない実験回数で結果を出したいという要望もある。一方,実験回数が多すぎる(数百数千となった場合)と母数の推定幅は狭くなり過ぎて,医学的に意味のない差まで検出することになる。統計処理の中で検定結果から得られた情報はあくまで相対的な意味でしかないことに注意する必要がある。医学的に意味のある差をできるだけ少ない被験者数で示すために,サンプルサイズの設計が重要となる。では,サンプルサイズはどのくらいにすればいいのか。検定処理を行うときには,①有意水準(α)は何%にするのか,②統計学的検出力(1 − β)はどの程度にするのかの2点について決めておく必要がある。一般的には,有意水準はα = 0.05(5%),統計学的検出力はβ = 0.2(20%)とすることが多い。しかし,有意水準α = 0.05(5%)については,絶対的なものではないことにも注意する。有意水準は,調査しているデータに対する仮説を判断する際に用いられるが,帰無仮説に対する矛盾の程度を表しているに過ぎない。大切なことは,前提条件として検定を行うデータそのものが適切に集められているか,母集団を反映しているか,ということがしっかりとしているときに初めて使用できるものであるということである。具体的には,データを集める際にバイアスがかかっていないこと,無作為サンプリングが行われていることが挙げられる。
1) 独立2群の差の検定を行う場合サンプルサイズの計算式を下に示す。式からわかるように次のような特徴がある。① データのばらつきが大きければ多くのサンプル数(二乗)が必要となる。すなわち,標準偏差(σ)が2倍になれば必要なサンプル数は4倍となる。② 検出すべき差(Δ)が小さいほど,必要なサンプル数は多くなる。
差(Δ)=検出する平均値の差
Zβ = (β):正規分布における確率
例えば,標準偏差が1.0で,検出する平均値の差Δが0.5のデータの場合,有意水準α = 0.05,統計学的検出力β = 0.2とすると必要なデータ数は63となる。ただし,サンプリングを行う際に,性別で分けたり,年齢で何段階かに分ける層別化を行った場合には,分けた数だけ必要なデータ数は増える。上の例で,年齢区分を成人と老人の2分に分けた場合には,性別と合わせて4倍となる。
2) 母比率の区間推定の場合x=精度
母比率pは,既知であればその確率を代入するが,わからない場合は予備調査の結果またはp = 0.5を仮定して計算する。母比率p = 0.5で精度x = 0.1のような場合は,必要なデータ数は96となる。
医療統計の中で使用する,主な統計記号とその意味について表としてまとめておく(Table 1)。
記号 | 意味 |
---|---|
α | 有意水準 |
N | 母集団のデータ数 |
n | 標本のデータ数 |
μ | 母平均 |
σ | 母標準偏差 |
σ2 | 母分散 |
s | 標本標準偏差 |
s2 | 標本分散 |
SD | 標本標準偏差 |
SE | 標準誤差 |
CV | 変動係数 |
t | t統計量 |
T | Wilcoxonの検定統計量 |
U | Mann-Whitneyの検定統計量 |
F | F統計量(分散比) |
H | Kruskal-Wallisの検定統計量 |
H0 | 帰無仮説 |
H1 | 対立仮設 |
P | 有意確率 |
r | 相関係数 |
R2 | 決定係数 |
本論文に関連し,開示すべきCOI 状態にある企業等はありません。