2025 年 74 巻 J-STAGE-1 号 p. 6-9
正規分布は統計処理をするうえで基本となる重要な確率分布である。この分布は,自然界のさまざまな現象や性質,臨床データなどに対して当てはまる特徴を持った分布である。臨床検査の健常群の中で正規分布を示す項目には,Na,Ca,IP,尿酸,総蛋白,アルブミン,赤血球などがある。一方,正規分布ではない歪んだ分布(非正規分布)を示す検査項目も多数存在する。例えば,クレアチニン,コレステロール,AST,ALTなどは対数正規分布(データの対数をとったときに正規分布となる分布のこと)を示す。統計処理では,パラメトリック法を用いる際に母集団が正規分布していることが前提条件であり,平均や標準偏差はこの前提に基づいて計算することが可能である。対数正規分布のように正規分布ではないデータに対する対応は,データを一旦正規分布になるように変数変換を行い,平均値や標準偏差を求め,分析を行った後に逆変換することによって正規分布として扱うことで可能である。このような処理を行うことで,非正規分布データも適切に分析することが可能となる。ここでは対数変換を含め,t分布,一様分布などについて紹介する。
統計処理を行う際に重要な分布型として,二項分布(とびとびの値を取る変数の確率分布),正規分布(連続変数の確率分布),t分布,一様分布,並びに対数正規分布がある。これらの分布について説明する。
1) 二項分布二項分布は,離散分布の場合に使われる確率分布で,限られた回数の試行(n回)を行った場合に,目的とする現象が何回起こったかを数える時の分布である。この分布は試行回数によって分布の形状が変わる(Figure 1)。一般的には,コインの裏・表の確率や,サイコロで1の出る確率などの計算に使用されるが,臨床検査の分野では白血球の百分率などの比率を統計処理する際に使用される。
確率p = 0.5の場合(コインの表裏のような場合)の試行回数と成功数。
二項分布に従う確率変数の条件は,試行回数(n)が一定であること,非常に多数の試行を行ったときの出現率(p)が一定であること,観察された現象が独立試行であることなどがある。また,二項分布において試行回数(n)が大きい(100以上),出現率(p)が0.5に近い場合は,正規分布としてデータを扱うことができる。ここで注意することは,二項分布は母比率がわかっている場合(サイコロの目が出る確率1/6。コインの裏表1/2など)に処理されるが,白血球の百分率のように母比率がわからないこともある。このような場合は,標本から確率pを求め推定確率として用いる。なお確率pは0~1の値をとる。
臨床データの例として白血球の百分率(比率)で,単球が5%含まれた場合について,二項分布を使ってその出現確率を考える。Figure 2に示すように,100カウント中に単球が出現する確率は,5回(18%)を中心として少し歪んだ形を示す分布となっている。100カウントという少ないカウント数では2回でも8%の出現確率があること示している。
単球の出現確率をp = 0.05(5%)としたときに白血球100カウント中の単球が出現する確率を示す。
正規分布とは,連続データのヒストグラムを作成したとき,左右対称で釣り鐘のような形をした分布を示す場合をいう。連続分布の代表的な確率分布である(Figure 3)。この分布は物理学上の観測誤差分布をよく表している分布として最もよく使われる。
また,ほとんどの統計処理においてこの分布型を基本として処理され,多くのパラメトリック検定の条件として,正規分布しているかどうかが問題となる。したがって,この分布型を基本とした統計的検定について,異なる分布型のデータを処理した場合には,検定結果の信頼性が低下する。しかし,実際のデータ処理に際して正規分布を確認して検定している人は少ない。Table 1に標準偏差(SD)の区間内に含まれる割合を示し,確率分布上の面積をFigure 4に示す。期待値 ± 2SDのときには,95%以上の面積が入ることを示している。
平均 ± 1SD |
平均 ± 1.5SD |
平均 ± 2SD |
平均 ± 3SD |
|
---|---|---|---|---|
含まれる割合 | 68% | 87% | 95.4% | 99.7% |
上段は期待値 ± 1SDの区間面積を示し,下段は期待値 ± 2SDの区間面積を示す。
t分布(Figure 5)は,自由度(df)によって正規分布よりも裾の長い分布を示す。母分散が既知の正規分布から標本が抽出されたときは,標本分布は正規分布に従う。しかし,標本データから標本平均を推定する場合,標本平均の分布は正規分布と仮定して処理すると第一種の誤りの確率が高まる。そこで,正規分布よりも裾の長い(範囲が広い)t分布を使用する。なお,t分布は自由度が無限大となると正規分布と同じになる。
t分布の自由度(df)の違いによる確率密度関数を示す。dfが小さい場合,両裾に伸びた分布を示すのに対して,dfが大きくなるにつれて正規分布に近づいていくのがわかる。
一様分布は,1個のサイコロを転がしたときやルーレット,一様乱数などがこれにあたる。
対数(log変換)をすると正規分布に従うような分布を対数正規分布という。臨床検査データにおいては,正規分布する項目はあまり多くなく,歪んだデータを示すものが多い。その中で特に歪んだデータを示すものが,対数変換によって正規化される対数正規分布型を示す。項目としては,白血球数や尿素窒素が挙げられる。
上側の図は,人工的に作成した対数正規分布のヒストグラムである。これを対数変換すると下側の図のように正規分布となる。このように,対数変換することで正規分布となるような歪んだ分布形を対数正規分布という。
本論文に関連し,開示すべきCOI 状態にある企業等はありません。