日本歯科衛生学会雑誌
Online ISSN : 2760-1196
Print ISSN : 1884-5193
ISSN-L : 1884-5193
解説
統計の基礎を学ぶ 第2回 図・表の読み方・使い方
野村 義明松田 悠平
著者情報
ジャーナル フリー HTML

2026 年 20 巻 2 号 p. 6-14

詳細

1.1  分布

第一回で検定方法はデータが正規分布に従っている場合と従っていない場合で検定方法が異なると述べました。正規分布は統計学で代表的な分布ですが,正規分布以外にもいくつかの分布があります。ここでは,分布の基本的な考え方,データの分析に必要な代表的な分布について解説します。分布とはデータの散らばりの形を意味します。

例1)

100人のテストの点数を集計した結果を表に示してあります(表1)。一般的に表で使われる人数は度数分布といい,累計を累積度数分布と呼びます。人数をグラフで表すと図1のようになります。(A)は棒グラフです。(B)はヒストグラムです。棒グラフとヒストグラムを比較すると棒グラフの10点以下の一人がヒストグラムでは19点以下の区分で8人いることがわかります。

表1

100人のテストの点数を集計した結果の例


図1

棒グラフとヒストグラム

この2つを比較すると横軸の点数の区分に違いがあることがわかります。研究結果をグラフにするときは,感覚的にわかりやすい区分で区切っても構いません。これに対してヒストグラムでは横軸が,各群の度数が正規分布の比率に近くなるように調整されています。Excel等のソフトでは横軸の目盛りは自動で設定されます。横軸の目盛りの設定にはスタージェスの公式が使用されます。スタージェスの公式では,データ数がnある場合,階級数は1+log2nとします。この公式で階級数を分割すると分布の形が見やすくなります。例1の100例の場合,log2100=6.64となり,横軸を7つに分割します。スタージェスの公式は1つの目安で,ソフトにより自動的にヒストグラムを書いたときには必ずしも,スタージェスの公式と一致した分割にはならないようです。このように平均値を中心にして左右対称な分布は自然界に最も多いもので,正規分布と呼びます。

1.1.1  正規分布の性質

平均値を中心に左右対称である。平均値から標準偏差で定義される範囲にある度数が決まっている。

〈アドバンス〉

正規分布の確率密度関数

  

この式は正規分布の累積度数分布関数を示しています。この式から正規分布の形は平均値,分散(標準偏差)によって決まることがわかります。

1.1.2  中心極限定理

1000人の母集団から10名を抽出して,平均値を求める操作を繰り返します。毎回,平均値のデータが得られますが,毎回得られる平均値のデータの平均値は正規分布に従うというのが中心極限定理です。母集団のデータが正規分布に従っていなくても中心極限定理が成り立ちます。このため統計学では正規分布は非常に有用なツールとなっており,多くの統計手法が正規分布を基礎として作られています。

1.1.3  正規分布以外の分布

多くの統計手法は正規分布を基礎としていますが,データが正規分布に従っていないのに無理やり正規分布にあてはめて分析をすると有用な結果を得ることができません。ノンパラメトリック検定はその方法の一つですが,その使用範囲は群間比較,対応のある検定,相関に限られています。データが正規分布に従っていない,他の分布に従っていれば,その分布を当てはめて分析をすることによって良好な結果を得ることができます。ここでは,いくつかの分布とその形を紹介します。

2に正規分布(A),ガンマ分布では,aの値を(B)0.5,(C)1,(D)3,(E)7,(F)10と変化させた図を示します。ガンマ分布では,aの値を変化させることによって柔軟にデータに合わせた分布を適用できることがわかります。また,1/2の確率で表がでるコインを「10,000回振ったとき,表が100回出る回数」の分布について,(A)二項分布,(B),(C),(D)負の二項分布,(E),(F)ポアソン分布を示します(図3)。パラメータを変化させることによって負の二項分布では柔軟にデータに合わせた分布を適用できることがわかります。

図2

正規分布,ガンマ分布から無作為に10,000個の乱数を発生させたときのヒストグラム

図3

パラメータを変化させたときの二項分布,負の二項分布,ポアソン分布の形

ここで紹介した分布を簡単に説明します。

〈アドバンス〉

各分布の式

ガンマ分布

  

二項分布

  

負の二項分布

  

ポアソン分布

  

2.1  グラフ表現

研究の結果をグラフで表現する際の,1つの変量,2つの変量,3つ以上の変数の関係について説明します。

2.2.1  1つの変数の表現法

棒グラフとヒストグラムは1変量のグラフ表現です。1つの変量を全体の割合で表現する場合,円グラフを使用します。円グラフは結果を文章で表現しても短い文章で済むため,論文ではあまり使用しません。項目の分類数が多いときや,厚生労働省が発表している保健統計が円グラフで示されている場合,それと比較する場合など適用は限られます(図41)。結果を表現する時に円グラフをいくつか使用しなければ,表現できない場合,円グラフを並列するのではなく割合の棒グラフで表現します。質問項目の多いアンケート調査などで有効です(図5)。

図4

厚生労働省 令和3(2021)年度 国民医療費の概況

図5

質的変数による項目が複数あるときの結果の表現法

2.2.2  2つの変量の関係

2つの変数の関係をグラフで表現する場合,変数が連続変数かカテゴリー変数かによって表現の方法が異なります。

2.2.2.1  連続変数と連続変数の関係

座標にプロットすることによって表現します。原因と結果がある場合は原因を横軸に結果を縦軸にします。これを散布図といいます。

例2)

身長と体重の関係(図6

図6

身長と体重の関係

プロットした点が直線に沿っているかどうかで関連を評価します。右上がりの直線に沿っている場合を正の相関,右下がりの直線に沿っている場合を負の相関といいます。相関の強さを相関係数で示します。相関係数は-1から1の間の値で,-1に近いほど負の相関,1に近いほど正の相関が強く,0に近いほど相関がないと表現します。相関係数は有意確率のようにいくつ以上あればよいといった基準はありません。経験的に0.0~0.2ほとんど相関関係がない,0.2~0.4やや相関関係がある,0.4~0.7かなり相関関係がある,0.7~1.0強い相関関係があるとされています。図に引いてある直線は各データと直線の距離の和が最少になるように引いてあります(図7)。これを最小二乗法といいます。体重の値を式に代入したときに得られる値を身長の予測値といいます。図に示すR2は決定係数といい,直線の当てはまりの良さを示す値です。

図7

最小二乗法

〈アドバンス〉

相関係数は

  

の式で表現されます。共分散を各変数の分散で割ったものです。相関係数が有意であるとは以下の式で検定を行います。これを無相関の検定といいます。

  

統計量tは自由度n-2のt分布に従い,t分布表から有意確率が求められます。相関係数が1,-1に近いほどt値も大きくなり,有意になりやすいですが,サンプル数の影響を受けるため相関係数が1,-1に近くてもサンプル数が少なければ有意になる場合があり,相関係数が0に近くてもサンプル数が多ければ有意になる場合がある。

回帰式は

  

で表せます。この式のすべてのデータの和をとると

  

で表せます。これをaとbで偏微分することによって簡単にaとbの値を求めることができます。統計モデルにおいて予測式の係数を求める方法は最小二乗法と最尤法があり,最少二乗法を適用することは少なく,ほとんどが最尤法です。最尤法とは,予測式の条件の設定をして,その式にデータの値を代入してデータに最も適した係数の値を求めるもので,収束させると表現します。しかし,データ数が少ない場合,予測式が求まらないことがあります。これは予測式に適切な係数が少ないデータでは安定した値に収束しないことを意味しています。

2.2.2.1.1  直線の適合が悪いときの対応

8(A)のデータは完全に直線上にあるデータです。このデータのy軸の値を指数変換すると図8(B),対数変換すると図8(C)のようになります。逆に図8(B)のデータのy軸を対数変換,図8(C)のy軸のデータを指数変換すると図8(A)のようになります。このように直線上にないデータでも適切なデータ変換をすることによって関連性のないデータでも関連性を捉えることができる場合があります。一般的に臨床検査のデータは正規分布ではなく対数正規分布に従うものが多いことが知られています。特に回帰式を求める場合,正規分布以外の分布を当てはめることによって予測式の適合度が向上することは少なくありません。

図8

直線上にある点を指数変換,対数変換した場合の散布図。(A)直線上の点,(B)y軸の点を指数変換したもの,(C)y軸の点を対数変換したもの

2.2.2.2  質的変数と質的変数

質的変数と質的変数の組み合わせは図を用いないで通常は表で表現します(表2)。グラフで表現することも可能ですが,例のように学会発表で強調したいとき,品質管理などグラフで表現する場合は限られています(図9)。

表2

性別と効果の関係


図9

質的変数と質的変数のグラフ表現 論文では通常,表で表現し,グラフは使用しない(A),(B)学会発表等で結果を強調したい場合,(C)品質管理,最適化等の分野で使用されるグラフ

2.2.2.3  質的変数と連続変数

質的変数を横軸に連続変数を縦軸にとって表現します。連続変数が正規分布に従っているときは棒グラフで,正規分布に従っていない時は箱ひげ図(Box plot)で表現するのが基本です。

2.2.2.3.1  連続変数が正規分布に従っている場合

平均値を表現し,標準偏差を誤差範囲として示します(図10)。データが正規分布に従っている場合,平均値+/-標準偏差の範囲のデータ全体の66.7%が含まれ,平均値+/-2×(標準偏差)の範囲に全体の95%,平均値+/-3×(標準偏差)の範囲に99%が含まれることが知られています。誤差範囲として標準偏差を追加することによってデータの分布を推測することができます。標準偏差と混同しやすいものに標準誤差があります。標準誤差は,推定値の精度を示す者です。平均値100,標準偏差10は平均値+/-標準偏差である90から110の範囲にデータ全体の66.7%がこの範囲に存在することを示しています。平均値100,標準誤差5は95から105の間に平均値が66.7%の確率で存在することを示し,90から110の間に95%,85から115の間に99%の確率で平均値が存在することを示しています。このように平均値を代表とする推定値が存在する範囲を信頼区間といいます。通常,推定値とその95%信頼区間で表現します。

図10

棒グラフで示した例 有意水準0.05未満で有意差ありの場合*で,0.01未満の場合を**で表現することが多いです。有意確率の数値を記入することもあります。

標準誤差は以下の式で求めます。

  

(nが充分大きい場合)

標準偏差より小さな値になるため,標準偏差の代わりに標準誤差を誤差範囲で示す誤りが見られます。標準誤差を用いること自体は誤りではありませんが,信頼区間を示すことが目的でない場合は誤りになります。信頼区間を示すのはメタ分析の推定値や回帰式の係数などで平均値の差を示したい場合は標準偏差で誤差範囲を示します。

2.2.2.3.2  データが正規分布に従っていない場合

データが正規分布に従っていない場合,平均値,標準偏差は大きな意味を持ちません。また大きな外れ値がある場合,平均値の信頼性が低くなっています。データが正規分布に従っていない場合は図に示すような箱ひげ図で表現します。検定においてノンパラメトリック検定を行っているにもかかわらず,データが棒グラフで表現されている誤りが散見されます。データが正規分布に従っていない場合は箱ひげ図で表現するのが基本です(図11)。

図11

箱ひげ図の基本要素

2.2.2.2.3  対応のある場合

1つの変量の時間変化など,同じもの,同じ人を測定した結果には,折れ線グラフを用います(図12)。

図12

血圧と時間の関係

コラム

私はお酒(専門はウイスキーです)に合う料理を作ることが好きで,時間があればよくキッチンに立ちます。この料理という行為は往々にして研究と似ているとよく感じます。材料選び(対象者の選定),組み合わせ(比較),手順(方法),そして最終的に「誰がおいしいと感じるか」(結果)です。この「誰がおいしいと感じるか」が重要です。この解説では,医療統計学がテーマですがこれは料理でいう手順や美味しさの判定方法に該当します。いくら高等な料理スキルや高価な食材を用意しても,調理方法の誤りや食べて欲しい人がズレていれば,最終的に出来上がる料理が美味しいと言ってもらえません。研究も同じで,思いついたアイデアが「臨床で使えるエビデンス」になるかどうか,から離れないように気をつけるべきです。つまり,歯科衛生士として研究を考えるとき,最初に問うのは「この研究は臨床を良くするか」「業務範囲で実際に役立つか」ということです。どれほど魅力的なアイデアでも,現場で使えなければ豪華だけど物凄く食べにくい料理のようなもので,価値は半減します。逆に,シンプルでも臨床の質を確実に高める研究は,家庭料理のように強く支持されるとも言えます。特に,今回の解説のテーマでは,分布に当てはまらない分析をすれば,有意なものも有意でなくなることに触れました。これも料理に例えるのであれば,たこ焼き器でたい焼きを作る,もしくは,たい焼き器でたこ焼きを作るようなこととも表現できます。研究テーマは自由です。しかし,自由だからこそ“成果が誰に届くか”という目的地を意識することが重要です。

日々の臨床には研究の材料がたくさんあります。作業の効率化や患者教育の改善,予防処置の質向上など,どれも“冷蔵庫の中の素材”です。そこに科学という火を入れることで,大きな価値をもつ成果が生まれます。だからこそ大切なデータと向き合うときに,私は「この成果は現場で本当に役に立つか?」と自分に問い続けています。その問いこそが,歯科衛生士の研究を価値のあるものへ導く大切なスパイスだと信じています。(松田悠平)

References
 
© 日本歯科衛生学会
feedback
Top