Public Health Nursing Education
Online ISSN : 2433-6890
Special Lectures
An Instruction of Statistical Analysis Which Public Health Nurses Can Use from Tomorrow
Toshimi Sairenchi
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2020 Volume 4 Issue 1 Pages 18-21

Details

I. 地域診断と統計

地域保健法に基づく『地域保健対策の推進に関する基本的な指針(平成27年3月27日厚生労働省告示第185号)』においても,「国,都道府県及び市町村は,(中略)疫学的な手法等を用いて地域保健対策の評価等の調査研究を行う」とされている.当該指針が謳っているのは地域診断(地区診断)そのものであり,保健事業のPDCAサイクルである.そしてそれは,保健師の専売特許であるはず.ちなみに医学部のコア・カリキュラムや国家試験出題基準に「地域診断」なる言葉は見当たらない.しかし,行政などで仕事をしている保健師の皆様と話していると,「疫学や統計学が分からない」という声を聴くことが多い.そのような状況の中で,今回,この演題で講演を依頼され,保健師の皆様に地域診断の基礎である疫学・統計学をなんとか使えるようになっていただきたいとの思いでお引き受けした.

II. 想いの数値化

このような講演で,私がいつも話すことは,「統計の基本は,『仮説の検証』」であり,仮説なくして統計は活用できないということである.換言すれば,「自分達の想い(仮説)を,疫学と統計学を駆使して,数値として『見える化』する」ということである.この場合,日常の保健活動から「自分たちの想い(仮説)」を定式化することが何よりも肝要である.そこで,Evidence Based Medicine(EBM)の考え方の中の,PE(I)COが役に立つ.Pは対象とするPatients(患者)のことである.保健の分野ではPopulation(対象集団)としたほうが妥当であろう.E(I)は,Exposure(曝露群)またはIntervention(介入群)である.そして,CはComparison(対照群)であり,OはOutcome(結果)のことである.例えば,特定保健指導の効果を評価する際に,「特定保健指導対象者において(P),特定保健指導を施した者(I)は,施していない者(C)に比べて,死亡率(O)が低い」のような言葉で記述される.別な例を挙げれば,「特定健診の対象者に対して(P),受診券様式の変更をしたところ(I),変更する前に比べて(C),受診率が増加した(O)」などである.まず初めに,このような自分の想いの定式化をお勧めする.

さらに,このような自分達の想いが,疫学・統計学によって証明できた際に,その後の保健事業をどうするかも考えておかなくてはならない.言い換えれば,保健事業の改善を目的としなければ,地域診断はあまり意味がないのである.つまり,事業の廃止,変更,新規の立ち上げ等,行政・企業等が行っている保健事業は常にPDCAサイクルの俎上にあるべきなのである.

III. 仮説検証のためのチェックポイント

仮説を検証する際に,気に留めておくべきことがある.それは,疫学で因果関係を検討するための5つのチェックポイントである.1つ目は,時間の前後関係である.これは疫学的に因果関係を考えるうえで必須の条件である.住民アンケートなどで,「運動している群は,運動していない群より,肥満者の割合が高い」といった結果になることがある.これは,運動習慣と身長・体重を同時に質問していることによって起こる.「肥満であるために,運動を始めた」といったケースと,「運動しているので,肥満にならない」といったケースの両方が含まれてしまっていて,運動と肥満のどちらが原因でどちらが結果か判別できないのである.時間の前後関係をはっきりさせることができるような調査が必要なのである.

2つ目は量-反応関係である.「血圧が高ければ高いほど脳卒中の死亡率が高い」など,横軸に原因(と想定する項目),縦軸に結果(と想定する項目)をとったグラフを描いたとき,右肩上がりや右肩下がりになっていると因果関係を主張する根拠の1つにはなるだろう.

3つ目は一致性である.これは,様々な調査で同様の関連が認められているということである.アメリカでもイギリスでも日本でも,20年前でも最近でも,中年者にあっても高齢者にあっても,「血圧が高い群は,血圧が正常な群に比べて,脳卒中の死亡率が高い」ということであれば,高血圧が脳卒中の原因であることを主張する根拠の1つになるだろう.

4つ目は整合性である.これは,疫学以外の研究(細胞・動物などを使った実験など)による知見と矛盾しないことである.言い換えると,疫学的調査で認められた関連について,機序(メカニズム)が説明できるかどうかである.「喫煙群は,非喫煙群に比べて,肺がんの死亡率が高い」という関連が認められたとして,タバコに含まれているどんな成分がどの遺伝子をどのように傷つけて,どのように細胞をがん化させるかを,疫学以外の知見を使って説明できるのであれば,人間集団において喫煙が肺がんの原因であることを主張する根拠の1つになるだろう.

5つ目は特異性である.「喫煙者は必ず肺がんになり,非喫煙者は絶対に肺がんにならない」といった特異的な関連が認められれば,喫煙が肺がんの原因であることを主張する根拠の1つになるだろう.しかし,少なくとも人間集団で,このような強い特異性が認められることは極めて少ないだろう.

これら5つのチェックポイントは,1つ目の時間性を除けば,因果関係の必要条件でも十分条件でもない.あくまで,因果を推論する際に考察すべきチェックポイントに過ぎない.人間の生活習慣病などについては,様々な危険因子が疾病の発症に複雑に絡んでおり,単一の因果関係で説明できるものではない.そもそも疫学研究のみによって因果関係を立証することはできないことに注意が必要である.

もう1つ留意すべきことがある.それは交絡である.例えば,「保健指導をした群は,しなかった群に比べて,死亡率が小さかった」としよう.保健指導に効果があったといいたいところだ.しかし,もし,保健指導をした群は,しなかった群に比べて,平均年齢が若かったらどうだろうか.保健指導をした群の死亡率が小さかったのは,保健指導の効果なのか,平均年齢が若かったからなのか,区別がつかないことになる.このような場合は,統計学的に調整することが必要になる.

IV. 研究デザイン

参考程度ではあるものの,研究成果のエビデンスレベルを研究デザインによってある程度推し量ることができる.もっともよい研究デザインは,無作為割付比較試験(Randomized Controlled Trial: RCT)のメタアナリシスとされる.これは,多くのRCTの論文を収集して,1つの大規模なRCTとして再解析するものである.

次にエビデンスレベルが高いのは単独のRCTとされる.この研究デザインは,対象者を無作為に複数のグループに分けることが特徴である.無作為に割り付けることによって,交絡が無くなる可能性が高くなる.つまり,どのグループも,平均年齢,男女比,病状,その他の特徴が同様になる.そういう状態にしておいて,各グループへの介入方法だけを異なるものにする.果たして各グループの結果(生存率など)が異なれば,その原因は,介入方法の違いによるものに他ならない(介入方法以外に原因があることを否定できる)と考えられる.実際に行う場合には,無作為割り付けに加えて,各グループへの介入方法の違いを対象者や観察者に知られないようにする二重盲検法なども行われる.次のエビデンスレベルには,その他の介入研究が続く.

介入研究の次には,観察研究が続く.その中でも,コホート研究が最初に来る.コホート研究は,対象集団について,観察開始(ベースライン)時に様々な危険因子や交絡要因への曝露状況を調べておき,長時間かけて疾病の発生状況(エンドポイント)を追跡していく.がんや脳卒中などの発生をエンドポイントとする場合には,数千人~数万人を10年以上追跡することが行われている.時間と費用がかかるため,発症率が極めて低い疾患の研究には向いていないとされる.

発症率が低い疾患には,次善の策として,症例対照研究(Case-control Study)が行われることも多い.これはまず,ある疾患に罹患した人々を症例として集める.少なくとも数十例は欲しいところである.次に,当該疾患に罹患していない人々を対照として集める.症例数の1~3倍程度の人数が集められることが多い.そして,それぞれの,過去における危険因子への曝露状況を比較検討する.この研究デザインにおいては,比較的短期間でデータ収集できることもある.一方で,思い出しバイアスなどが入り込みやすいといわれている.

続くエビデンスレベルの観察研究としては,横断研究,症例報告やケース・シリーズがある.そして,患者データに基づかない,専門委員会や専門家個人の意見は最下位になる.

研究デザインがどんなに良くても,バイアスが大きかったり,測定法がいい加減だったり,サンプルサイズが極端に少なかったりするような研究のエビデンスレベルは低いと考えなければならない.いくら高度な統計学に頼ったところで,何とかなるのは偶然誤差と交絡くらいで,バイアスや時間性などは何ともならないと思ったほうが良い.いずれにしても,1つの疫学研究で何かの因果関係を完璧に証明できることはない.

V. 仮説の設定

前述のような疫学の特徴を踏まえたうえで,まずは仮説の設定をしていく必要がある.保健師であるなら,普段から考えている課題がたくさんあると思う.それを文章に書きだしてみたり,目的関連図やプリシード・プロシードモデルの図にあてはめてみたり,品質管理(Quality control: QC)七つ道具の1つである特性要因図(いわゆる魚の骨)にしてみたりして,自分の考えを整理する必要がある.図としてまとめられた事柄の中から,2つの項目を選んでみれば,PE(I)COの形式の文章ができる.このPE(I)COを基に先行研究を検索してみる.たくさんの先行研究があれば,それらを適宜引用することで,自分のいいたいことはいえる.一方,先行研究が少なければ,自分で調査することが必要になるかもしれない.重要なことは,調査してから何がいえるかを考えるのではなく,何をいうために調査をするかと考えることである.

VI. 統計処理におけるP

これまで,統計処理以前に重要なことを述べてきた.そろそろ本題の統計処理について述べていこう.

前座として,「P値」をどう解釈するかということを述べる.P値は,「曝露によって結果に差がある」あるいは「曝露と結果に関連がある」という結論を下したときに,「その結論が間違っている確率」である.通常はP<0.05(つまり5%未満)のときに,「5%未満の危険率で,有意な差(関連)が認められた」とする.ちなみに5%未満で有意とみなすのは業界の慣習で,統計学的にそうでなければならないといった根拠はない.P≧0.05のときはどう解釈するかというと,結論を保留することになる.一般的には,「有意な差(関連)は認められなかった」という表現になる.誤解しないでいただきたいのは,決して「差(関連)がなかった」と結論付けてはならないということである.

VII. 信頼区間

さて,データを分析するうえで,結果を表す変数(従属変数)の分布が重要である.ヒストグラムを作成して分布の形を確認する必要がある.また,従属変数が正規分布するのであれば,平均値と標準偏差は確認しておこう.変動係数なども役立つときがある.

ここで,自分たちが扱うデータは,標本集団のデータであり,自分たちの興味ある集団全体(つまり全数調査)のデータではないことに留意する必要がある.例えば,自分たちのデータの平均値が,全数調査時の平均値と完全に一致することはまずない.卑近な例を挙げるのなら,「あなたの家の近くに幅15 mの川が流れているよね」と誰かにいったとする.彼は「惜しいね.幅14 mの川なので不正解」というかもしれない.同じ彼に「あなたの家の近くに川が流れているよね」といえば正解になる.また,別な人に「あなたの家の近くに水が流れているよね」といえば,誰にいったとしてもほぼ正解になるだろう.上水道も下水道も通っていない家に住んでいる人はかなり少ないのだから.統計においても,標本集団のデータから,母集団の平均値を一点突破でいい当てようとすると,ほぼ不正解になる.少し幅を持たせて,「○~○の間にある」というと正解になる確率は高くなる.例えば,大きな箱の中に黄色と白のピンポン玉が均等に混じって入っているとする(神のみぞ知る黄色い球の割合は47%だとしよう).そこから何個か取り出したら,56%が黄色の玉だったとする.ここで,「箱の中の黄色いピンポン玉の割合は,56%である」というと正解である確率は0%に近い.反対に「箱の中の黄色いピンポン玉の割合は,0%~100%の範囲にある」といえば正解である確率は100%に近い.どちらのいい方も帯に短したすきに長しである.そこで,「箱の中の黄色いピンポン玉の割合は,95%の確率で23%~88%の範囲にある」というようないい方がなされる.ちなみに,標本の数が多ければ多いほど,また,標本の割合が50%に近ければ近いほど,範囲は狭くなる.母集団からの標本の抽出割合とは無関係である.このような表現を「信頼区間」という.前述の例は「95%の確率で」となっているから「95%信頼区間」と呼ばれる.

VIII. 従属変数の型と検定法

RCTのように,交絡因子がないと仮定できるとき,単変量解析だけで充分であることが多い.また,原因と仮定する変数(独立変数)の値が2種類(例えば,「曝露」か「非曝露」のいずれか)しかない場合,結果を表す変数(従属変数)の型で,検定方法が大体決まる.曝露群と対照群で,割合を比較したい場合は,χ2検定を使う.サンプルサイズが小さいときは,Fisherの正確な検定が必要になる.曝露群と対照群で,平均値を比較したい場合(従属変数が正規分布する場合)には,Studentのt検定を使う.ただし,曝露群と対照群の分散が異なる場合にはWelchのt検定を使う.曝露群と対照群で,中央値(順位)を比較したい場合(従属変数が正規分布しない場合)は,Wilcoxonの順位和検定を使う.

交絡因子が考えられる場合は,層別化,マッチング,多変量解析が行われる.ここでは,多変量解析について述べる.多変量解析においても,従属変数の型や分布で検定方法(多変量解析では「モデル」と呼ばれる)がおおよそ決まる.従属変数が正規分布する場合(例えば血圧値など)は,重回帰分析,分散分析,共分散分析が用いられる.曝露や交絡を表す変数(独立変数)が,いずれも連続量(数値)である場合は,重回帰分析が用いられる.独立変数がいずれもカテゴリ(名義尺度)の場合は,分散分析が用いられる.独立変数に,連続量とカテゴリが混在している場合は,共分散分析が用いられる.結果を表す変数(従属変数)が割合(例えば,疾病の有無など)である場合は,ロジスティック回帰分析が用いられる.重回帰分析などでは,独立変数の値に伴って,従属変数の値が–∞から+∞までの値を取りうる.一方,ロジスティック回帰分析の場合,独立変数がいかなる値を取ろうと,(変換後の)従属変数の値は0~1の範囲におさまるようなモデルになっている.従属変数がまれに起こる件数(例えば,医療機関ごとの重大事故の回数など)を示す場合は,ポワソン回帰分析が用いられる.従属変数が生存時間(例えば,人年法による疾病発症率など)の場合,Cox比例ハザードモデルが用いられる.従属変数がポワソン分布とガンマ分布の混合型(例えば医療費など)の場合は,Tweedie回帰分析が用いられる.なお,従属変数がガンマ分布(例えば患者のみを対象とした医療費)の場合は,ガンマ回帰分析が用いられる.

実際の計算はコンピュータにお願いすることになる.SAS®,SPSS®,Stata®などの統計パッケージがよく使われている.最近では,Rというフリーソフトやそれをマウスで使い易くするEZRというソフトも配布されている.いずれにしても,データと分析方法をコンピュータに指示すれば,解析をしてくれて,その結果を表示してくれる.ビッグデータでもなければ計算時間もそんなにかからない.

IX. まとめ

統計学を利用するにあたって,まず仮説の設定をすることが重要であることを改めて強調しておきたい.そして,因果関係のチェックポイント,バイアス,研究デザインとエビデンスレベルなど,統計処理以前に考えておかなければならないことがあることも重要である.そのうえで,統計処理は従属変数のデータの型と分布によって,使用する分析手法を大体決めることができ,その後は,統計解析ソフトにお任せができる.統計解析そのものを心配するよりも,まずは自分の仮説をPE(I)COの形で定式化してみていただきたい.

 
© 2020 The Japan Association of Public Health Nurse Educational Institutions
feedback
Top