2025 年 74 巻 J-STAGE-1 号 p. 59-70
重回帰分析は,複数の説明変数;xで目的変数;yを回帰する分析法であり,yの推定値を求めるための予測としての使い方と,yの変動要因となるxを特定するための要因分析としての使い方がある。xの係数(偏回帰係数)は,その変数が1単位変化したときのyの純粋な変化量を表している。重相関係数Rは回帰式から算出される目的変数の推定値と実測値との相関係数であり,赤池の情報量基準とともに回帰モデルの適合度指標となる。ただし,要因分析の場合は,モデルの適合度よりは偏回帰係数の有意性が問題となる。重回帰に対して,ロジスティック回帰分析は,目的変数としては「0/1」でコードされる2値型変数のみをとり,回帰式からは「1」でコードした目的変数(イベント)が生起する確率が算出される。回帰係数からは,その説明変数の変動に対するイベント生起のオッズ比が算出される。また傾向スコア分析における傾向スコアの算出にも利用されている。これらの多変量回帰分析は,単変量回帰での落とし穴となる交絡による目的変数と説明変数間の見かけの関連性を制御することができ,検査法,診断法の性能評価や治療効果の判定,さらに疾患と生活習慣との関係を解析するうえにおいて極めて有用な統計手法である。
目的変数yと説明変数xをy = ax + bとして関係付ける単回帰式に対して,複数の説明変数xでyを回帰した式を重回帰式という。
説明変数xにかかる係数a1~anを偏回帰係数といい,bは初期値である。重回帰分析では,複数の説明変数から重回帰式を仮定し目的変数の値を算出する推定のための使い方と,目的変数の変動に有意に関係している説明変数を解析する要因分析としての使い方がある。
ここで,yとxは,従属変数と独立変数とも表現される。しかし,「従属変数/説明変数」のような組み合わせは避けた方がよい。これは「従属」に対しての「独立」であり,「目的」に対しての「説明」であるからである1)。ただし,特にバイオサイエンスの分野では,説明変数が互いに独立している,すなわち説明変数同士の関係が極めて低いとは言えない場合が多いため,ここでは「目的変数/説明変数」の組み合わせで統一する。
2. 偏回帰係数1)単回帰式におけるxの係数は,xが1単位変化したときのyの変化量を意味している。つまり,x − y平面上での回帰直線の傾きに相当する。これに対して重回帰式における偏回帰係数akは,他の説明変数の影響を取り除いた,説明変数xkが1単位変化したときのyの純粋な変化量を表している。
例として,LDLコレステロール(LDL-C)を目的変数,総コレステロール(T-Cho)とHDLコレステロール(HDL-C)を説明変数とした重回帰モデルを考えると以下に示す重回帰式が得られた(Table 1)。
説明変数 | 偏回帰係数 | 標準誤差 | 標準偏回帰係数 | t値 | 有意確率 |
---|---|---|---|---|---|
T-Cho | 0.88 | 0.018 | 0.977 | 48.7 | < 0.001 |
HDL-C | −0.85 | 0.051 | −0.333 | 16.6 | < 0.001 |
初期値 | −8.04 |
重相関係数 = 0.962(p < 0.0001)
補正決定係数 = 0.923
AIC = 1431
(1) |
重回帰式より,T-Choが1単位上昇すると,LDL-Cは0.88単位増加し,HDL-Cが1単位上昇すると,LDL-Cは0.85単位減少すると解釈することができる。また,初期値−8.04はT-ChoとHDL-Cの変動で説明できないLDL-Cの部分を意味している。
Figure 1に偏回帰係数算出の数理を示す。まず,目的変数,説明変数間からは以下の回帰式が得られる。
(2) |
(3) |
(4) |
(5) |
式(1)のT-Choの偏回帰係数0.88について解説すると,これはFigure 1の①に示したLDL-Cの実測値から,式(2)によりHDL-Cから推定されるLDL-Cを差し引いた値,つまりHDL-Cで説明されないLDL-Cの部分(残差)と,②に示したT-Choの実測値から,式(3)によりHDL-Cから推定されるT-Cho を差し引いた値,すなわち,HDL-Cで説明されないT-Choの部分(残差)との単回帰式の係数に相当する。HDL-Cの偏回帰係数−0.85についても,式(4),(5)を用いて上述のHDL-CをT-Choに読み替えることにより算出される。
先に示した重回帰式では,T-Cho,HDL-Cの偏回帰係数の絶対値が近似していることから,LDL-Cに対する影響力(正負は反対であるが)も近似しているとは解釈することはできない。説明変数の組み合わせを変えた場合に,注目する偏回帰係数の変化を調べることには意味はあるが,説明変数同士の偏回帰係数の大小を比較することはできない。このような場合は,全ての変数を標準化したうえで求められる標準偏回帰係数(Stdβ)を指標とする。標準化とは,個々の測定データからその変数の平均を差し引いて,標準偏差で除した値である。この例でのT-ChoとHDL-CのStdβはそれぞれ,0.98および−0.33であった。また,Stdβは偏回帰係数をβ,説明変数および目的変数の標準偏差をそれぞれSDex,SDobとすると,次式からも算出される。
Stdβの絶対値の大小関係から,T-Choの変動のほうがHDL-CよりもLDL-Cに大きな影響を有していると判断できる。また,Stdβは数学的には偏相関係数と同じ意味を有する。
偏回帰係数の有意性は,次式で求められる値が自由度「データ数 − 全変数の数」のt分布に従うことにより検定することができる。
また,偏回帰係数の95%信頼区間は,「偏回帰係数 ± 1.96 × 標準誤差」として算出される。
3. 重相関係数と決定係数単回帰分析における相関係数rは,目的変数と説明変数の直線性の指標であるが,重相関係数Rは,目的変数の実測値と,重回帰式より算出される目的変数の推定値との相関係数を意味する。式(1)の重回帰モデルでのRは0.962であった。したがって,Rは重回帰モデルの適合度の指標となる。単相関係数rは−1から1の範囲の値をとるが,重相関係数Rは0~1の範囲の値をとる。Figure 2に式(1)から算出されるLDL-Cの推定値と実測値との散布図を示す。単相関係数rがRと一致していることが確認できる。
重相関係数は,目的変数の実測値と回帰式からの推定値との単相関係数に一致する。
一方,Rの2乗値;R2を寄与率という。これは目的変数の変動を説明変数全体がどの程度説明しているかを表している。しかし,説明変数の数が多くなると,Rは1に近づく性質を有しているため,説明変数の数で調整した補正決定係数を指標とする必要がある。
4. 赤池の情報量基準Akaike’s Information Criterionの頭文字をとってAICと表記される。nをデータ数,pを説明変数の数,Seを予測の標準誤差とすると,AICは次式により求められる2)。
AICが小さいほど当てはまり(適合度)の良い回帰モデルと判断できる。しかしAICには「~以下であること」などの絶対的な基準はない。同一の目的変数に対して回帰モデルを探索的に構築していくときなど,AICがもっとも小さくなる説明変数の組み合わせがモデル候補となる。上述の例でのAICは1431であった。
5. ダミー変数「男性/女性」,「陽性/陰性」,「治療効果 有/無」など,量的情報を持たない名義尺度を説明変数とする場合は,2値型変数であれば「0/1」でコードしモデルに投入する。これをダミー変数という。例として性別であれば,男性 = 0,女性 = 1とコードする。この時,どちらを0あるいは1にコードするかのルールはないが,この例で性別に係る偏回帰係数は,男性に対する女性における目的変数への影響の大きさが現れる。なお,ABO式血液型など3カテゴリー以上の名義尺度のダミー変数化については文献1)を参照されたい。
6. 実例1.Table 2は,2.で示したLDL-Cを目的変数とした重回帰モデルに中性脂肪(TG)を説明変数として追加した結果である。TGは対数変換によりほぼ正規化したデータをモデルに投入した。結果よりT-Cho,HDL-CおよびTGから次式に示すLDL-C推定式が得られた。
説明変数 | 偏回帰係数 | 標準誤差 | 標準偏回帰係数 | t値 | 有意確率 |
---|---|---|---|---|---|
T-Cho | 0.964 | 0.015 | 0.950 | 61.7 | < 0.001 |
HDL-C | −1.135 | 0.046 | −0.442 | 24.4 | < 0.001 |
TG | −12.42 | 1.071 | −0.215 | 11.5 | < 0.001 |
初期値 | 42.96 |
重相関係数 = 0.977(p < 0.0001)
補正決定係数 = 0.954
AIC = 1329
重相関係数は0.977と良好な結果が得られており,説明変数の数で調整した補正決定係数より,この回帰モデルはLDL-Cの変動の約95%を説明していると解釈することができる。また,TGを説明変数として投入することにより,AICは1431から1329に低下し,回帰の適合度が上昇したことが確認できる。
一方,LDL‐Cの簡易的な推定式としてFriedewaldの計算式(F式)が用いられている3)。
F式は重回帰分析により作られているのではなく,VLDLに含まれるCho:TG比がほぼ一定であることに基づいた推定式である。そこで,上述の重回帰式からのLDL-C推定値;yとF式から算出される値;xとの関係を確認すると,y = 0.96x + 1.15,r = 0.988と,良好な相関関係が認められた。ただし,F式はTGが400 mg/dL未満の場合に適用可能である。
7. 実例2.Table 3は,HDL-Cを目的変数,年齢,BMI(肥満指数),生活習慣として飲酒習慣,喫煙習慣を説明変数とした重回帰分析の結果である。この例は重回帰式よりHDL-Cの推定値を求めることが目的ではなく,肥満や飲酒,喫煙習慣などがHDL-Cの変動に有意に影響しているかを調べるための重回帰分析による要因分析である。
説明変数 | 偏回帰係数 | 標準誤差 | 標準偏回帰係数 | t値 | 有意確率 |
---|---|---|---|---|---|
年齢 | 0.111 | 0.071 | 0.108 | 1.55 | 0.122 |
BMI | −1.527 | 0.311 | −0.335 | 4.90 | < 0.001 |
喫煙習慣 | −1.928 | 0.818 | −0.161 | 2.35 | 0.019 |
飲酒習慣 | 1.338 | 0.508 | 0.179 | 2.63 | 0.009 |
運動習慣 | 0.115 | 0.489 | 0.016 | 0.23 | 0.813 |
初期値 | 80.1 |
重相関係数 = 0.412(p < 0.001)
補正決定係数 = 0.145
AIC = 1447
HDL-Cは動脈硬化予防に貢献していることが知られているが,有意確率と偏回帰係数の正負より,肥満と喫煙習慣はHDL-C低下の原因であり,逆に飲酒習慣はHDL-Cを上昇させる要因であると考えることができる。また標準偏回帰係数より,喫煙習慣よりも肥満の方がHDL-Cの低下に強く影響していると考察することができる。
補足として,飲酒習慣は「飲酒習慣無:0~有:5」の6段階のランク値を変数としているが,この結果から飲酒量が多いほどHDL-Cが上昇するとは判断できない。これを解析するためには,飲酒習慣無を基準とした5カテゴリーのダミー変数を説明変数とする必要がある。解析の結果,飲酒習慣無に対して飲酒習慣レベル3のみが有意であった。つまり,適度な飲酒習慣がHDL-Cの上昇に寄与していると解釈することができる。
ロジスティック回帰も重回帰と同様に複数の説明変数xで目的変数yを回帰する多変量回帰分析法であるが,次の2点において重回帰と大きく異なる。
i)目的変数は「生存/死亡」「陽性/陰性」「疾患群/非疾患群」など,0/1でコードできる2値型変数のみをとる。
ii)回帰式からは,1としてコードされたイベント:yが生起する確率が算出される。
したがって,ロジスティク回帰分析の目的は,注目するイベントの起こる確率pを推定することにあり,説明変数に係る回帰係数は確率pに対する影響の大きさを示している。また,イベントの生起に関わる変量を調べるための要因分析としても用いられる。
説明変数には単回帰・重回帰分析と同様に連続量やダミー変数化した名義尺度を仮定する。説明変数が1つの回帰モデルを1変量ロジスティック回帰,複数の説明変数からなるモデルを多重ロジスティック回帰と区別することがあるが,ここでは単にロジスティック回帰と表現する。
2. ロジスティック回帰式説明を平易にするために,1変量ロジスティック回帰式の数理について述べる。Figure 3はある疾患群と非疾患群における検査値の分布を示している。
これをもとに各検査値レベルにおいて疾患群が出現する比率(疾患群数/総度数)を求めると,これは各検査値レベルにおいて疾患群が現れる確率pと読み替えることができる(Table 4)。そこで,Figure 4Aのように検査値と出現確率pの直線回帰を考えると回帰直線を求めることはできるが,確率pを0~1の範囲に収めることができない。一方,確率pから導かれるオッズ;
検査値 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
総度数 | 3 | 5 | 9 | 11 | 12 | 10 | 9 | 9 | 7 | 4 |
疾患群/総度数 | 0/3 | 0/5 | 1/9 | 3/11 | 5/12 | 7/10 | 8/9 | 9/9 | 7/7 | 4/4 |
確率 | 0 | 0 | 0.11 | 0.27 | 0.42 | 0.7 | 0.89 | 1 | 1 | 1 |
オッズ | 0 | 0 | 0.12 | 0.37 | 0.72 | 2.3 | 8.1 | ― | ― | ― |
対数オッズ | ― | ― | −2.12 | −0.99 | −0.33 | 0.82 | 2.09 | ― | ― | ― |
つまり,対数オッズを目的変数とすることにより,式(1)のように説明変数(検査値)との関係を線形な1次式で回帰することができる(Figure 4B)。オッズの対数を取る形の変換をlogit変換という。
A:発生確率,B:対数オッズ
(1) |
また,式(1)を
X = ax + bとして,
(2) |
(e;ネイピア定数 = 2.718…)
のように,確率p = の式に変換することができる。したがって,式(1)は,
(3) |
と書き換えることができ,式(3)で近似される曲線(Figure 4A)をロジスティク曲線という。(補足:上述のようにlogit変換することにより回帰係数を求めることができるが,変換後の分散が一様でないため,実際はNewton-Raphson法というアルゴリズムを用いた最尤推定法が用いられる5)。)
1変量ロジスティック回帰の一般式(2)は容易に多変量にまで拡張することができる。すなわち,複数の検査成績に加えて,年齢,性別などの名義尺度を説明変数とした多変量ロジスティク回帰を仮定することができる。次式が多変量(多重)ロジスティック回帰の一般式である。ネイピア定数の指数部分が重回帰式のフォームとなる。
(4) |
また,左辺を対数オッズとすると,
(5) |
と書ける。
3. 回帰係数とオッズ比(OR)の関係式(5)の対数を外すと,
(6) |
左辺はオッズである。結論から述べると,式(6)において,任意の説明変数xk の値がAからA + δに変化したときのORは次式で与えられる。
(7) |
akは変数xkの回帰係数である。xkが2値型変数であれば,その変化量δは常に1であるので,たとえば,「陰性;0」から「陽性;1」に変化したときのORは,
また,「陽性;1」から「陰性;0」に変化したときのORは,
として計算される。
以上の数理を詳しく解説すると,まず,xk = Aのときのオッズ;
(8) |
次に,xkがAからA + δに変化したときのオッズは,
(9) |
したがってORは次式により計算される。
(10) |
一見して式(10)は複雑に見えるが,次の指数法則を使うと,分母・分子でak以外の項がキャンセルされて,
(11) |
と,簡単な式となる。また,変数xkに加えてxlも値BからB + δ'に変化した場合のORは,xlの回帰係数をalとすると,
により算出される。
4. オッズ比の95%信頼区間ORの標準誤差をORSE,説明変数xkの回帰係数をakとしたとき,ORの95%信頼区間(95% CI)は次式で定義される。
95% CIに1が含まれなければ,そのORに意味があると判断できる。また,回帰係数が有意であれば,95% CIに1は含まれない。ここでOR = 1の意味を判別特性の結果から考えると,Figure 5Aに示すように,判別群と非判別群における観測値の分布が完全に重なっている,つまり全く分離できていないことを意味する。また,ロジスティック回帰式で考えると(Figure 5B),OR = 1ということはその説明変数に係る回帰係数 = 0であるということなので,説明変数がいかなる値をとってもその項は0となり,結局,その説明変数はイベントが起こる確率pを全く説明していないことになる。
重回帰分析と同様にAICが適合度指標の一つとなる。ただし,回帰係数の推定に最尤推定法を用いているため(重回帰分析では最小二乗法)AICの式が異なる。nをデータ数,kを変量数,Ljを尤度とすると次式で定義される。AICの解釈は重回帰と同様である。
観察研究において,例えばある疾患に対する治療法AとBの有効性を比較する場合,治療法はランダムに割り当てられていないために,患者属性や背景が両群で均一ではない。したがって,単純に比較すると,性別や年齢,生活習慣が交絡することにより見かけの有意差や逆に有意差が隠されてしまう危険性がある。そこで,少なくとも年齢と性別,あるいは疾患の発症に関係のある生活習慣の有無などを目視的にマッチさせて検討する研究方法(matched-pair cohort study)が用いられていたが,近年,ロジスティック回帰分析を利用した傾向スコア分析が広く用いられている。
傾向スコア分析とは,交絡の原因になると予想される変数を説明変数とし,目的変数として上述の例では治療法A,Bを0/1でコードしたロジスティック回帰モデルを仮定し,算出される確率pが近似したペアをA群とB群から選択して(傾向スコアマッチング),治癒率や入院日数などのアウトカムを比較する分析法である。算出される確率pを傾向スコアという。
Table 5は複数施設で実施された禁煙プログラムAとBによる禁煙トライアル結果の一部である(ダミーデータ)。単純に両プログラムでの参加者背景因子と,アウトカムとしてのトライアル途中棄権率や禁煙成功率を比較すると,Table 6Aに示すように背景因子である「年齢」「1日喫煙本数」で有意差が認められる。アウトカムとして,プログラムBで有意に途中棄権率が低く,禁煙成功率が高いという結果が得られているが,これは年齢や1日喫煙本数が影響(交絡)している可能性がある。そこで,傾向スコア分析では,禁煙プログラムを目的変数(ここではプログラムAを1とコードした)とした以下のロジスティック回帰モデルを仮定する。
年齢 | 性別 女性 = 1 |
本数/日 | 喫煙期間 (年) |
判定成功 = 1 | プログラム A = 1 |
途中離脱 = 1 |
---|---|---|---|---|---|---|
24 | 0 | 20 | 4 | 1 | 0 | 0 |
29 | 0 | 16 | 5 | 1 | 0 | 1 |
53 | 0 | 10 | 30 | 0 | 0 | 0 |
52 | 0 | 25 | 25 | 1 | 0 | 1 |
37 | 0 | 30 | 10 | 1 | 0 | 1 |
46 | 0 | 15 | 26 | 0 | 0 | 0 |
31 | 1 | 50 | 10 | 0 | 1 | 0 |
50 | 1 | 45 | 30 | 0 | 0 | 0 |
37 | 1 | 30 | 10 | 1 | 0 | 1 |
51 | 1 | 20 | 30 | 0 | 0 | 1 |
57 | 1 | 35 | 37 | 0 | 1 | 0 |
64 | 0 | 20 | 40 | 1 | 0 | 1 |
56 | 0 | 30 | 30 | 0 | 0 | 0 |
61 | 0 | 20 | 40 | 0 | 1 | 0 |
39 | 0 | 20 | 15 | 0 | 0 | 1 |
45 | 1 | 25 | 20 | 1 | 0 | 1 |
33 | 0 | 30 | 10 | 0 | 0 | 0 |
43 | 1 | 40 | 20 | 0 | 1 | 0 |
54 | 0 | 30 | 30 | 0 | 1 | 0 |
34 | 0 | 13 | 10 | 1 | 0 | 0 |
27 | 1 | 40 | 5 | 0 | 0 | 1 |
50 | 1 | 40 | 25 | 1 | 1 | 0 |
64 | 0 | 10 | 45 | 0 | 0 | 0 |
25 | 1 | 50 | 5 | 0 | 0 | 0 |
44 | 0 | 34 | 20 | 1 | 1 | 0 |
n = 140 以下省略
A.マッチング前 | プログラムA(n = 70) | プログラムB(n = 70) | p |
平均年齢(SD) | 41.2(11.5) | 46.8(13.7) | 0.01 |
男性:女性(人) | 40 : 30 | 34 : 36 | 0.309 |
平均1日本数(SD) | 28.0(11.8) | 22.1(9.6) | 0.0015 |
平均喫煙年数(SD) | 19.0(11.2) | 21.9(11.3) | 0.143 |
途中棄権率 | 12/70 | 7/70 | 0.034 |
禁煙成功率 | 41/70 | 60/70 | 0.0003 |
B.マッチング後 | プログラムA(n = 47) | プログラムB(n = 47) | p |
平均年齢(SD) | 43.1(11.4) | 43.2(13.1) | 0.98 |
男性:女性(人) | 27 : 20 | 27 : 20 | N.S. |
平均1日本数(SD) | 24.4(9.3) | 24.1(9.3) | 0.869 |
平均喫煙年数(SD) | 21.7(11.1) | 20.5(11.4) | 0.622 |
途中棄権率 | 4/47 | 8/47 | 0.778 |
禁煙成功率 | 42/47 | 31/47 | 0.0065 |
そして,算出される確率pを傾向スコアとして,両群から傾向スコアの近似するサンプルデータのペアをピックアップする。これを最近傍マッチングといい7),参加者背景が均質化された2群を再生することができる。
最近傍マッチングでは,ペアデータとして2つのデータの傾向スコアの差の絶対値が,2群の全傾向スコアの標準偏差 × 係数の範囲内にあるものが選ばれる。係数は0.2に設定されることが多い。この選択範囲のことをキャリパーという8)。キャリパーの条件に適合するデータを順次抽出し,抽出できるペアがなくなった時点をマッチング終了とする。したがって,マッチング後のサンプル数はマッチング前よりも減少するが2群のサンプル数は等しくなる。
Table 6Bにキャリパーを0.036と設定しマッチングした2群の結果を示す。プログラムAとBで参加者背景に有意な差はなく,途中棄権率にも有意差は認められない。また,マッチング前は,プログラムBの禁煙成功率が有意に高かったが,マッチング後はプログラムAの方が有効であると判断できる。
マッチング後のアウトカムの比較は,度数(比率)であればχ2検定,正規性が担保された連続変数であれば2標本t検定(Student’s t test)で検定する。ここで,傾向スコアの近似したデータをペアとして抽出していることから,関連したデータとして見なし,McNamara検定,1標本t検定(paired t test)で検定すべきとの意見があるが,現時点では見解は一致していない9)。以下は私見であるが,傾向スコアを求めるためのロジスティック回帰モデルに投入する変数により,同じサンプル集団でもペアとして選択されるサンプルは変化する。したがってデータの関連性を考慮する必要はないと考えている。ちなみに,Table 6の連続変数の検定は2標本t検定による結果であるが,1標本t検定でも同じ結果が得られた。
傾向スコアを用いたROC解析で得られる曲線下面積(AUC)をc統計量という。c統計量が0.6未満の場合,傾向スコア分析の結果はマッチング前の全データで通常の多変量回帰分析を行った結果とほとんど変わらないことが多い。逆に,c統計量が0.9と高い場合は,マッチングできるデータのペアが極端に少なくなってしまうために,統計的な差の検出力が著しく低下することに注意する必要がある。すなわちc統計量より,傾向スコア分析の適応が妥当であるかを判断する必要がある。傾向スコアによる群間でのアウトカムの比較には,傾向スコアマッチングの他に,傾向スコアの逆確率による重み付け,傾向スコアによる調整などの方法がある6)。
7. 実例慢性腎臓病(CKD)の診断基準のひとつとして推算GFR(eGFR)が用いられている。eGFRは血清クレアチニン濃度(Cre)と性別,年齢をパラメータとして次式より算出される。
(女性はさらに0.739を乗じる)
CKDに対してのeGFRの診断基準は60 mL/min未満であるが,これを尿試験紙成績から推定することが可能であるかをロジスティク回帰で検証した10)。すなわち,目的変数としてeGFR < 60を1,eGFR ≥ 60を0としたロジスティク回帰よりeGFR < 60である確率PGFRを推定することを試みた。その結果,比重,pH,およびクレアチニン補正蛋白(P/C)が有意な説明変数であり,次の確率推定式が得られた。
感度・特異度曲線よりカットオフ値を0.4とし,回帰式を決定したデータ(教師データ)とは別の患者データでPGFRを算出し判別能を検証したところ,感度 = 0.800,特異度 = 0.828,OR = 19.3であった。きわめて良好な判別能とは言い難いが,2分程度で結果の得られる尿定性試験成績からの付加的な臨床情報としては評価できると考えられる。他に尿定性結果から鏡検することなく,あらかじめ円柱の検出確率を推定することも可能である。
多重共線性;multicollinearityを略して「マルチコ」ともよばれる。これは,多変量回帰分析で説明変数間に強い相関性がある,すなわち,説明変数間に1次式に近似した関係がある場合,回帰係数の標準誤差が大きくなるために,その解が定まらない,あるいは推定精度が低下する問題をいう。また,1つの,あるいは複数の説明変数で目的変数が完全に説明されてしまう場合も多重共線性が発生する。共線性とは変量間の線形な1次式の関係を意味し,目的変数と説明変数の共線性に加えて,説明変数間にも相関性があることから多重共線性とよばれる。
同一の目的変数に対して説明変数を追加・削除したとき,回帰係数が大きく変化することがある。これも含めて“マルチコ”と解説されていることがあるが,全てが多重共線性によるものではない。多変量回帰モデルでは,説明変数が追加・削除されるたびに,回帰係数が再配分されるために,特にサンプルサイズが小さい場合,目的変数と高い相関性をもつ説明変数が追加・削除されると,既存の説明変数の回帰係数が大きく変化することがある。しかし,これはマルチコではない。多重共線性を回避する対策については後述する。
2. 交絡と交互作用交絡とは,2変量間の関係が第3の要因により歪められることにより,見かけの関連性が生じる,あるいは本来の関係が隠されてしまう現象をいう。
例として,健常人における血清IgG濃度と,性別,飲酒習慣,喫煙習慣との関係を調べると,Table 7のmodel Aに示すように,IgGと性別(女性 = 1,男性 = 0)の単回帰モデルでは両者間に有意な関係が認められる。回帰係数よりIgGは,女性の方が男性よりも平均114 mg/dL高値であると解釈することができる。この単回帰モデルに飲酒習慣を説明変数として投入すると(重回帰モデル),性別に加えて飲酒習慣も高度に有意な変数となっている(model B)。この場合,飲酒習慣の偏回帰係数は負の値であるので,飲酒習慣によりIgGは低下すると考えることができる。しかしこのモデルに喫煙習慣を加えると,性別,飲酒習慣は有意な変数ではなく,喫煙習慣のみがマイナス方向に有意な変数となっている(model C)。つまり,喫煙習慣によりIgGが低下するという結果が得られたことになる。
model A
変数 | 変回帰係数 | 標準誤差 | 有意確率P |
---|---|---|---|
(初期値)1212 | |||
性別 | 114.3 | 20.9 | < 0.0001 |
model B
変数 | 変回帰係数 | 標準誤差 | 有意確率P |
---|---|---|---|
(初期値)1262 | |||
性別 | 87.9 | 23.5 | < 0.0001 |
飲酒習慣 | −58.9 | 24.3 | 0.0157 |
model C
変数 | 変回帰係数 | 標準誤差 | 有意確率P |
---|---|---|---|
(初期値)1311 | |||
性別 | 46.1 | 25.2 | 0.0674 |
飲酒習慣 | −45.5 | 24.1 | 0.0591 |
喫煙習慣 | −96.3 | 23.2 | < 0.0001 |
以上の結果は喫煙習慣が交絡因子としてふるまっていたために生じたと考えることができる(Figure 6)。医学的に喫煙は血中CO濃度を上昇させることにより液性免疫を低下させることが知られている。つまり,喫煙習慣はIgGに対して負の影響を有している。Table 7のmodel Aでは,喫煙習慣は男性よりも女性で低いことから,性別が女性のとき,これが喫煙習慣 = 低という変数のようにふるまうことにより有意な正の回帰係数が現れたと考えることができる。一方,喫煙習慣がある人は飲酒習慣もある傾向が強いと予想できる。この場合,喫煙習慣はIgGに対しては負の,飲酒習慣に対しては正の影響を示すことになり,model Bでは疑似的に飲酒習慣とIgGの間に負の関係が現れたと考えられる。しかし,交絡因子である喫煙習慣がモデルに投入され交絡が制御されることにより,喫煙習慣のIgGに対する本来の有意な関係が現れたと考察できる。
交絡に対して交互作用とは,ある背景因子のレベル(水準)ごとに注目する2変量間の関係が異なる現象をいう。例として,Figure 7Aでは年齢と検査値Aの間にはゆるやかな正の相関性が認められるが,これを男女別に評価すると(Figure 7B),男性よりも女性の方が加齢に対しての検査値の上昇率が高い傾向にあることがわかる。このように第3の要因のレベルによってXに対するYの変化が異なる現象を交互作用という。
重回帰分析では,交互作用が疑われる要因と説明変数の積をモデルに追加することにより,交互作用の有無を確認することができる。例えば性別が交互作用の原因と予想される場合,
のように「x × 性別」とした変数を作ってモデルに投入し,その回帰係数a3が有意であれば性別による交互作用があると判断できる。
3. 変数選択上の注意点 1) 変数の分布型とデータ数重回帰分析における偏回帰係数の数理は最終的には最小二乗法を利用しているため,目的変数も含めた変量の正規性が結果に大きく影響する。したがって,まず解析データの分布を確認してから,必要に応じて対数変換等により正規化する必要がある。また,飛び離れ点の有無を確認することも重要である。一方,ロジスティック回帰分析においても説明変数の正規性が望まれるが,回帰係数の推定には最尤推定法が用いられているため,重回帰分析ほどは分布型の影響を受けない。
データ数は1説明変数あたり30データ以上が理想的である。1変数あたりのデータ数が10程度であると,結果の再現性が悪くなることが多い。また,変数の正規性を確認するためには,少なくとも30程度のデータが必要である。具体的には,重回帰分析では(説明変数の数)× 15を,ロジスティック回帰分析では(説明変数の数)× 10を0/1でコードした目的変数のうち,少ない方のサンプル数の目安とすることができる。
基本的に推定のための多変量回帰分析では,できるだけ少ない説明変数でモデルを構築した方が再現性の良い結果が得られる。しかし,バイオサイエンスの分野では,特に性別,年齢が交絡因子となることが多いため,これらの変数はたとえ有意でなくとも,交絡を制御する意味で回帰モデルに入れておく必要がある。
2) 多重共線性の回避マルチコは重回帰分析だけでなく,ロジスティック回帰分析においても発生する。経験的にマルチコ発生の原因として一番多いのは,説明変数間の強い相関性(r > 0.9)である。したがって解析前にデータの分布を確認するとともに,説明変数間の相関行列を求め,相関性の強い変数同士をモデルから入れ替えるなどしてモデルを構築していく必要がある。
マルチコ診断の定量的な指標となるのが分散拡大要因(variance inflation factor; VIF)である11)。VIFは説明変数の相関行列の対角成分から算出され,この値が10以上であるとマルチコによる偏回帰係数の推定精度が低下する可能性が高いと判断できる。一方,VIFの逆数を許容度(トレランス)といい,この値が0.1以下であれば同様にマルチコの発生を把握することが可能となる。
本論文に関連し,開示すべきCOI 状態にある企業等はありません。