2025 Volume 74 Issue J-STAGE-1 Pages 37-44
目的変数;yと説明変数;xの平面上での直線関係を表す回帰直線を決定する方法として,xを基準とした最小二乗法が汎用されている。最小二乗法は回帰残差が最小となるように直線が決められるため,xからyを予測するためのもっとも適切な回帰式を与える。しかし,この最小二乗法からは,y軸方向の誤差だけを考慮した回帰式が得られるため,測定誤差を無視できない測定方法間比較に用いることは適切ではない。このような場合は2変量の誤差を仮定した標準主軸回帰,あるいはDeming回帰を用いる必要がある。特に前者は2変量の測定誤差が平等に反映された回帰式を与える。一方,ノンパラメトリック法に属するPassing-Bablok回帰は測定値の分布に依存しないため,飛び離れ値を有するデータセットに対しても適用できる。しかしその原理上,負の相関関係にある変量には適用できない。相関係数は2変量間の直線関係の程度を表す統計量で,一般的にピアソンの相関係数が用いられる。しかし,この方法はパラメトリックな方法であり,データの分布に歪みがある場合,また,極端な飛び離れ値が含まれると,見かけ上相関係数が大きく見積もられることがある。このような場合はノンパラメトリックな方法であるスピアマンの順位相関係数用いる。ただし,xの変化に対してyが増加と減少を示す場合は良好な相関指標とはならない。
目的(従属)変数;yと説明(独立)変数;xとの平面上での直線関係を示す一次式;y = ax + bを(単)回帰式という。ここで,xの係数aは直線の傾きを,bは初期値(y切片)を表す。Model I回帰に分類される最小二乗法は,説明変数から目的変数の予測値を求める場合に利用される回帰法であり,もっとも汎用されている1)。特にことわりなく回帰式が提示されている場合は最小二乗法によるものと考えてよい。
Figure 1のような散布図が得られたとき,xとyの直線関係を表す直線は無数に引くことができる。そこで,xとyの平均(重心)を通過し,各プロットから回帰直線へのy軸方向の距離dの二乗和S(回帰からの偏差平方和)が最小となる直線の傾きを決定する方法が最小二乗法である2)。Sxxをxの偏差平方和,Sxyをxの偏差とyの偏差の積の総和(積和)とすると,最小二乗法による直線の傾きaと切片bは次式から求められる。
回帰直線の傾きは,重心を通過し,各プロットと直線までのy軸方向の距離の二乗和が最小となるように決定される。
傾き
切片b = yの平均 − a × xの平均
切片を求める式は,回帰直線が重心を通過することを示している。Figure 1に示した例での回帰式は,y = 1.25x + 0.5 となる。つまり,xが1単位 増加/減少すると,yは1.25増加/減少することを示している。
傾きaの有意性は,aの標準誤差をsa,sを回帰からの標準偏差,Syyをyの偏差平方和,nをデータ数とすると,
s
sa
これを用いてaを標準化した統計量をtとすると,
t =
tは自由度n − 2のt分布にしたがうので,t分布表より有意水準5%のt0.05値よりもt値が大きければ有意な(意味のある)傾きと検定できる。Figure 1の傾き1.25から計算されるt値は3.323で,自由度3のt0.05 = 3.182 < tより有意な傾きであると判断できる。
各プロットから回帰直線へのy軸方向の距離dはy軸に配置した変数の回帰からの誤差を意味している。したがって最小二乗法ではxからyを推定する場合に予測の誤差(回帰誤差)が最小となる性質があるために,予測目的で回帰直線を決定する場合の第1選択となる3)。ただし,この場合の最小二乗法ではx軸に配置した変数を基準としているため,その回帰誤差は考慮されていないことに注意する必要がある。つまり,極めて厳密に設計され,測定誤差を無視できると考えられる標準的測定法を基準として日常(常用)検査法との回帰式を最小二乗法で求める場合には大きな問題はないが,誤差を無視できない日常検査法同士の関係を最小二乗法で評価することは適切ではない。両変量の誤差を考慮する必要がある場合は,次に述べる標準主軸回帰を選択する必要がある。
2. 標準主軸回帰標準主軸回帰はModel II回帰に属し,xを基準とした最小二乗法から得られる直線の傾きa1と,yを基準として求められる傾きa2の幾何平均,
a1とa2の幾何平均=
を回帰直線の傾きとする方法である4)。幾何平均回帰ともよばれる(Figure 2),この方法は,各プロットと回帰直線までのx方向とy方向の距離の積和が最小となる性質を持ち,回帰直線は等確率楕円の長軸に一致する。したがって,xとyの誤差が平均化されることにより両変数の回帰誤差が回帰式に平等に反映される。また,xとyの計測尺度(単位)に対して頑強であることから測定法の比較目的において妥当な直線を与える。
Figure 3は相関性の低いxとyのデータセットA(r = 0.525)と,相関性の高いデータセットB(r = 0.995)での最小二乗法(①実線)と標準主軸回帰(②破線)での回帰式を比較したものである。Aでは両法での回帰式の傾きが大きく異なるのに対して,相関性の高いBでは切片を含めた回帰係数に大きな差は認められない。いずれの回帰直線もxとyの重心を通過するため,切片は直線の傾きに依存する。理論的に相関係数が0.95以上では両法の傾きはほぼ近似する。したがって,相関性が高い場合はいずれの回帰式を用いても大差はないが,誤差を無視できない測定法間の評価には標準主軸回帰を用いるべきである。
〈補足〉2変量の誤差を考慮した回帰分析法として,標準主軸回帰の他に,①主成分回帰4),②Deming回帰があり4),5),これらを総称して線形関係式という,①は各プロットから回帰直線に下した垂線の長さの二乗和が最小となるように傾きを決定する方法で,相関性のある複数の変数を,積分的により少ない数の変数に要約する主成分分析で利用されている。ただし,この方法は変数の計測尺度,単位に影響されるため,測定法間比較に用いられることはない。②は,xとyの測定誤差をあらかじめ求めたうえで,両者の比(誤差分散比λ)で直線の傾きを補正する。xとyの誤差をもっとも忠実に反映した回帰直線を与える方法であるが,λの測定が煩雑であり,標準主軸回帰の方が実用的である。ちなみに,λをyの偏差平方和とxの偏差平方和の比としたとき,Deming回帰は標準主軸回帰に近似する。
3. パッシング・バブロック回帰上述した最小二乗法による回帰と線形関係式がパラメトリック法であるのに対して,Passing-Bablok回帰(以下,PB法)はノンパラメトリック法に属する直線回帰法である6),7)。その原理はFigure 4に示すように,すべての(x, y)について全2点を結ぶ直線の傾きを求める。データセットがn組あるならば,その組み合わせ nC2 = n(n − 1)/2通りの傾きを求める。Figure 4の例では5 × (5 − 1)/2 = 10個の傾きが求められる。そして,それらを昇順に並べ,その中央値を回帰式の傾きとする方法である。ここで,①完全に一致する2点は除外する,②y軸に対して平行となる直線の傾きは+∞あるいは−∞とする,③x軸と平行な直線の傾きは0とする,④傾きが−1以下となるデータセットは除外する,などのルールが設定されている。y切片は全点についてyi − a × xiよりそれぞれの切片を求め,その中央値を回帰式のy切片とする。
全2点を結ぶ直線の傾きの中央値を回帰直線の傾きとする。
PB法は分布型,飛び離れ値の影響を受けにくく,xとyの単位が異なるなど,質の異なる変量であっても適用することができる。特に,極端値に遭遇したとき,それを棄却することなく仮の回帰式を推定したい場合に有用である。また,その結果は基本的には標準主軸回帰の結果に近似する。しかし,xとyが負の相関関係にある場合には適用不可となり,また,相関係数が0に近い場合,あるいはデータ数が少ない場合(およそ30以下)には適切な解が得られないことに注意する必要がある。
〈補足〉Clinical & Laboratory Standard Institute(CLSI)ガイドラインでは,測定誤差を考慮した回帰分析にはDeming回帰を,また極端値がある場合はPassing-Bablok回帰を推奨している。しかし,Deming回帰における誤差分散比の計算方法には様々な問題があることや,PB法でも前述した問題点があることから,特に測定誤差を考慮した回帰分析では,その実用性からも標準主軸回帰が適切であると考えられる。
相関係数rとは2変量の直線性の程度を表す統計量であり,−1 ≤ r ≤1の範囲の値をとる。Table 1に相関係数算出のプロセスを示す8)。
A:観測データ | B:中心化データ | C:標準化データ | ||||||
---|---|---|---|---|---|---|---|---|
x | y | x | y | x × y | x | y | x × y | |
2 | 5 | −4 | −3 | 12 | −1.27 | −0.58 | 0.74 | |
4 | 3 | −2 | −5 | 10 | −0.63 | −0.97 | 0.61 | |
6 | 10 | 0 | 2 | 0 | 0 | 0.39 | 0 | |
8 | 6 | 2 | −2 | −4 | 0.63 | −0.39 | −0.25 | |
10 | 16 | 4 | 8 | 32 | 1.27 | 1.55 | 1.97 | |
平均 | 6 | 8 | 0 | 0 | 積和 | 0 | 0 | 積和 |
SD | 3.16 | 5.15 | 3.16 | 5.15 | 50 | 1.00 | 1.00 | 3.07 |
共分散=50/(5 − 1) 12.5 |
相関係数=3.07/(5 − 1) 0.768 |
中心化データは観測データからそれぞれの平均を引いた値であり偏差と同義語である。中心化データは平均で標準化しているので,その平均は0となる。一方,標準偏差SDは観測データのSDと同値である。xとyの中心化データの積和の平均が共分散に相当する。
共分散=
ただし,自由度の関係から上式の分母はこの例では5 − 1 = 4である。
次に中心化データをxとyのそれぞれのSDで除した値が標準化データとなる。観測データから平均を差し引いてSDで除しているので,これはz変換していることになり,平均=0,SD = 1の分布に変換されている。そしてxとyの標準化データの積和の平均が相関係数であり,
相関係数=
上式は次式に変換できる。
相関係数=
また,観測データがあらかじめ標準化されていれば,xとyのSDは1に変換されるので「相関係数=共分散」の関係が成立する。これらのデータの散布図を確認すると,座標軸は異なるがデータプロット同士の位置関係に変化がないことが確認できる(Figure 5)。
ここで,xとyの標準化データ同士の積とその積和の平均の意味について考えると,一組のxとyの標準化データの積は,そのプロットと原点を対角とする四角形の面積に相当する8)。Figure 6AはFigure 5での標準化データをプロットしたものであるが,第1象限および第3象限に位置するプロットの積は(+)の値(面積)となる。一方,第4象限にあるプロットの計算上の面積は(−)の値となる。相関係数はこれら5つの面積の平均として定義されるため,第1,あるいは第3象限に大きな面積の四角形が多いほど,つまり右上がりの傾向が強いほど正の相関性が強いことを意味している。これに対して,Figure 6Bのように,第2,あるいは第4象限にプロットが多く位置する場合は,計算上(−)の面積を示す四角形が多いことになり,その平均を求めることにより負の相関係数が得られる。一方,Figure 6Cのように各象限にプロットが点在している場合,その面積の平均を求める過程で(+)と(−)の符号を持つ面積が互いにキャンセルしあうために,結果として相関係数は小さく計算されることになる。
相関係数rの有意性は,rを標準化してt統計量として検定できるが,r表から判断する方が簡便である。有意水準0.05でのr値をr0.05とすると,得られたrの絶対値がr0.05未満であれば有意に0から偏っている,すなわち有意な相関係数であると判断できる。ただし,相関係数の有意性はデータ数に強く依存するため,データ数が50以上であれば,5%水準でr > 0.28で有意と判定される。r = 0.28程度の相関性では,ぼんやりと直線性が見える程度であり,たとえ数学的に有意な相関係数であっても,実質的に意味のある相関性であるかを考察する必要がある。
2. スピアマンの順位相関係数Figure 7Aのように極端な飛び離れ点(outlier; O)があると,Oの標準化データから作られる大きな面積(この場合は正の符号をもつ面積)の四角形に引っ張られるため(Figure 6),見かけ上,相関係数が大きく算出される(r = 0.905)。実際,Oを除外して相関係数を再計算するとr = 0.345に低下し有意な直線関係は認められない。しかし,極端値を棄却する正当な理由がない場合や,これを含めた直線性を評価する場合もある。このような際に有効な指標となるのがスピアマンの順位相関係数rSである。
rSは昇順に並び替えた観測データに番号を割り当て,この番号をデータとして算出される相関係数である(Figure 7B)。つまりrSはノンパラメトリック法である。順位に変換することにより,極端値が多数存在しても,隣り合うデータ間の距離は1単位となるためにその影響は制御され,同時に元データが歪んだ分布であっても適切な相関係数を求めることが可能となる。また,Figure 8のように,xとyが単調な曲線を描く場合も,通常の相関係数で評価することは適切ではない。単調な減少曲線も含めて,順位相関係数で評価する必要がある。ただし,xの変化に対して,yが増加と減少を示す場合,すなわち,単調な曲線でない場合は,順位相関係数も良好な相関指標にはならない。
〈補足〉相関係数が−1~+1の範囲の値のみをとることの証明8),9)
次式は任意の正の整数nに対して成立するコーシー・シュワルツの不等式とよばれるもので,数学の様々な分野で用いられる。
これは,n個のx1からxnのそれぞれの二乗値の総和と,n個のy1からynのそれぞれの二乗値の総和の積(左辺)は,n個のxiとyiの積の総和の二乗(右辺)以上になることを示している。そこで,n個のxとyの平均を
上式の左辺はxとyの分散の積,右辺はxとyの共分散;COV(x,y)の二乗であるので,分散を標準偏差の二乗に置き換えて両辺を
1
右辺はxとyの相関係数;rxyの二乗であるので,
が導かれる。
本論文に関連し,開示すべきCOI 状態にある企業等はありません。