保全生態学研究
Online ISSN : 2424-1431
Print ISSN : 1342-4327
まだ生態学に本格導入されていない統計的因果推論手法の紹介:傾向スコア、回帰不連続デザイン、操作変数法
林 岳彦
著者情報
ジャーナル オープンアクセス HTML 早期公開

論文ID: 2305

詳細
Abstract

要 約:近年、疫学や社会科学では一般的な研究手法の一つとして、統計的因果推論の手法が広まってきている。それらの手法の中には重回帰分析や一般化線形モデルなどを利用した比較的に生態学者が従来用いてきた手法との親和性が高いものもある。しかしその一方で、まだ生態学には本格的には導入されていない手法もある。本稿ではそうした手法のうち、疫学や社会科学系の統計的因果推論では広く使用されている、傾向スコア法、回帰不連続デザイン、操作変数法の解説を行った。傾向スコア法は、複数の背景要因から「処置が割り付けられる傾向性」を表す一つの合成変数(傾向スコア)を構成し、複数の背景要因をそのスコアでまとめて調整することによりバイアスなく因果効果を推定する方法である。保全生態学では、二値的な保全措置の因果効果を推定したい状況など、傾向スコアの使用に適した局面は比較的に多いと思われる。適用できる条件は必ずしも広いものではないが、もし目的と状況がハマる場合には、傾向スコア法は背景要因を一挙に揃えることができる強力な統計的因果推論手法である。一方、回帰不連続デザインは、処置の切り替わりの境界での回帰直線の非連続的な変化を推定することにより、因果効果の推定を行う方法である。また、操作変数法とは、システムの外部から変化をもたらす変数(操作変数)を用いて因果効果を推定する方法である。回帰不連続デザインや操作変数法については、実際に生態学で適用できる状況は比較的稀かもしれない。しかし、こうした考え方は、調査デザインの設定や統計解析方針を検討する際のアイデアの幅を広げるものであり、また実際に適用できた場合には生態学における先駆的な事例として位置づけることができるだろう。

Translated Abstract

Abstract: Statistical causal inference methods have become widespread in epidemiology and the social sciences. Some, such as multiple regression analysis and generalised linear models, complement the methods traditionally used in ecology and have gained popularity in that field. Others remain largely unfamiliar to ecologists. Among these, this paper describes the propensity score method, disjunctive regression design, and the instrumental variable method, all widely used in epidemiology and the social sciences. The propensity score method estimates causal effects without bias by constructing a single synthetic variable that expresses the probability, or “propensity”, of a unit of interest being assigned to a given treatment based on multiple background factors. In conservation ecology, there are various situations where propensity scores may be appropriate, such as when estimating the causal effects of a binary conservation intervention. Where the objectives and circumstances fit, the propensity score method can be a powerful way to adjust for background factors in a single step. The regression discontinuity design, by contrast, estimates causal effects by estimating discontinuous changes in the regression line at the boundaries of the treatment change. Similarly, the instrumental variable method estimates causal effects using so-called instrumental variables that bring about changes from outside the system. There may be relatively few situations in ecology where the latter two methods can be effectively applied. However, awareness of these methods increases the range of options available when developing survey designs and statistical strategies. If and when one of these methods is applied, it will serve as a pioneering example in ecology.

はじめに

近年、疫学や社会科学では一般的な研究手法の一つとして、統計的因果推論の手法が広まってきている。それらの手法の中には重回帰分析や一般化線形モデルなどを利用した比較的に生態学者が従来用いてきた手法との親和性が高いものもある(竹下ほか 2022)。その一方で、それらの従来手法の延長線上にあるともいえるものの、まだ生態学には本格的には導入されていない手法もある。本稿ではそうした手法のうち、疫学や社会科学系の統計的因果推論では広く使用されている、傾向スコア法、回帰不連続デザイン、操作変数法の紹介を行う。また併せて、これらの手法を生態学に適用することの可能性や意義を議論する。尚、本稿の目的は上記の手法の考え方を生態学者に向けて手短に紹介することであり、各理論の内容や実装に関するより詳細な解説は割愛した。詳細な解説については既に高橋(2022)などの良書があり、本稿がそれらへの良い橋渡しとなれば幸いである。尚、統計的因果推論一般の解説や因果推論を目的とした回帰モデルの使用法については本稿での解説範囲を超えるため、既往の解説を参照いただきたい(大久保2019;高橋2022;竹下ほか2022;安井2020)。

傾向スコア法の解説

そもそもなぜ傾向スコア法が必要なのか

  1.    因果効果の推定のためには比較する群間の背景要因を揃える必要がある

傾向スコア法は、ある処置の「因果効果」を推定するために、比較対象となる集団間での背景要因を補正するための方法である。解説の準備としてまず最初に、「因果効果」を定義しておきたい。本稿では、「処置X→結果Yの因果効果」を、「Xへの介入によりXを一単位量分変化させたときの、Yの変化量」として定義する。また本稿では、処置Xが「あり/なし」の二値変数の場合には、処置なしをX =0、処置ありをX =1とあらわす。たとえば、獣害の被害数を結果Yとし、ある獣害防止策(たとえば「柵の設置」)を処置Xとすると、「柵の設置を実施したとき(X =0からX =1に変化させたとき)に引き起こされた、獣害の被害数Yの変化量」が「処置X→結果Yの因果効果」となる。

傾向スコア法自体の説明の前に、そもそもなぜ因果推論の際に傾向スコア法が有用となるかの説明をしたい。例として、図1aのようなデータを考える。この図は、「獣害防止処置の有無」と「獣害の被害数」の関係をまとめたものである。ここでは、獣害防止処置が「あり」の方が、「獣害の被害数」が多くなっており、一見、獣害防止施策により却って被害が増えているようにも見える。

しかし、実はこのデータは、図2のような因果構造から生じたデータであるとする。こうした場合には、各群に含まれる作物の違いが原因となり、図1aのような偽相関のパターンが生み出されうる。このとき、同じ作物ごとに条件を揃えてみると、やはり獣害防止処置は獣害の被害を減らしていることが分かる(図1b)。この例のように、因果関係(獣害防止処置の導入が獣害の被害を減らす)と、相関関係(獣害防止処置が「あり」の方が獣害の被害が多い)がズレる原因は、比較したいグループの間で、背景要因が揃っていないことにある。こうした背景要因の違いにより因果効果の推定にバイアスが生じることを「交絡」と呼ぶ。図1の例でみると、比較したいのは「施策あり」と「施策なし」のグループ間での違いであるが、これらのデータの背景要因としての「作物(の割合)」が揃っていない。このデータではもともと作物Aの方が作物Bよりも被害数が大きい傾向があり、「施策あり」のグループの方が作物Aがより多く含まれているため被害数が(施策の有無と関係なく)多くなっている。こうしたそもそものベースラインに違いがある状態で群間の比較を単純に行うと、図1aのように偽相関によるバイアスを拾ってしまう。このことを逆から言うと、観察データにおいて処置群間の結果の差の比較からバイアスなく因果効果を推定するための条件は、それらの処置群間で「背景要因が揃っている(=比較のベースラインが揃っている)」こととなる。

  1. 2.   層別化による解決と限界

背景要因を揃えるための手法の一つとして、層別化が良く知られている。ここで「層」というのは、着目する要因が同様であると見なせるグループのことを指し(実験計画法に詳しい方は実験計画法における「ブロック」の概念とほぼ同様のものとして捉えていただいても構わない)、「層別化」は着目する要因が同様であると見なせるグループ別にデータを分割することを指す。図2の例で考えると、「作物」の違いごとにデータを層別化し、背景要因が揃った状態の各層内での処置群間の差から因果効果を推定する方法となる(図3)。こうした層別化により背景を揃えることによりバイアスを除去して因果効果を推定する方法は、一般的なものであるが、常にこうした方法が使えるわけではない。たとえば、二値(0/1)の背景要因がもし6個ある場合を考えてみよう。この場合、背景要因の組み合わせは26=64通りとなり、全ての背景要因が揃った状態を網羅するには、データを64層に層別化する必要がでてくる。同様に、10個ある場合には210=1024層に層別化する必要があり、m個ある場合には、2m層に層別化する必要がある。層別化による因果効果の推定では全ての層にサンプルが存在することが必要とされるため、背景要因の数が多くなるほど層別化による解析は困難になる。こうした困難は、背景要因の数の増加につれて層の数が爆発的に増えることから、「次元の呪い」と呼ばれる。またそもそも、背景要因が連続量の場合には、そのままでは(離散化等の処理を挟まない限り)層別化することができない。尚、回帰分析の枠組みでカテゴリ変数を説明変数に加えることは「背景要因を揃える」という意味では層別化と同じ働きをもつ。回帰分析の枠組みを用いると、背景要因の増加に対しての「次元の呪い」を避けることはできるが、モデルの誤特定(misspecification)により推定にバイアスが生じるリスクが高くなることが知られている(星野2009)。

傾向スコア法の考え方と適用例

1) 傾向スコア法の考え方

傾向スコア法は、複数の背景要因から「『処置あり』が割り付けられる傾向性(確率)」を表す一つの合成変数(傾向スコア)を構成することにより、複数の背景要因をまとめて揃える方法である。ここで「処置が割り付けられる」とは、たとえば、処置が「あり(1)/なし(0)」の二値変数であるとき、「処置X =1」となることを指す。柵の設置の例で考えると、「あるサイトに柵を設置する」ことを「そのサイトに『柵あり』を割り付ける」と表現することになる。ここからは統計学的な説明のため、調整すべき背景要因は全て観察されており、それらを「共変量」として統計的に取り扱える状況を考える。傾向スコアで調整することの利点は、前節でみたような多数の共変量が存在する場合や連続量の場合であっても、次元の呪いを避けてシンプルに調整が行える点にある。傾向スコア法は、基本的に処置Xは二値であることが適用の前提となっており、本稿の説明でも処置は二値変数とする。数式で表すと、個体 i のもつ傾向スコア e i は次のように定義される:

  
e i = P ( X i = 1 | C 1 , i , . . . , C J , i )

ここで C j , i は、個体 i がもつ j 個目の共変量を表す。この e i は「個体 i の共変量の値により定まる、個体 i X = 1を割り付けられる確率」を表す値として解釈できる。たとえば、 e i =0.5ならば「個体 i X = 1 を割り付けられる確率は0.5(X = 1とX = 0は同じくらい割付けられやすい)」、 e i =0.9ならば「個体 i X = 1を割り付けられる確率は0.9(かなりX = 1を割付けられやすい)」となり、 e i =0.1ならば「個体 i X = 1を割り付けられる確率は0.1(かなりX = 1を割付けられにくい)」という意味になる。つまり、傾向スコア e i というのはある個体 i がもつ(X = 1への)"割り付けられやすさ"を縮約して表す量である。図1,2の例では「個体i」に対応するのは、柵を設置する対象単位となる「個々のサイトi」となる。ここでたとえばX = 1を割り付けられる傾向性が共変量の値により定まる」というのは、たとえば「作物Aが多いサイトの方が柵の設置が実施されやすい」や「周囲にも農地が多い方が柵の設置が実施されやすい」といったように、処置が実施されるかどうかの確率がそのサイトのもつ共変量の状態によって影響を受ける状況に相当する。

実際の観察データの解析では、個体 i の傾向スコア e i の値はデータから推定される。もっとも広く用いられている方法としては、各個体が受けた処置 X の値を、各個体の J 個の共変量の組( C 1 , . . . , C J )を用いて以下のロジスティックモデル

  
X = e x p ( β 0 + β 1 C 1 + . . . + β J C J ) / [ 1 + e x p ( β 0 + β 1 C 1 + . . . + β J C J )

で回帰し、得られた回帰式のパラメータを用いて

  
e ̂ i = e x p ( β ̂ 0 + β ̂ 1 C 1 i + . . . + β ̂ J C J i ) / [ 1 + e x p ( β ̂ 0 + β ̂ 1 C 1 i + . . . + β ̂ J C J i )

の式により、個体 i のもつ共変量セット( C 1 i , . . . , C J i )の値に基づき、各個体 i の傾向スコアの推定値 e ̂ i が算出される。この傾向スコアの値を用いて処置群間でマッチング、層別化、あるいは逆確率重み付け法による調整などにより、処置群間での背景要因のバランスを揃えることができる。その結果として、「背景要因が揃った状態での処置群間の結果 Y の差(=処置 X →結果 Y の因果効果)」の推定が可能となる。傾向スコアを用いた解析には特別なソフトは不要であり、基本的にはRだけで一連の計算が可能である。例えば、傾向スコアの推定自体はglm関数で簡単に行うことができる。また、傾向スコアを用いた解析に特化したMatchItパッケージも利用可能である。具体的な実装法の説明は長くなるため、高橋(2022)や安井(2020)などの解説書を別途参照されたい。

2) 適用事例

適用のイメージを掴むため、Trends in Ecology and Evolution誌に掲載された傾向スコアの総説(Ramsey et al. 2019)で紹介されている事例を見ていく。この事例では、ニュージーランドのある公共保護区において、移入種であるフクロギツネ(Trichosurus vulpecula)のブラウジングによる在来樹木の減少が問題視されており、毒入りベイト剤の散布による管理施策が実施されていた。この施策の因果効果を推定するための一つの方法としては、「管理施策の有無」と「保護樹木における被害度」の関係を比較することが考えられる。しかし、図1で見たとおり、背景要因の調整なしにそうした比較を行うと、管理施策の有無とは異なる背景要因の影響(交絡)により、因果効果ではなく偽相関を拾ってしまう可能性がある。そこで、このケーススタディでは、「管理施策の有無」と「保護樹木における被害度」に関連する13の共変量(気温、雨量、標高、土壌などの環境的特性や、樹木形状、フクロギツネの好む植生などの生態学的特徴などを含む)を基に、個々のサイトにおける傾向スコアを推定し、その傾向スコアを用いて管理施策の有無の群間で背景要因を揃えるための調整を行い、その上で管理施策の因果効果の推定がされている。その結果、フトモモ科のニュージーランド固有種の樹木であるMetrosideros umbellataに対しては、傾向スコアの調整なしの場合にはベイト剤の使用による有意な群間差がなかったものの、傾向スコアで調整を行った場合にはベイト剤の使用による有意な群間差が示された。実際に傾向スコアによる調整後に背景要因の群間での偏りが大幅に縮小したことも示されており、傾向スコアの調整により有意な因果効果が推定されたと言える事例である。

傾向スコアの利点を確認するために、もしこのケースに対して傾向スコアを用いずに対処しようとした場合も考えてみよう。まず、層別化による調整は、もし全てが二値変数であったとしても最低限8192(=213)層への層別化が必要となるため現実的ではない。またそもそも、共変量が連続変数の場合も多く、多くの変数について離散化を行う必要もある。一方、理論的には、重回帰分析の枠組みで13個の共変量をモデルに組み込むことにより群間の共変量の偏りを調整することも可能である。その場合には適用する重回帰モデルが妥当である(変数間の関数関係がモデル式により妥当に表現されている)ことが解析の大前提となる。一般に、多数の変数を含むモデル式の妥当性を検証するのは簡単な作業ではなく、また、モデル式が妥当でない場合には誤った推定値が算出される危険がある。その点、傾向スコア法はその推定過程においてモデルへの依存度が低い点において、よりロバストな因果効果の推定手法であると言える。傾向スコアの算出の際に使われる「処置を目的変数とした回帰モデル」には処置変数に対する予測能力は必要であるが、モデル式自体の妥当性までは要求されないという特性がある(星野 2009)。これは、傾向スコア自体は共変量の偏りの調整のみに用いられる(いわば因果効果推定のためのデータの“前処理“に相当する)ため、推定スコアの値による”前処理“工程自体に問題がなければ、傾向スコアのモデル式の内容自体は、因果効果の推定そのものには影響しないためである。

3) 考察:生態学と傾向スコア

生態学において傾向スコアは有用であるだろうか? 結論から言うと、「処置が二値であり、処置変数の因果効果の推定が主目的」である状況では、生態学でも傾向スコアを用いた推定法が最も適した手法となる場合は多いと考えられる。場合によっては、もし傾向スコア法を知っていたら論文化できたのに、知らなかったためにお蔵入りになったデータなどもあったかもしれない。そうしたことを考えると、少なくとも生態学者としての道具箱の中に傾向スコア法を一つ備えておくことは望ましいことであろう。

 一方、傾向スコア法の適用には幾つかの前提や条件が必要であり、生態学においてそうした状況が揃うことは(疫学や社会科学の分野よりも)比較的には稀かもしれない。まず、傾向スコア法では「処置が二値であり、その因果効果を推定したい」という問題設定が前提とされている。これは、生態学では一般的な問題設定ではないかもしれない。しかし、保全生態学ではこうした二値的な保全措置の効果を推定したい状況は比較的多くあるため、傾向スコアの使用に適した局面は比較的に多いと思われる。次に、傾向スコア法により調整されるのは傾向スコアの算出時にモデルに含まれている変数のみであるため、「因果効果の推定にバイアスを与える原因となる一連の共変量」の全てを調整するためには、それらの一連の共変量のデータが必要である。生態学データにおいてそうした一連の共変量データまで入手可能なケースは稀であり、傾向スコア法を適用するための実務上のハードルの一つとなる。これは別の言い方をすると、これから調査を実施する場合には、あとでの傾向スコア法の適用を見据えて、「因果効果の推定にバイアスを与える原因となる一連の共変量」のデータも併せて取っておくことが重要となることを意味している。(尚、それらの共変量を見分ける実務上の基準としては、「(1)結果変数の原因となっている共変量」、「(2)処置の原因となっている共変量」、「(3)処置と結果変数の共通の原因となっている変数が確認できない場合、その未観測変数に関する代理変数」はモデル変数に含め、「媒介変数」、「操作変数(後述)」は変数としてはモデルに含めないことが推奨されている(VanderWheel 2019;高橋 2022)。また、データの背景にある因果構造の知識がある場合には、「因果効果の推定にバイアスを与える原因となる一連の共変量のデータ」をバックドア基準と呼ばれる理論的基準により同定できることが知られている(林・黒木 2016)。)

 上記をまとめると、生態学分野で適用できる条件は必ずしも広いものではないが、もし目的と状況がハマる場合には、傾向スコア法は比較的にロバストな方法で背景要因を一挙に揃えることができる強力な統計的因果推論手法であると言える。

回帰不連続デザインの解説

1) 基本的なアイデア:境界のデータに着目する

回帰不連続デザイン自体の説明に入る前に、まずは一般的な「処置や条件の切替の境界のデータに着目する考え方」を説明する。ある処置が実施されるかどうかが、ある連続的な性質の特定の境界で切り替わる場合を考えてみよう。たとえば、ある調査区域内に、道一本で隔てられたA県とB県の境界があり、「A県では保全施策として外来植物Qの物理的駆除を実施し、B県ではその保全施策を実施していない」という状況があるとする。ここで、外来植物Qの物理的駆除の効果を比較するために、道一本で隔てられた県の境界の両脇近傍のサイトのデータだけを抜き出して比較して解析することにより、処置を受けたサイトと受けていないサイト間で処置の違い以外の背景要因がなるべく揃っている(道一本で隔てられているだけなので)状態での比較を行えると期待できる。

2) 回帰不連続デザインの考え方

こうした「境界での処置の切り替わりに着目する」考え方を、回帰分析の枠組みと組み合わせたのが「回帰不連続デザイン」となる。回帰不連続デザインでは、処置Xの割付が、ある連続量の境界で切り替わるときの、反応Yの変化の度合いに着目する。仮想例として、クーラー導入と労働生産性の仮想例を考えてみよう。あるオフィスにおいて、夏期のクーラーの運用ルールが「午前10時の外気温が28℃以上の日だけクーラー使用可」であるとする。このとき、各日において「午前10時の外気温」と「労働生産性」が計測されていたとして、その関係をプロットしたものが図4となる。ここで横軸の「午前10時の外気温」をみると、運用ルールに基づき、28℃を境界として「クーラーを使用するかどうか」の処置が切り替わっている。このとき、午前10時の外気温と労働生産性の関係を見ると、その28℃の近傍で非連続的な変化が見られている。もしここで「この28℃の近傍では諸々の背景要因は大きく異ならない」という仮定が成り立つ場合には、その近傍の範囲では「クーラーを使用した/しない場合」の比較の際に背景要因が揃っている状態での比較が成立すると考えられる。そのため、この28℃の近傍での非連続的な変化の大きさを「クーラーを使用したことによる労働生産性への因果効果」として解釈できる。

回帰不連続デザインは、上記のような状況の下で、処置の切り替わりの境界での回帰直線の非連続的な変化を推定することにより、因果効果の推定を行う方法である。回帰不連続デザインに基づく解析はRのパッケージ(rdrobustやrddensity)を利用して行うことができる(具体的な実装法は高橋(2022)などの解説書を別途参照されたい)。回帰不連続デザインの実装の際には、回帰直線の推定において用いる境界値付近のデータの範囲(バンド幅)の設定が重要となる(バンド幅を狭くとると実質的なサンプルサイズが小さくなり、広くとると境界値付近以外の共変量が揃っていない範囲のデータの挙動に推定が影響を受けてしまうというトレードオフがあるため)。また、場合によっては、白黒キッパリとは切り替わらずに、境界値の前後でどちらの処置を受けるかが曖昧な(確率的に決まるような)グレーゾーンがある場合もある。こうしたケースは「ファジーな回帰不連続デザイン」と呼ばれ、境界値前後での確率の差を解析に取り込むアプローチが必要となる。尚、回帰不連続デザインの目的は「境界値前後での差」の推定であり、一般に「目的変数の予測」や「説明変数の係数の大きさの推定」などが目的となる通常の回帰分析とは、「データを回帰モデルでフィッティングする」という点では同じであるものの、かなり異なる枠組みに基づく手法といえる。

3) 適用事例

Wuepper and Finger (2023)は、農業・環境経済学分野での回帰不連続デザインの解説と適用事例についての近年の総説であり、生態学的な事例も幾つか紹介されている。ここでは鳥類の種多様度に着目したNoack et al. (2022)の事例を紹介する。Noackらは農地規模の拡大が鳥類の種多様性に与える影響を調べるため、旧東西ドイツの国境境界を利用した回帰不連続デザインの枠組みに基づく推定を行った。その結果、旧東西ドイツの境界近傍では気温や降水量などの気候要因は連続的に変化している一方で、境界近傍の旧東ドイツ側では旧西ドイツと比較して「景観の多様度」と「鳥類の種多様度」がいずれも非連続的に減少していることが示され、農地規模の拡大が鳥類の種多様性を減少させる因果効果を持つと推定された。

4) 考察:生態学と回帰不連続デザイン

一般に生態学においては、上記で前提としているような「何らかの連続的な変数の特定の境界で処置の有無が切り替わる」という状況自体にあまり遭遇しないと考えられる。そのため、回帰不連続デザインを実際に適用できるケースは少ないかもしれない。考えられるケースとしては、「ある連続量をとる環境要因が基準値を超えた場合に保全施策が講じられる」ことが運用ルールとして決まっている場合などには適用がありうるかもしれない。また、前節で紹介した旧東西ドイツの国境を利用したような、「何らかの境界(たとえば、市町村や保護区の境界線など)の内外で処置や要因の有無が切り替わる状況」を利用して、因果効果を推定するアプローチを取り得る状況もあるかもしれない(尚、処置や要因の不連続性を利用するというアイデア自体は一般的なものであり、必ずしも回帰不連続デザインの枠組みにこだわる必要はないかもしれない)。こうしたアプローチを実際に採用できる状況は少ないかもしれないが、こうした考え方は、調査デザインの設定や統計解析方針を検討する際のアイデアの幅を広げるものであり、また実際に適用できた場合には生態学における先駆的な事例として位置づけることができるものと思われる。

操作変数法の解説

1)基本的なアイデア:システムの外部からの「外生的ショック」の利用

操作変数法とは、システムの外部からの「外生的ショック」をもたらす「操作変数」を用いて因果効果を推定する方法である。まずは、「外生的ショック」のイメージをつかむために「獣害防止電気柵と局所的豪雨」の仮想例を考えていく。あなたはある自治体が行っている獣害対策の担当者であり、「獣害防止電気柵の設置→獣害の被害数」の因果効果を知りたいとする。ここでもし無作為化比較試験のように、担当区域の中のサイトを無作為に選んで「電気柵の設置の有無」を処置として割付できれば、電気柵の有無の異なる群間での獣害被害数の差からバイアスなくその因果効果を推定できるかもしれない。しかし、費用および運用面での制約から、そうした無作為での電気柵の設置はできないとする。また別の考え方として、「電気柵の設置があるサイト」と「電気柵を設置していないサイト」での被害数データを比較して電気柵の効果を類推することは可能かもしれない。しかし、「電気柵を設置していないサイト」ではそもそも獣害で困っていないなど、それらのサイト群間では背景因子が揃っていないことから偽相関が生じる可能性があり、因果効果を推定するための条件が成り立っていない。

そうした状況で、担当区域の複数のサイトで局所的豪雨が生じ、既に設置されていたうちの半数のサイトで電気柵が壊れる出来事があった。ここで、「電気柵が壊れたサイト」と「電気柵が壊れなかったサイト」の間で特に性質の違いがないときには、「電気柵が壊れたサイト」と「電気柵が壊れなかったサイト」の群間での背景因子には大きな違いがないと考えられる。つまり、局所的豪雨という外生的なショックによって生じた、「電気柵が壊れたサイト」と「電気柵が壊れなかったサイト」の間での「獣害の被害数」の差をとることで、背景因子が揃った状態での電気柵の有無の異なる処置群間での差が推定できることになる。この場合、その差を「電気柵の設置X→獣害の被害数Y」のバイアスのない因果効果として解釈できる。このように、外生的ショック(システムの外部からの要因)により処置が左右される状況を利用して、因果効果を推定することが可能となる場合がある。

2) 操作変数法の考え方

こうした外生的ショックを利用した因果効果を計算する方法として知られているのが、操作変数法である。操作変数( IV ; Instrumental Variableの略)は以下の条件を満たした変数として定義される。

(1) IV は処置 X と相関があり、かつ処置 X を通してのみ結果 Y に影響する

(2) IV と誤差項が相関していない

上記の条件が満たされている因果構造を描くと、たとえば図5のようになる。条件(1)の前半は、上記の局所的豪雨の例で考えると、「そのサイトで局所的豪雨が生じた( I V = 0 )か/生じていない( I V = 1 ))か」が、「サイトにおいて電気柵の破壊が生じた( X = 0 )か/生じていない( X = 1 )かと関連(相関)がある」ことに対応する(尚、ここでは電気柵がある状態を X = 1 、電気柵がある状態を促す要因(「局所的豪雨がなかった場合」)を I V = 1 としている)。条件(1)の後半は、「局所的豪雨は電気柵の破壊を通じてのみ獣害被害数に影響を与える」ことに対応する。条件(2)は、局所的豪雨による電気柵の破壊が生じたサイトと生じなかったサイト間で背景要因が揃っていることに対応する。ここで条件(1)の前半はデータから判断することができるが、それ以外の条件はデータそのものからは判断できず、それらのサイトと獣害に関する背景知識を基に判断する必要がある。上記の条件が満たされている IV があるとき、標準化されたデータにおいては、「 IV Y の相関( ρ ̂ I V , Y )」と「 IV X の相関( ρ ̂ I V , X )」の値から、「処置 X →結果 Y の因果効果 = ρ ̂ I V , Y / ρ ̂ I V , X 」としてバイアスのない因果効果を推定できることが知られている。尚、操作変数法は基本的に IV X Y の各変数間の関係が線形モデルで表現できることを理論的な前提としている。そのため、 IV が二値、 X が連続変数の際の相関係数も「(二値データを0/1のダミー変数に変換した上での)データ標準化後の線形回帰モデル( X = 回帰係数 × I V + 切片 )における回帰係数」に対応するものとして捉えられる。操作変数法による因果効果の計算は、RパッケージのAERパッケージのivreg関数などを用いて行うことができる。操作変数を用いた因果効果の推定法の実装については、高橋 (2022)のRによる計算例を参照されたい。

3) 適用事例

Grace (2021)は、生態学分野での操作変数と構造方程式の適用についての近年の総説であり、生態学への応用事例も幾つか紹介されている。ここでは植物間相互作用に着目したRinella et al. (2020)の事例を紹介する。Rinellaらは、草地で冬季に繁茂する一年草外来種Bromus属が在来植物に与える因果的影響(処置が「Bromus属の生物量」、結果が「在来植物の生物量」)を推定するために、「秋の降水量」を操作変数として用いた解析を行っている。Rinellaらによると「秋の降水量」は、「Bromus属の生物量」に大きな影響を与える一方で、「在来植物の生物量」には大きな影響を与えない(前節の条件(1) に対応)という背景知識(図6a)から、「秋の降水量」の操作変数としての使用を正当化している。

より経済学的な発想による操作変数の研究例として、Li et al. (2020)も紹介しておきたい。Liらは、ネオニコチノイド系農薬が鳥類の多様性に与える因果的影響の推定において、「農薬の価格」を操作変数として用いた解析を行っている。Liらによると「農薬の価格」は、「ネオニコチノイド系農薬の使用量」に影響を与える一方で、「鳥類の多様性」には直接的な影響を与えない(前節の条件(1) に対応)という背景知識(図6b)から、「農薬の価格」の操作変数としての使用を正当化している。

4) 考察:生態学と操作変数法

操作変数法のような「外生的ショック」を都合良く利用できる状況は、生態学ではおそらく稀である。しかし、前節でみた「農薬の価格」を操作変数として用いた事例のように、(保全)生態学において「システムの外部からの影響により処置の有無が影響を受ける」と解釈できる状況は全くないわけでもないと思われる。また、前節の事例での「秋の降水量」のような、「処置(原因となる要因)のみにピンポイントで影響を与えるが、結果には直接的には大きな影響を与えない要因」がある状況は、もう少し広い範囲で見いだすことができるかもしれない(尚、この状況は条件(1)に関するもので、条件(2)については別途検討が必要である)。現状、生態学において操作変数法は、先行事例も適用の機会も少ないという意味でいまだチャレンジングな課題であり、もしうまく適用できた場合には先駆的な研究事例になるだろう。

 尚、「調査観察データを用いた統計的因果推論」という文脈からは少し異なる話となるが、生態学への応用という観点からは、「調査デザインや統計解析に操作変数法のアイデアを応用する」という方向も潜在的に有望かもしれないため、やや長くなるが以下で議論をしておきたい。無作為化実験においてコイントスの結果に基づき処置の有無を決めるとき、その「コイントスの結果」を変数と捉えると操作変数の条件(1)(2)を満たすため、操作変数として解釈できる。この解釈の延長として、実験の割り付けに不遵守が生じる場合に、その不遵守の影響の補正計算に操作変数法の考え方を応用できることが知られている(高橋 2022)。こうした操作変数法の使用法は、生態学の分野でも利用できる機会は比較的多いかもしれない。たとえば、農家を「減農薬を奨励するグループ」と「慣行農法を行うグループ」の2つにランダムに割り当てて、減農薬が生物相に与える影響を検証する状況を考える。このとき、減農薬を奨励されても、それを遵守しない農家が存在した場合、「グループ分け」を操作変数とみなしてその不遵守の影響を補正するアプローチが考えられる。また、やや拡張的な議論となるが、図5の因果ダイアグラムのように「興味のある原因 X 」に対して「 IV 」が局所的な( X にしか影響しないような)介入効果をもち、かつ「 IV Y の相関」と「 IV X の相関」が観測可能な場合には、操作変数法の枠組みを未知の共変量が存在するときの生態学の野外実験のデザインに応用できるかもしれない。トップダウン効果の因果効果推定を例として考えてみよう。 X を「外来捕食者Aの密度」、 Y を「在来被食者Bの密度」とする。この X Y の関係については、地域の気候や地形要因,未知の捕食者など未観測の交絡要因が多数あるため、その相関関係から因果効果を直接推定することは難しい。そこで、外来捕食者種Aへの特異性が高いトラップをさまざまな密度で無作為に設置し、その「外来捕食者捕獲トラップの密度」を IV として考える。ここで、 IV が操作変数の条件(1)(2)を満たすとき、標準化されたデータでは、「 Y IV の相関/ X IV の相関」として X Y の因果効果をバイアス無く推定しうることになる。(以上の議論について、「操作変数法の応用」というよりも「構造方程式のパス解析の応用」のように感じた読者もいるかもしれないが、操作変数法自体が線形構造方程式のパス解析の応用という側面を持つため、それはそれで正当な理解といえる。)

おわりに

本稿では、まだ生態学には本格的には導入されていない手法として、傾向スコア法、回帰不連続デザイン、操作変数法の紹介を行った。また併せて、これらの手法を生態学に適用することの可能性や意義を議論した。実際問題としては、これらの手法をそのまま生態学で適用できる状況は稀かもしれない。しかし、これらの手法の存在や発想を知ることで、調査デザインの設定や統計解析方針を検討する際のアイデアの幅は広がりうるだろう。また、実際に適用できた場合には生態学における国際的にも先駆的な事例になるものと考えられる。

謝 辞

本稿における回帰不連続デザインと操作変数法の解説については、査読者のコメントにより元々の原稿よりも格段に内容が充実したものとなった。近年は謝辞には査読者に関する記載を含めないことが慣習となっているが、上記の経緯により本稿ではここで改めて感謝の旨を申し上げたい。

著者情報

ORCID iD 

Takehiko I. Hayashi https://orcid.org/0000-0002-1037-6795

図1.「獣害防止処置の有無」と「獣害の被害数」の関係。aからは、一見、処置が獣害を増しているかのように見える。一方、作物の違いを明示化したbからは、実際には処置が獣害を減らしていることが分かる。

  

図2.図1のデータの背景にある因果構造。作物の割合の違いが交絡の原因となっている。

図3.層別化では”背景を揃える”ことで因果効果を推定する

図4.クーラー導入と労働生産性の仮想例

図5.操作変数の例。こうした因果構造の場合には未観測交絡要因があっても、「IVYの相関」と「IVXの相関」の値を利用して、「処置X→結果Yの因果効果」が推定できる。

図6.既往研究における操作変数の例

References
 
© 著者

この記事はクリエイティブ・コモンズ [表示 4.0 国際]ライセンスの下に提供されています。
https://creativecommons.org/licenses/by/4.0/deed.ja
feedback
Top