内生性、内生変数とは何か

経営学のみならず、経済学その他の研究におけるデータ分析で起こりうる問題としてよく指摘されるのが「内生性(endogeneity)」とか「内生変数(endogeneous variable)」である。しかし、この概念は英単語としても難しいし、何を意味しているのか分かりにくい。星野・田中(2016)では、回帰モデルにおいて、独立変数と誤差項が相関している場合に、その独立変数を内生変数というと説明している。反対に、独立変数と誤差項が無相関の場合は、その独立変数を外生変数(exogneous variable)であると説明している。つまり、回帰モデルにおける独立変数は、内生変数か外生変数かどちらかしかない。操作的定義としてはそれでよいが、本来の意味は何だろうか。


辞書的には、内生性とは、それを含むシステムやモデルによって引き起こされる変化とか変数という意味である。つまり、あるシステムやモデルの終点もしくはアウトプットを予測する際に想定される何らかの変数は、本来ならば始点(そこから始まる)になっていないといけないのに、その変数が、システムやモデル内の別の要因とか変数によって影響を受けるわけだから、始点になっていないことを意味する。別の見方をすると、なんらかの物体とかシステムの特徴を調べようとするときに、外から手を加えたときにそれがどうなるかによって調べる方法があるが、本当に外部から手を加えている場合には、それに該当する変数が外生変数となるが、外部から手を加えたと思っていても、実はその力が内部の影響も受けている場合には内生変数になる。どちらのケースも、回帰分析において従属変数を予測するための独立変数としての本来の意図から離れてしまっているので(独立しておらず、別の変数に対する従属変数にもなっている)、何か問題を引き起こすということである。


では、内生性の何が問題なのか。星野・田中による統計学的な説明に従ってみるならば、独立変数が内生変数であると、すなわち内生性があると、回帰分析によって推定された回帰係数に誤差が含まれてしまい、バイアスのかかった推定になってしまうので、正しい推測や仮説検証ができなくなるということである。例えば、推定された回帰係数(独立変数が従属変数にもたらす効果)が、実際に存在する効果よりも過大評価になってしまったり過小評価になってしまったりする。これは研究において間違った結論を導いてしまう可能性を示唆しているため、大きな問題であるわけである。では、具体的にどのようなメカニズムによって、回帰分析結果にバイアスが生じてしまうのだろうか。星野・田中による解説を概観しよう。


もっとも単純な単回帰モデル(y = a + bx + e)を考えてみる。eは標準正規分布に従う誤差項である。y = a + bx + eの両辺の期待値を求めると、E(y) = a + bE(x) となるので、そこからaを求めて元の式に代入すると、y = E(y) - bE(x) + bx + eとなり、移項して整理すると、y - E(y) = b(x - E(x)) + eとなる。両辺に(x- E(x))を掛けてさらに期待値を求めると、 COV(xy) = bVAR(x) + E(xe)となる。ここから、b = COV(xy)/VAR(x) - E(xe)/VAR(x) となる。つまり、bの値は、xとyの共分散をxの分散で除した値と、xとeの共分散をxの分散で除した値で決まる。ここで、xが外生変数の場合には、定義から、xとeの共分散がゼロであるため、xとeの共分散を含む項自体が消えるので、bの値は、xとyの共分散をxの分散で除した値となる。


このようにして導かれるbを求める式は、実際に回帰分析で最小二乗法を用いてbを求める式に一致するので、回帰分析においてb(回帰係数もしくはxの効果)の正確な推定ができると考えられる。これに対して、xが内生変数であるということは、定義から、xとeの共分散はゼロではないということだから、bを導く式に含まれるxとeの共分散が含まれた項(- E(xe)/VAR(x))もゼロではない。その分だけ、bが大きかったり小さかったりする。しかし、実際に最小二乗法を用いた回帰分析で推定されるbはxとyの共分散をxの共分散で除した値のままだから、xとeの共分散を含めたbの本当の値よりも過大であったり過小であったりするわけである。


このように、独立変数が内生変数であったり内生性が存在したりすると、回帰分析において正しいパラメータの推定ができず、正しいモデルの検証ができないので問題である。では、内生性はどのような原因によって生じるのだろうか。星野・田中によれば、典型的な原因が3つほどある。1つ目はモデルや回帰式にとって重要な変数が省略されている場合(省略変数の存在)、2つ目は、独立変数の測定誤差が存在する場合、そして3つ目は、xがyに影響を与えているのと同時に、yがxにも影響を与えているという同時性の存在である。いずれの場合でも、xとeの共分散がゼロにはならないので、推定された係数にバイアスが含まれ、間違った結論を導く危険性が高まってしまう。内生性を防ぐためにはどうすればよいかといえば、1つ目のように省略変数が原因となっているのであれば、省略された変数をすべて回帰式に含めることが必要である。また、2つ目のように測定誤差が原因となっている場合には、測定誤差の少ない、信頼性の高い尺度を用いて変数を測定することが必要である。そして3つ目の同時性が問題であるならば、本来知りたい因果関係とは逆の因果関係があり得ないようにデータの取り方を工夫する(例:実験などでxを外部から操作する、xを先に測定した後、yを測定するなど時間差を設ける)などの対応策があるだろう。