「平均への回帰」は因果関係とは異なる

背の高い親の子供の身長は親よりも低くなる傾向がある、1年目に好成績をあげたプロスポーツの新人は、2年目に振るわないことが多い(2年目のジンクス)といった現象がよく見られ、これを「平均への回帰」という概念で説明することが多い。平均への回帰とは、平均からかなり外れた値が出た場合、次には、平均に近い値が出る(平均よりもかなり高い場合には、それよりも低く、平均よりもかなり低い場合にはそれよりも高く)というように一般的には理解されている。しかし、誤解してはいけないのは、そこに因果関係が絡んでいると考えてしまう間違いである。つまり、平均よりも高い値になったから(例、背の高い親、1年目の好成績)、それが、次回に、それよりも低い値を生み出す原因となるという理解である。

 

実は、「平均への回帰」は、因果関係ではなく「変数間の相関」に絡むもので、数学でも簡単に示すことができる統計学上の法則性であって、因果関係とは全く異なるものである。もちろん、因果関係が絡んでいる平均への回帰現象もあるかもしれない。しかし、それとこれとは話は別で、重要なのは、平均への回帰が因果関係とはまったく独立した統計学的な概念だということを理解することである。ここでは、因果推論について深い議論を展開しているパールとマッケンジー(2022)によって示された平均への回帰に関する議論を参考にして、この点について解説する。

 

平均への回帰を因果関係であると誤解してしまうことを正す分かりやすい例として、親子の身長の話で説明しよう。冒頭にあげたのは、背の高い(背の低い)親から生まれた子供は、その親よりも背が低い(高い)傾向があるということであった。これを直感的に理解しようとすると、遺伝子になんらかの要因があって、平均と比べて背が高く(低く)なりすぎた人間の遺伝子には、それを是正して平均に近づけるメカニズムが内在している、というように因果関係的に考えてしまうかもしれない。しかし、統計上は、背の高い子供の親は、その子供よりも背が低い傾向にあり、背の低い子供の親は、その子供よりも背が高い傾向にあるというように、子から親に対しても平均への回帰が観察されるのである。子供から親が生まれるわけではないので、これが因果関係では説明できないことは明白である。

 

統計学的には、親から子への平均への回帰と、子から親への平均の回帰は、対称の関係である。例えば、親と子の身長に関する散布図を、親の身長をX、子の身長をYとして描いた場合、平均への回帰は、親の身長Xから、子の身長Yを予測する際に観察される。しかし、この散布図は、通常はX=Yの直線を境に線対称になっているので、XとYを入れ替えて、Xを子の身長、Yを親の身長として、子の身長Xから、親の身長Yを予測する際にもまったく同じ原理で平均への回帰が観察されるのである。散布図が線対称であることを考慮すれば、X軸とY軸を入れ替えてもグラフの形状が変わらないので、当たり前の話であることは理解できるだろう。ここでは、親が子を産むという因果関係的要素(もしくは時間的順序)はいっさい無視して構わないということである。

 

つまり、平均への回帰を説明するのに用いられるのは、親の身長と子の身長という2つの変数の相関だけである。つまり、親と子のペアの分布が散布図で見た場合にどういう形状をしているかがポイントであって、どちらが親でどちらが子かは問題とはならず、どちらも正規分布でかつ相関関係にある場合、親と子は完全に交換可能なのである。だから、平均への回帰を因果関係の概念を用いて説明しようとするのは間違っているのである。

 

では、因果関係が絡むことなしに、なぜ平均への回帰が起こるのだろうか。余談だが、いわゆる「回帰分析」は、平均への回帰がどの程度起こっているのかを分析することから命名されたという説もあるらしい。回帰分析自身も因果関係とは無縁で、単にXからYを予測するための分析ツールである。話を戻すと、ここでカギとなるのが「相関関係」の理解である。相関係数が最大値の1である場合、どの親子についても、親と子の身長がまったく等しいという状態である。現実には相関関係が1というのはあり得ないので、それよりも小さな値になるわけだが、相関関係が0以上で1未満の場合というのは、例えば180センチの親と170センチの子のように、若干異なる身長の親子はたくさんいるが、160センチの親と180センチの子のような極端に身長が異なる親子は稀であるということを示している。

 

そこで、適当にサンプルを集めて、180センチの父親の息子の身長の分布を調べるならば、こんなことが言える。180センチを超えるような子の数は少ない。なぜならば、180センチを超える人自体が少ないからである。一方、180センチ未満の子の数は相対的に多いはずである。であるから、子の身長の平均をとると、必然的に180センチよりも小さくなる。これをもって、平均への回帰が起こっていると解釈する。160センチの親の子のケースも同じで、160センチ未満の子の数は少なく、160センチ以上の子の数は多いはずである。そもそも160センチ以下の人の数が少ないからである。だから、平均をとると、160センチ以上となり、男性の平均値を170センチとするならば、平均への回帰が起こっている。

 

次に、同じサンプルを使って、180センチの男子の父親の身長の分布を調べるならば、こんなことが言える。180センチを超えるような親の数は少ない。なぜならば、180センチを超える人自体が少ないからである。一方、180センチ未満の親の数は相対的に多いはずである。であるから、親の身長の平均をとると、必然的に180センチよりも小さくなる。これをもって、平均への回帰が起こっていると解釈する。160センチの男子の父親のケースも同じで、160センチ未満の親の数は少なく、160センチ以上の親の数は多いはずである。そもそも160センチ以下の人の数が少ないからである。だから、平均をとると、160センチ以上となり、男性の平均値を170センチとするならば、平均への回帰が起こっている。

 

お判りのように、上2つの段落は、親と子を入れ替えているだけで、まったく同じ理屈で、平均への回帰が起こっていることを確認することができる。なぜそんなことが可能かというと、同じ親子のペアを比べたら、平均をとると親の身長が子の身長を上回るか、子の身長が親の身長を上回るか、どちらか1つしか起こりえないので、それが両方起こることはあり得ないのだが、同じ身長の親の子供たちと、同じ身長の子供の親たちとは、そもそも違う親子のペアなので、どちらのケースでも平均への回帰が起こるわけである。ということで、結論としては、平均への回帰というのは、2つの変数の相関関係から起こる統計学上の現象であること、そして、それがゆえに、因果関係とは何ら関係のない概念であるということなのである。

文献

ジューディア・パール, ダナ・マッケンジー (2022)「因果推論の科学 「なぜ?」の問いにどう答えるか」文藝春秋