固定効果と変量効果の直感的理解

経営学や組織行動論を始め、近年の社会科学では、デジタル化の影響もあって大量のデータがとりやすくなってきた。さらに、1人から複数時点でのデータを取得することも昔よりも容易になってきた。そこで、同じ変数を個人とか企業(個体)から時間をおいて何度も取得したデータを分析することが増えてきた。このようなデータは、縦断データとかパネルデータと呼ばれ、より精緻な分析が可能となる。縦断データやパネルデータには、個体間の変動と、個体内での変動(時間的変動など)が混ざっているので、この種のデータを分析する際には、それらをごっちゃにしてしまう単純な重回帰分析のような方法では適切なパラメータ推定ができないため、混合モデルやマルチレベル分析などより高度な統計手法が使われる。

 

このような縦断データもしくはパネルデータの統計分析で頻出する用語が「固定効果」と「変量効果(ランダム効果)」である。この用語は極めて分かりにくく、さらに悪いことに、心理学などの一般的な社会科学と、計量経済学ではこれらの用語が全く違う意味で使われていると思われる。以下のサイトでもその違いが解説されている。

固定効果とランダム効果:統計学と計量経済学での定義 - データ分析メモと北欧生活

そこで今回は、この「固定効果」と「変量効果」を、心理学などの社会科学一般と計量経済学においてどのような意味で使われておりどう違うのかを直感的に理解できるような説明を試みる。心理学などの社会科学一般で用いられている固定効果、変量効果の理解は、清水(2014)を参考にし、計量経済学で用いられている固定効果、変量効果の理解は、西山ほか(2019)を参考にする。この2つの著作を比べるだけでも、固定効果と変量効果が全く違う意味で使われていることが分かる。

 

まず、固定効果と変量効果が分かりにくい理由は、そもそも「固定」とは何が固定されているのか、「変量(ランダム)」とは、何の量が変化するのか(何がランダムなのか)が直観的に分かりにくいところにある。以下において、XがYに影響を与えるという単純な因果関係を考える。例えば、Xを新型コロナワクチン接種、Yを副反応による発熱としよう。

 

まず、社会科学一般では、固定と変量(ランダム)を、次のような発想で使うことが多いことを理解しておこう。例えば、日本人の成人男性の身長を考えるときに、その身長には、すべての日本人成人男性に共通する(固定的な)身長+人によってランダムにばらつく要素(変量)で決定されると考える。つまり、固定的な部分が170センチ(平均身長)であり、それよりもたまたま小さくなった人、たまたま大きくなった人というランダム成分が加わって、一人一人の身長が決定されるというわけである。身長180センチの人の場合は、固定効果(すべての日本人は成人になれば170センチになる)よりも、なんらかの理由で10センチほど上振れした男性ということである。

 

もちろん、180センチになる人、160センチにとどまる人には何らかの原因があるはずだが、統計的に見てその原因にあまり関心がないのであるならば、分布としては固定部分(170センチ)を中心とする正規分布となり、個体はその中のどこかにいる、すなわちランダムに高身長の人、低身長の人が分布していると単純に解釈する。

 

上記のことを理解したうえで本題に戻ろう。XがYに影響を与えるという単純な因果関係、例えばXを新型コロナワクチン接種、Yを副反応による発熱としたときに、心理学などの社会科学一般でいうところの「固定効果」とは、すべての人(個体)に共通して(固定的に)生じるXの効果、すなわち定数(固定値)として示されるXの係数を意味する。例えば、新型コロナワクチンを接種したら翌日に2度発熱する(38度の熱が出る)というのがXの固定効果である。ただし、人によっては、まったく発熱しない人、逆に40度近くまで高熱を出すひとなどさまざまであり、個別にはなんらかの理由があるだろうが、統計的に見ると、これらの人がランダムに分布している。この部分を「変量(ランダム)効果」と呼ぶ。であるから、個人にとって、新型ワクチン接種が発熱をもたらす効果は、固定効果(2度)+変量効果(人によってマイナスであったりプラスであったりする)ということになるのである。

 

以上をまとめると、心理学など社会科学一般で縦断的データなどを分析するときに用いられる「固定効果」は、「すべての個体に共通している」がゆえに「固定値で表現できる」効果ということになる。当然のことながら、個体によってXの効果は異なるはずなのだが、一見ばらばらに見える効果でも、そこには必ず固定的な効果が「隠れている」と考えれば、個々のXの効果の平均値をとれば、上振れしたり下振れしたりするランダム成分(変量効果)が相殺されて、その固定値(固定効果)を取り出すことが可能になるという発想にもつながり、それが実際の混合モデルやマルチモデルの基礎となっているのである。

 

さて、計量経済学のパネルデータにおける「固定効果」と「変量効果」を考える際には、上記の説明はいったん忘れ去ったほうがよい。でないと混乱することになる。なぜならば、上記の説明でいうところのXの固定効果は、計量経済学では固定効果とは言わないからである。計量経済学でいうところの固定効果が意味するのは、まったくの別物である。経済学は独特な思考のクセを持っているので、経済学的にものを考えるときにはいったん常識的な発想を取り除いたほうがよいのかもしれない。

 

では、計量経済学でいうところの「固定効果」と「変量(ランダム)効果」とは何を意味するのであろうか。まず「固定効果」を直感的にいえば、それは、それぞれの個体が持っている固有の特徴で、それがXに影響を与えていると考えられるという意味である。とりわけ重要なのは、計量経済学の多くはすでに存在するマクロ的なデータを分析対象とすることが多く、リサーチクエスチョンにもとづいてゼロからリサーチデザインを設計してデータ収集を始めることは少ないということである。であるから、個体が持っているなんらかの特徴がXに影響を与えると想定しても、そのような要素が分析対象となるデータには測定変数として含まれていないことが多いのである。Xを新型ワクチン接種、Yを発熱としたときに、個人が住んでいる地域の接種会場の数が、接種するか否かに影響しているかもしれない。しかし、計量経済学者が入手したデータにはその情報が欠落している(居住地のデータを収集していない)。年齢も、接種するか否かに影響を与えるいるかもしれない。若い人ほど接種率が低いかもしれない。しかし年齢データもない。存在するのはXとYの数値のみ。こういう状況を想定してもらえればよい。

 

計量経済学でいうところの固定効果は、縦断的データすなわちパネルデータを想定したときに、それぞれの個体が持っている測定されていない固有の特徴で、しかもそれは時間によって変化しないと想定する。例えば、個人の居住地の病院数は、もし毎回測定していたとしたら、引っ越しなどの事情を除けば、毎回、ほぼ同じ値である。しかし、計量経済学者が入手したデータにはその情報が含まれていないと仮定しよう。しかし、接種会場の数が接種するか否かになんらかの影響を及ぼしているかもしれないと考える場合、接種会場数(固定効果)とX(接種するか否か)とが相関していることが想定される。接種会場数が少ないほど、接種しないケースが多いと想定してみよう。

 

上記のようなケースで、XがYに与える影響を推定しても、すなわち、接種後にどれくらい発熱するかの効果を推定しても、それは人間一般に当てはまる適切な推定値ではない。それは高齢者のみに当てはまる効果なのかもしれないし、都市部の人々のみに当てはまる効果なのかもしれない。すなわち、推定された効果には、測定されていない個体の要因が混在した、バイアスのかかった推定なのである。

 

よって、計量経済学者が関心をもっているのは、データには測定値として含まれていないがXの値に影響を与えると思われる個体が固有にもっている要素(固定効果)をいかに取り除いて、適切なXの効果を推定するかということなのである。固定効果を含んだままで推定したXの効果というのは、その効果に個体固有の要素が混ざってしまっているので、それが何を意味しているのかが不明になってしまうのである。この発想が、パネルデータを分析するさいの統計手法の基礎となっているのである。

 

では、計量経済学でいうところの「変量(ランダム)効果」とは何か。こちらは直感的にいうと、計量経済学でいうところの固定効果が、分析から取り除かないと間違った推定をしてしまうという「悪性」の要因を意味するとするならば、分析から取り除く必要のない、よって放置しておいても問題のない「良性」の要因だと考えることが可能である。つまり、固定効果と同様に、データには含まれていないが個体が固有に持っている時間によって変化しない要素なのだが、その要素がXとは相関していない場合である。つまり、「変量(ランダム)効果」の変量(ランダム)とは、Xと無関係である(ランダムである)という意味なのである。ただ、Xとは無関係でも、Yに独立的に関係している可能性があるので、分析ではそれを考慮した推定が必要になることがある。

 

新型コロナワクチンと発熱のケースでいうならば、個人の年齢と身長を両方とも測定していないデータしか入手できなかったとした場合に、もしかしたら、そのデータにおいて、ワクチン接種した人はほとんどが高齢者で、ワクチン接種していない人はほとんどが若者かもしれない。しかし年齢データがないのでそれが本当かどうかは分からない。しかし、もし、単純な回帰分析などで、ワクチン接種と発熱の関係を分析したらどうであろうか。それが間違った結論を導くことは容易に理解できるであろう。若者がワクチン接種をしたらどうなるのかがまったく不明だからだ。この場合、年齢は「固定効果」であるので、固定効果を取り除かないかぎり適切な結論は導けない。つまり、結論をゆがめる悪性の効果である。しかし、この固定効果は、同じ個体から複数のデータを取得しているというパネルデータの特徴を利用すれば取り除くことができるというところがミソである。

 

一方、身長を考えると、身長の高低とワクチン接種の有無は無関係だと思われる。ワクチン接種をした人の中には、高身長の人も低身長の人も一定数存在しているだろうし、同じく、ワクチン接種をしなかった人の中にも、高身長の人も低身長の人も一定数存在しているだろう。つまり、身長に関していえば、ランダム化された実験をしているのに等しい、すなわち、接種群と非摂取群とで身長についてはランダム配分が実現していることを意味する。であるから、身長が、Xの効果を推定する際に悪さをすることはない。すなわち「良性」の要素ということになる。この場合、身長は「変量(ランダム)効果」だといえる。

 

そろそろまとめに入ろう。心理学などの社会科学一般でいうところの「固定効果」「変量(ランダム)効果」は、計量経済学で用いる「固定効果」「変量(ランダム)効果」とは違うということを強調したわけだが、どう違うのかを直感的にまとめてみる。

 

まず、心理学などの社会科学一般でいうところの「固定効果」は、XがYに与える効果のうち、すべての個体に共通して現れる定数(固定値)で表すことができる効果である。「変量(ランダム)効果」は、固定効果よりも高かったり、低かったりと、統計的に見ると個体によってランダムに変動している効果である。

 

そして、計量経済学でいうところの「固定効果」は、XがYに与える効果を検証する際ランダム化実験が理想的な方法だ想定したときに、実際に用いるデータでは、「個体の固定的な要素」がXと相関してしまっているがゆえにランダム化が失敗しているケースを指す。これは分析で誤った結論につながる「悪性」の効果だが、パネルデータであれば取り除けると考える。一方、「変量(ランダム)効果」は、それに限っていえば「ランダム化」が成功しているケースを指す。ランダム化が成功しているから、その効果を分析の際に取り除く必要がないということである。以上、直感的な理解なので厳密には正しくない点があるかもしれないが、大まかなイメージはつかんでいただけると思う。

文献

清水裕士 2014「個人と集団のマルチレベル分析」ナカニシヤ出版

西山慶彦・新谷元嗣・川口大司・奥井亮 2019「計量経済学」 (New Liberal Arts Selection) 有斐閣

固定効果とランダム効果:統計学と計量経済学での定義 - データ分析メモと北欧生活