統計分析において誤差分布が極めて重要な理由

経営学をはじめとする学術研究のうち数量的研究では、検証したい理論や仮説を数量的にモデル化し、収集したデータを用いた統計分析を実施することで妥当性を検証する。統計分析について、一見するとあまり脚光を浴びていないように思えるが実は極めて重要なのが、統計分析における誤差の分布である。例えば、近年経営学でもよく用いられるマルチレベルモデルあるいは線形階層モデルを例に挙げると、これらのモデルは複雑そうに見えても、誤差項を除いた変数間の関係は交互作用が伴ったり伴わなかったりする重回帰分析とさして変わらない。だからといって一般的な最小二乗法を基本とする重回帰分析を用いることは不適切である。その理由の多くが、統計モデルにおける誤差の分布に起因するのである。


三中(2018)は、統計モデルを「個別データ=総平均+効果+誤差」のように単純化して考えた際、効果と誤差の関係を、効果=旋律(メロディー)に、誤差=雑音(ホワイトノイズ)に例えている。この例えでいえば、統計分析の目的は、理論モデル(すなわち旋律)が、実際のデータにどれだけクリアに現れているか(クリアに聞き取れるか)を検証することである。旋律に対して雑音が大きすぎると旋律が聞き取れない。だから、旋律が正しいかどうかさえもわからないので、モデルが妥当でないか、データ収集が不適切であるかのどちらかだという結論に至る。雑音が少なければ、旋律がきれいに聞き取れるのと同時に、それが適切かどうかもわかるというわけだ。現実のデータでは誤差がゼロということはありえないため、理論モデルに対して統計モデルでは必ず誤差項が含まれるということになるのである。これが概念的にみた誤差の重要性である。


統計学的にみた誤差の重要性は、統計分析としてはもっとも頻繁に用いられる基本形としてのパラメトリック統計分析(分散分析や回帰分析などの線形モデルなど)を例に挙げると分かりやすい。まず、パラメトリックな統計分析でもっとも重要な確率分布が正規分布である。なぜ、正規分布がそれほどまでに重要なのか。あるいは三中の言葉を借りれば「なぜ正規分布パラメトリック統計学を統治しているのか」。それは第一に「線形変換における正規性の保存」という法則性を正規分布が有している点にある。これは、正規分布は線形変換しても正規分布になるということである。また、平均と分散がそれぞれ異なる複数個の正規分布をもつ確率変数を線形結合した確率変数も正規分布になる。また「中心極限定理」により、母集団がいかなる確率分布にしたがっていたとしても、無作為抽出された標本から計算された標本平均の分布は正規分布に収束していくというのもある。そして、正規分布からカイ二乗分布やF分布など、統計的仮説検定に必要な他の確率分布をつくりだせる(変換できる)という特徴がある。よって、パラメトリックな統計分析では正規分布が極めて重要な位置を占めていることがわかる。


先に挙げたとおり、統計分析では、観測されるデータのうち、効果(旋律)の部分と誤差(ノイズ)の部分を比べることによって、モデルや仮説の適切さを判断すると書いたが、通常はこれを統計的検定の推論によって行う。例えば単純な分散分析を例に挙げると、効果がないとする帰無仮説を棄却できれば、効果の存在をデータが支持するわけであるが、帰無仮説の「個別データ=平均+誤差」をみた場合、誤差が正規分布にしたがうならば、その線形変換としての観測データも正規分布に従うということがいえる。そして、観測データが正規分布に従うならば、分散分析のプロセスにおいて計算される全平方和と、それを分割した効果の平方和+誤差の平方和に対応する、全偏差、効果の偏差、誤差の偏差も正規分布に従うことが証明できる。ということは、正規分布を二乗することでカイ二乗分布がつくりだせるため、効果の平方和と誤差の平方和がそれぞれカイ二乗分布に従うことが証明される。そして、2つのカイ二乗分布を自由度で割った値の比がF分布にしたがうことが分かっているため、F分布をもちいたF検定を用いることによって、統計モデルの妥当性を検証することができるというわけである。この分散分析の例をかんたんにまとめると、F分布を用いてモデルの妥当性を検証できる論理的・統計学的な理由の1つに、誤差が正規分布に従っているという仮定があるのである。


上記の例をもっと正確にいうならば、分散分析でF値を用いて統計的検定を行うためには、モデルの誤差が、操作や効果の度合いや有無に関わらず独立かつ同一の正規分布にしたがっていなければならない。つまり誤差の確率分布の「独立性」と「正規性」が保たれていなければならない。別の言い方をすれば、誤差の確率分布の独立性と正規性が保たれていなければ、F分布を用いて検定をする正当性を論理的に導けないため、それは不適切あるいは間違っており、誤った結論を導くことにつながるということになる。独立性と正規性が保たれていることを確認する1つの指標が「等分散性(homoscedasticity)」である。これは、分散分析や回帰分析における効果の水準や独立変数の値ごとに、正規分布の分散が常に等しいということである。これらの条件を含めて単純に「誤差項が正規分布に従う」というのが、線形モデルの極めて重要な前提であり、逆にいうと、誤差項が正規分布に従っていれば、外見的には非線形にみえるような統計モデルでも、例えば二次関数やさらに高次な曲線を表す多項式のようなモデルでも「一般線形モデル(general linear model)」の1つとして扱うことができると三中は説明している。


ところが、1970年代になって、正規分布以外の確率分布を誤差にもつような場合でも線形モデルとして分析できるような「一般化線形モデル(generalized linear model)」が開発された。例えば、一般化線形モデルは、正規分布のみならず、指数分布族で表現される確率密度変数すべてに適用できると三中は述べている。指数分布族には、ガンマ分布、二項分布、ポアソン分布などが含まれ、その結果として従属変数が2値であるロジスティック回帰分析などの分析が可能になった。つまり、統計分析における確率分布に関する仮定を緩めることで、幅広いデータやモデルを扱えるようになってきたということである。また、固定効果とランダム効果の双方を含む線形モデルとして、線形混合モデルや一般化線形混合モデルなども開発され、マルチレベルモデルや階層線形モデルもその1つとして扱えるようになったのである。