なぜ分散分析で平方和や平均平方という用語が使われるのか

分散分析について初めて勉強するとおそらく混乱すると思われる言葉が、平方和や平均平方である。分散分析なのだから分散という言葉を用いて説明してほしいのに、平方和とか平均平方がでてきて混乱するのである。平方和については、偏差平方和とか、残差平方和といった言葉も用いられる。分散分析表というものに、平方和や自由度、平均平方といった欄が並び、意味がよく分からないという人もいるだろう。これらの用語が登場する理由を理解しておく必要がある。


そもそも、分散分析とは、「選択肢を変えることによって、平均値(期待値)が変わるか」を調べることなので、本質的には、異なる条件での平均値の差を調べるものである。分散分析の対象となるデータを式を式で表したものとして「データ=平均値+効果+誤差1」としよう。ここで、効果がゼロになるならば、「データ=平均値+誤差2」となる。この2つを比べれば、「効果+誤差1=誤差2」なのは明らかである。


ここで、データの分散(ばらつき)を考えるならば、「データ全体の分散=誤差2」の分散であり、「誤差2の分散=効果の分散+誤差1の分散」である。なので、分散分析を直感的に理解するならば、データ全体の分散=誤差2の分散を、効果の分散と誤差1の分散に分解して、効果の分散と誤差1の分散の関係を調べるということになる。


しかし、分散分析の統計的検定で用いるF分布というのは、単純に効果の分散と誤差1の分散の関係を表すものではないところが、平方和や平均平方という言葉が出てくる理由の1つである。平方和とか偏差平方和というのは、分散の式の分子の部分であって、平均との差の二乗を足し合わせたものである。とくに誤差1の平方和を効果を考慮した後に残ったものの平方和という意味で、残差平方和という。


ではF分布とはどんな分布かというと、2つのカイ二乗分布に従う確率変数をそれらの自由度で割ったものの比の分布である。カイ二乗分布とは、正規分布に従う変数を二乗したものの分布である。そして、データの平方和は自由度がN−1のカイ二乗分布に従うことが分かっているのである。


よって、分散分析では具体的に何をするかというと、とりあえず分散のように分母にサンプルサイズや自由度を持ってくることをいったん置いておいて分子のみを考慮する「平方和」に着目し、「データ全体の平方和=効果の平方和+誤差1の平方和」というように平方和を分解する。同時に、データ全体の自由度=効果の自由度+誤差1の自由度に分解する。データ全体の自由度はサンプル数から計算される自由に動かせる値の数であってN-1である。そして、効果の平方和を効果の自由度で割ったもの(効果の平均平方)と、誤差1の平方和を誤差1の自由度で割ったもの(誤差1の平均平方)の比をFとして計算し、そのFが、帰無仮説(効果=ゼロ)の条件でF分布に従うという知識を利用して検定をするのである。


効果の平均平方はその期待値が(誤差1の母分散+効果の母分散×繰り返し数)となるように設定され、誤差1の平均平方はその期待値が誤差1の母分散になるように設定されているので、もし効果がゼロであれば効果の母分散もゼロでFは1になる。一方、効果が多きればFの値が大きくなるため、帰無仮説が正しい場合に生じるF分布での出現確率は小さくなる。その確立(p値)が十分に小さいことをもって帰無仮説を棄却し、対立仮説(効果はゼロではない=効果が存在する)が支持されるのである。