分散分析・回帰分析を理解するために自由度・偏差平方和・平均平方の概念を頭に叩きこむ

そもそも、分散分析とは何だろうか。分散を分析することで何がわかるのだろうか。馬場(2015)によれば、分散分析は、「選択肢を変えることによって、平均値(期待値)が変わるか?」を検定したいときに使うという。このような理解は、回帰分析にも当てはまる。もっとも、回帰分析でも分散分析が行われるし、さらに言えば、分散分析も回帰分析も、同じ線形モデルとして理解できるので、本質的には同じことである。


「選択肢を変えることによって、平均値(期待値)が変わるか」を調べるためには、「データ=平均値+効果+誤差」という形でモデル化する。この際に、効果と誤差を比べた時に、効果が大きく、誤差が小さければ、効果に意味がある。これを「分散」を使って検定するのが分散分析である。具体的には、「効果の大きさ/誤差の大きさ」で表されるF比を検定する。効果の大きさは、それぞれの効果によるデータの値が、データ全体の平均(期待値)からどれだけ離れているかを示す分散を用いる。つまり、効果ごとのデータの期待値のばらつきである。誤差の分散は、それぞれの効果によるデータの期待値から、実際のデータがどれだけ離れているか、すなわち効果ごとのデータのばらつきである。


馬場によれば、モデル選択という視点からの分散分析の理解の仕方があり、これこそが、統計モデルとしての分散分析である。この場合、注目する効果を含むモデルと、効果を含まない(つまり誤差に含めてしまう)モデルを比較し、効果を含めたモデルのほうが優れている(意味がある)かを分散分析で検定することになる。効果を含むモデルを「データ=平均値+効果+誤差1」とし、効果を含まないモデルを「データ=平均値+誤差2」とする。両方の式から、「効果+誤差1=誤差2」であるから、効果は「誤差2ー誤差1」として表される。よって、先ほどのF比は、「誤差2ー誤差1(効果)の分散/誤差1の分散」として計算できる。そして、これらの値は、分子、分母ともに、「偏差平行和/自由度=平均平方」の概念を用いて計算する。


回帰分析は、分散分析の時に議論した「効果」とデータの関係が「線形」であるとする「線形仮定」を用いた統計モデルとして理解できる。その線形仮定のもとで、傾きと切片を最小二乗法などで推定する。この回帰分析の検定も、効果と誤差の関係もしくは、効果を含むモデルと効果を含まないモデルの比較として理解できる。つまり、分散分析である。そのメカニズムはすでに議論したものと同じで、「効果の大きさ/誤差の大きさ」もしくは「誤差2ー誤差1(効果)の分散/誤差1の分散」で表されるF比を用いるのである。具体的には、分子、分母ともに、「偏差平行和(残差平方和)/自由度=平均平方」で計算できる。