分散分析とは


分散分析は、水準間のバラツキと、水準内のバラツキを比較することであると解釈できる。


まず、ある因子の水準内の平均から、全平均を引いたものを二乗し、足し合わせたものが、因子の平方和になる。水準内において、実測値と水準内平均との差を足し合わせたものを、すべての水準について計算し、足し合わせたものが、誤差平方和である。データ全体のバラツキを示す、平均からの偏差の平方和は、水準間のバラツキすなわち因子の平方和と、誤差のバラツキすなわち誤差平方和に分解されるということになる。


次に、因子の平方和と誤差平方和の期待値を求めるが、そのさい、母集団の分散をサンプル分散から推定し(不偏分散)、それを加味することで計算する。そこででてくる、母分散が入らない定数の部分を、平方和から除す。そうすると、因子および誤差の平均平方という値が計算される。このときに使う定数の部分を、自由度という。自由度は、対応する平方和の自由な項の数に一致する。ただし、項を全部足すとゼロになるという仮定だと、項の数から1を引いたような値となる。全体の自由度は、水準間の自由度と誤差の自由度とに分解される。


この2つの平均平方は、因子の効果がないときに、期待値が1となるようになっている。よって、この平均平方の確率分布をFとし、Fの確率分布と、実際のF値とを比較し、そのF値が起こりうる確率を計算する。その確率が十分に低ければ、帰無仮説を棄却することにする。

  • 3.10以上のF値が出る確率:0.05
  • 4.94以上のF値が出る確率: 0.01


1つの水準において複数回の観測をする場合を「繰り返し」というが、繰り返し数が等しい場合と不ぞろいの場合とがあり、それにより自由度の数値も異なってくる。