統計学における自由度と不偏分散の直感的理解

統計学の勉強を始めて最初のほうでつまづく分かりにくい概念が「自由度」である。1つの例が、母平均・母分散が不明な母集団から標本を抜き出した場合に、母分散の推定値となる「不偏分散」を求める場合である。


まず、標本分散と不偏分散の定義的および数式的な違いを理解しておく必要がある。標本分散は、文字通り「標本の分散」であるから、偏差平方和(平均と実測値との差の総和)を標本数(n)で割る。いってみれば、標本値における偏差(標本平均からのずれ)の平均値である。これに対して、不偏分散は、母分散の不偏推定量(バイアスがない推定値)であるという意味であり、偏差平方和を(n-1)で割った値になる。


ここで素人的には「なぜ不偏分散を求めるときはnではなく(n-1)で割るのだろうか」という疑問が出てきてしまうのである。さらにいうと「(n-1)の1に意味があるのだろうか。2とか3ではダメなのか」というような疑問が出てくる。これについては、統計学では厳密なかたちでその理由が説明できる。簡単にいえば、標本分散の期待値を計算すると、母分散の推定値とは一致せず、若干小さくなってしまうが、不偏分散の期待値を計算すれば、母分散の推定値に一致するのである。しかし、もっと直感的に(n-1)で割る理由を理解できるのならば、それを先に理解しておくことが有効であろう。


まず、ここで出てくるのが「自由度」という概念である。自由度とは、自由に動かせる数値ということである。母集団からランダムに標本を抜き出すとき、そこから得られる値はすべて、母集団に属する値から自由に選ばれる。なので、標本数(n)の値は、標本を再抽出するごとに入れ替え自由である。母平均の推定を行うときは、平均の計算に使われる値は、標本数だけ自由に選ばれるので、実測値の総和を(n)で割った標本平均が、母平均の推定値となる。こう考えてもよい。標本というのを「1つずつ母集団から抜き出すもの」と考え、これを続けて標本をどんどん大きくしていくとどうなるか。当然だが、母集団と等しくなる。だから、その途中であっても、標本の平均は、母集団の平均の推定値と考えてよい。バイアスがないから、不偏推定量である。


しかし、標本分散の場合には、標本値と標本平均を用いた偏差平方和を計算に用いている。この場合、定義より、n個の偏差の総和はゼロである。ということは、(n-1)個の偏差は自由に入れ替え自由だが、後の1つは、(n-1)個の偏差の値が決まれば、自動的に決まってしまう。よって、こういう場合、自由に値が決まるのは(n-1)個なので、自由度が(n-1)というのである。ではなぜ、母分散の推定値である不偏分散を計算するときに、nではなく、偏差平方和を自由度(n-1)で割るのだろうか。


この理由は、不偏分散の計算に、標本平均を用いているからである。もし、母平均が分かっているのであれば、先ほどの例のとおり、標本というのを「1つずつ母集団から抜き出すもの」と考え、これを続けて標本をどんどん大きくしていくと母集団と等しくなるから、その途中であっても、標本の分散は、母集団の分散の推定値と考えてよい。しかし、実際の計算に使用しているのは、母平均ではなく、母平均の推定量の標本平均である。標本平均はあくまで母平均の「推定値」であって母平均と同値ではないので、誤差が含まれているはずである。だから、標本分散は、その誤差の分だけ、母分散よりも小さいはずである。これは、常に標本分散が母分散よりも小さいというバイアスを意味するので、そのバイアスを取り除くために、標本分散の期待値の数式に、標本平均と母平均とのずれを反映させ、そこから母分散を逆算する必要がある。


では、どのようにして標本平均と母平均とのずれを反映させるのか。そこで用いるのが、標本平均が含む誤差に関係する標本平均の分散は母分散をnで割った値となるという考え方である。nが十分に大きければ、標本平均の分散(もしくは誤差)はゼロに近づき、標本平均は限りなく母平均に近くなるが、nが小さい場合には、標本平均の分散を考慮する必要がある。よって、標本分散の期待値は、母分散よりも標本平均の分散(母平均/n)だけ小さくなると考える。つまり、標本分散の期待値=母分散−母分散/n である。これを書き直すと、標本分散の期待値 =(1 - 1/n)×母分散 = (n -1)/n ×母分散である。ここから母分散を逆算すると、母分散= n / (n-1)×標本分散の期待値である。すなわち、母分散の推定量=n / (n-1)×標本分散である。これは、標本分散の分母のnをn-1に置き換える演算に他ならない。このように計算すれば、平均平方和を自由度(n-1)で割った値の期待値が、母分散にぴったりと一致するのである。