直観でわかる統計学

佐藤(1969)の「推計学のすすめ」は、40年以上も前に書かれた新書ながら、社会科学でも必須の推測統計の部分を、なるべく数式をつかわず、分かりやすいかたちでその基本的な考え方を解説している。本書で扱っており、直観的な理解が可能になる概念は、仮説検定の考え方、自由度とは何か、平均や分散といった基本統計量、そしてt分布、F分布、χ二乗分布などの統計量である。


まず、母集団やサンプル(試料)については、その分布の特徴をひとくちで表現することができれば便利である。それを可能にするのが、分布が特定のかたちである(正規分布)ことを想定すれば、分布を代表する値と、分布のばらつきの値があればよい。それらが「平均」と「分散もしくは標準偏差」である。


仮説検定のプロセスでよく登場する「自由度」は、言ってみればサンプルのうち自由につかえる度合い(数)である。例えばサンプル数=nのときに母分散を推定する場合、母平均が不明なためにサンプル平均を用いると、それでサンプルの情報の一部を利用してしまう。そうすると、(n−1)の値が決まれば残り1つの値も(サンプル平均という情報を用いれば)決まってしまうので、自由度は(n−1)となる。


次に、母集団からサンプルを取り出し、その平均値を求めるということを繰り返すと、サンプルの平均値の分布は、母集団の平均値がサンプル平均値の分布の平均値になり、サンプル平均値の分布のばらつきは、サンプルを取り出す回数を増やすほど母集団の平均値を予測する精度が高まることから、ばらつきが小さくなる。このようなサンプル平均値の分布を規準化したものが「t分布」である。t分布は正規分布と似ているものの少し性質が異なることが知られている。


F分布というのは、一言でいえば異なる分布の「分散の比」である。異なる分布の分散の大きさが同じであれば、Fの値は1になる。F分布は歪んだかたちであり、だいたいが2以下であって5や6の値をとることがほとんどない(よってそれらのF値は統計的に有意であることが多い)。


χ二乗というのは、「食い違いの測度」である。すなわち、期待される値と実測値がどれだけ食い違っているかを表すす値である。特定のセルが存在する場合の分布の食い違いを求めるさい「期待値から実測値を引いた値」を二乗して総和を求め(二乗しないと総和がゼロになってしまう)、尺度をそろえるために期待値で割ることによってχ二乗が求められる。


tやFやχ二乗は、統計的仮説検定の際に用いられるが、統計的仮説検定の多くは、帰無仮説が捨てられるかどうかを検討する。帰無仮説は、それが否定されることによって対立する仮説が支持されるような仮説である。仮説のうち、捨てやすい仮説を帰無仮説というかたちで設定する。例えば「異なる集団の平均値の差が等しい」という仮説は帰無仮説である。等しいと仮定した場合に得られる統計量(例、t値)の出現確率が非常に小さい場合、それはめったに起こらないと解釈することによって、帰無仮説を捨てる(すなわち対立仮説が支持される)ことになる。ただし、めったに起こらないからといって、それが偶然起こったわけではないとは断言できないので、常に判断を間違う危険性がある。その設定(例えば5%水準)を危険率というのである。