z検定、t検定、回帰係数の検定の関係についての直感的理解

西内(2014)は、z検定、t検定、回帰係数の関係について直感的な理解を助ける説明をしている。まず、検定を考える前に、変数の分布を考える。チェビシェフの不等式によれば、データのばらつきがどのようなものであり、変数の平均値±2標準偏差までの範囲内に、必ず全体の4分の3以上のデータが存在することが「数学的に証明」されている。そして、正規分布に従うデータであれば、平均値±2標準偏差(正確には1.96標準偏差)の範囲内に、95%のデータが存在することが証明されている。この95%という数字が、統計的検定で「5%有意」であるかどうかを判断する際に使われることになる。


つぎに、z検定やt検定を理解する際に重要なのが「誤差」という概念である。西内によれば、統計学における誤差とは、「限られたデータ」から求めた平均値や割合などが、「真の値」からどの程度の確率でどの程度ブレたものになりうるかを示すものである。ここで、平均値の標準誤差を考えてみる。サンプルのデータのばらつきが大きいほど、平均値のブレは大きくなるので、平均値の標準誤差の計算には「標準偏差」が1つのカギとなる。また、サンプルサイズが増えれば、平均値も安定してくるので、ブレが小さくなる。よって、平均値の標準誤差の計算には「データの件数」もカギとなる。よって、平均値の標準誤差が、サンプルの標準偏差を、データの件数の平方根で割って計算されることの意味が直感的に理解できる。割合についての標準誤差も、割合を(0, 1)の2値の変数と解釈すれば、計算は全く同じである。


さて、2つのサンプルの平均値の差が統計学的に意味があるのかを判断する(つまり統計的検定を行う)際には、「平均値の差」と「平均値の差の標準誤差」を計算する。それぞれのサンプルの平均値と標準誤差が分かっていれば、数学的に、「平均値の差」と「平均値の差の標準誤差」も計算できる。z検定やt検定は、帰無仮説が「真の平均値の差=0」だから、2つのサンプルから得られる「平均値の差」が、0を基準とする「平均値の差の標準誤差」の何倍かを考えて、それがどれくらいありえないか(正規分布であれば、1.96倍以上であれば、あり得る可能性が5%未満)をというp値を求めるということである。t検定は、データ数が少なく、数十件程度であってもz検定を行えるようにしたものであるので、数百件から数千件といったデータになれば、t検定とz検定の結果はよく一致するわけである。


単回帰分析の場合、傾きすなわち回帰係数が統計的に意味があるのかを検定する場合、「回帰係数」の「標準誤差」を求める。回帰係数であっても、「元のデータがどんなものであれ、足し合わせれば正規分布に似てくる」という「中心極限定理」が働く。よって、数百から数千件のデータを使って回帰分析を行う限り、100回同様のデータ収集と分析を行って得られる回帰係数の95回ほどは、「真の回帰係数±2標準誤差」の範囲に留まるし、逆に、実際に得られた回帰係数±2標準誤差(つまり95%の信頼区間)という範囲外に真の回帰係数が存在しているという帰無仮説は両側5%の有意水準で「あり得ない」ことになる。また、正規分布よりもt分布を用いた方が正確である。ここで、回帰係数の標準誤差をどうやって求めるのかということになる。


平均値の標準誤差の計算は、「平均値からのズレの二乗」から計算していた。ちなみに、「平均値からのズレの二乗の合計」が「偏差平方和」である。これをデータの件数で割った者が分散である。一方、回帰係数の標準誤差は、「結果変数の予測値と実際の値のズレの合計値をデータの件数で割ったもの」であり「残差平方和」を用いる。残差平方和をデータの件数で割ったものが「残差平均平方」もしくは「平均平方残差」であり。これに「説明変数の値のばらつきの大きさ」を考慮する。よって、「結果変数の予測値と実際の値が平均的にどれだけズレているか」の大きさを、「説明変数がどれだけばらついているか」という大きさに対する比で総合的に判断したのが、回帰係数の標準誤差となるのである。


さて、説明変数が2値である回帰分析(最小二乗法)を考えると、これは、2値の間の平均値の差を検定するz検定やt検定と結果がまったく同じになることが分かる。それは、この場合の最小二乗法は、説明変数が0, 1 それぞれの値のときの平均値を求めることと同じである(平均のときに、当然のことながら平均値からのズレの二乗は最小になるから)。よって、回帰直線は、説明変数のそれぞれの値の平均値を通過することになる。そして、2群の「平均値の差」の「標準誤差」と、回帰係数の「標準誤差」は全く等しい。なぜならば、平均値の差の標準誤差を求めるために必要な、それぞれの群の分散は、群のデータのそれぞれの値と平均値との差のズレの二乗の平均値であるが、回帰係数の標準誤差を計算する際に必要な「残差平均平方」は、回帰直線からのズレの二乗の平均値だが、回帰直線がそれぞれの群の平均値を通るので、これも「平均値からのズレの二乗の平均値」になるからである。


このような説明によって、z検定、t検定、回帰係数の検定の関係が直感的に理解できるのである。