回帰分析の直感的理解

回帰分析(単回帰分析)は、説明変数をX、予測変数をYとするならば、横軸X、縦軸Yのグラフ(散布図)に示された実際のデータから、XとYの関係をあらわす、もっとも適切な「近似直線」を見つけだすというイメージである。


この「近似直線」を見つけ出すときの基準となる方法の1つが、「最小二乗法」である。これは、あるXについて、近似直線上のYの値と、実際のデータのYの値との違いを示す値(残差)を用いた(残差の二乗)の合計(残差平方和)が最小となるように、近似曲線の傾き(b)と切片(a)を求めるという方法である。


そうなると、素人的には、次のような手順で回帰分析が行われるのではないかと思うだろう。まず、適当に近似曲線を引いてみて、その曲線状のYの値と、実際データのYの値の残差をすべて計算し、それを合計することで残差平方和を求める。次に、ちょっと近似曲線をずらしてみて、同じように残差平方和を求める。このプロセスを何度も何度も繰り返し、残差平方和が最小になる近似曲線を探し出す。


ここで想定しているのは、最小二乗法で単回帰分析を行うためには、個々のデータをすべて用いることが必要だということである。コンピュータを使えば、力ずくで最適解を導き出せるかもしれない。


しかし、実際はもっとシンプルかつエレガントな方法で行うのである。コンピュータを使った試行錯誤なんて必要ないのである。その方法とは、実際のデータの数値はいったん置いておいて、近似曲線のパラメータ(傾きbと切片a)と、各データの値を示す記号を用いて数式化し、数学的操作を行うのである。

その記号を用いて残差平方和を数式で表すと、それは、aとbを含む2次関数として表され、aもしくはbを横軸、残差平方和を縦軸としてグラフで示すと、下に凸の二次間数となる。この残差平方和が最小になるときのaの値とbの値を、偏微分という方法を用いて求めようとするのである。具体的には、下に凸の二次関数のときは、微分した値がゼロとなるときに最小になることを利用する。


そこで、残差平方和の式について、aによる偏微分がゼロになるという式と、bによる偏微分がゼロになる式をつくる。この2つの式に、aとbという未知数が含まれるので、この連立方程式を解く。そうすると、ついに、aとbの数式が導き出される。まず、回帰直線の傾きのパラメータであるbについてみると、数式を展開して得られたbの式は、実は、データ(サンプル)のxとyの「共分散」をxの「分散」で割った値と一致する。このbを式に代入すれば、aの式も自動的に導き出される。なお、aの式には、xとyの平均が含まれる。


ここで重要なのは、最小二乗法による回帰分析によって得られるはずの式のパラメータaとbは、xとyの共分散と、xの分散の値さえあれば計算できるということなのである。別の言い方をすれば、元データの平均と分散と共分散の値さえ計算してしまえば、元のデータは最小二乗法による回帰直線の決定にはもう使わないので捨ててしまっても構わないということなのである。


さらに言えば、分散と共分散は、標準偏差相関係数が分かっていれば計算できる。よって、最終的には、サンプルxとyについて、平均と標準偏差相関係数さえわかれば、最小二乗法による単回帰分析が実行できるということなのである。実際、社会科学系の多くの数量的研究論文では、基本統計量として、変数の平均と標準偏差、および変数間の相関係数行列が報告される。この数値を用いれば、単回帰であったら簡単に復元できるということなのである。


さて、回帰分析の当てはまりの度合いを示す指標を「決定係数」というが、決定係数の計算方法は、次のようになる。まず、データと回帰直前がぴったりと重なる場合、つまり、当てはまりがパーフェクトの場合は、残差平方和がゼロであることを意味する。これを式で表し、整理すると、左辺を右辺で割ることによって、左辺が分数、右辺が1で表される式ができる。これは、当てはまりがパーフェクトのときに右辺の値が1になるという意味である。そうでない場合、つまり当てはまりが悪くなる場合には、値が1より小さくなるように分数を整理すると、この値は、なんと、相関係数の二乗と同じになるのである。


XとYの相関がゼロのときは、回帰曲線の当てはまりの度合いも最低であるはずなので、決定係数が0から1の間で表現されることと併せて直感的に理解しやすい。よって、回帰曲線の当てはまりを図る指標としては、xとyの相関係数の二乗によって示される「決定係数」を用いればよいということになるのである。