ベクトルと三角関数を用いた相関係数の理解

相関係数は、2つの変数の関係を表す統計指標である。XとYの2つの変数があるとすると、Xが上がった場合にYも上がる度合が強ければ、XとYの相関は正であり強く、Xが上がったときにYが下がる度合いが強ければ、XとYの相関は負で弱い。Xが動く方向性とYが動く方向性に関連があまりなければ、相関は低いことになる。このような2変数の共変動をもっとも簡便に計算するのが、共分散であって、X、Yそれぞれについて、実際の値とそれらの平均値との差を計算し、そららを乗したものの合計をサンプル数で割ったものとして示される。ただし共分散だと、値の絶対値が尺度の大きさに左右されてしまい他との比較が難しいので、共分散をXの標準偏差とYの標準偏差で割った値としての相関係数がよく用いられるわけである。そうすることで、相関係数は-1から+1までの値に限定されるので、他の相関係数と比較して、関係性の度合いを判断しやすい。


さて、西内(2017)は、この相関係数について、ベクトルの概念を用いた理解の仕方を解説している。ベクトルを用いることで、相関係数がより簡潔に表現でき、かつ簡潔に理解できるのである。実際、相関係数を数式で表すと、シグマがたくさんでてきて複雑に見える。しかし、ベクトルを用いて相関係数を表現すると、三角関数のコサイン(cos)を用いて簡潔に表現できる。


まず、ベクトル概念を用いた相関係数の定義は、「XとYそれぞれの平均値からのズレをベクトルとしたときに、これらのベクトルのなす角のコサインである」というものである。つまり、散布図で示されるようなデータがあるとすると、実際のXからXの平均を引いた値の集合を一方のベクトルとし、実際のYからYの平均を惹いた値の集合を他方のベクトルとして、この2つのベクトルの角度を基準として計算したコサインの値(角度をθとするならば、cosθ)が相関係数に他ならないというのである。そのような簡潔な表現で相関係数を解釈すると、まず、cosθは、-1から+1までの値しかとらないので、相関係数と同じである。さらに、2つのベクトルが同方向にぴったり一致しているならば、それはcosθ=1を意味しているから、相関係数は1である。逆方向にぴったり一致していればcosθ=-1で、相関係数は-1である。この2つのベクトルが直行しているとき、すなわちどちらの方向についても類似していない場合は、cosθ=0なので、相関係数は0である。そして、例えば強い相関といわれている0.7という相関係数は、cos(π/4)≒0.71なので、2つのベクトルの角度が同方向に約45度ということを意味しており、確かにやや強い関係があるという判断になる。


ではなぜ、シグマを使った複雑な式で表現される相関係数が、2つのベクトルの角度のcosθというかたちで非常に簡単に表現できるのだろうか。それはまず、相関係数の分子を構成する共分散が、さきほどの2つのベクトルの内積と同じ値であるからである。そして2つのベクトルの内積は、公式を視ればわかるように、2つのベクトルの大きさをかけたものに、cosθをかけたものに他ならない。そして、相関係数の分母を構成する、2つの標準偏差の積は、2つのベクトルの大きさの積と同じ値である。であるから、相関係数の式は、2つのベクトルの内積を2つのベクトルの大きさで割ったものにぴったりと一致するというわけである。驚くことに、計算の方法がまったく一緒なのである。そして、その計算の結果、分子と分母が約分され、見事にcosθのみが残るから、これが相関係数だと言えるのである。