正規分布の解剖学

統計学の中でももっとも重要な概念といってもよいのが、正規分布である。正規分布は、世の中の本質を表しているといってもよい概念でありながら、式を見ると複雑でかつミステリアスである。実際に、正規分布の式は、分布の平均をμ、分散をσ^2とすると以下のようにかなり複雑である。


\displaystyle f(x)=\frac{1}{\sqrt{2\pi \sigma^2}}\exp{\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}}


特に、分布の平均が0、分散が1のときを、標準正規分布とよび、式は以下のように上よりもややシンプルになるが、それでもまだ複雑な感じがする。


\displaystyle f(x)=\frac{1}{\sqrt{2\pi}}\exp{\left\{-\frac{x^2}{2}\right\}}


正規分布をグラフで表すとシンプルできれいなのに、なぜ数式で表すと上記のようになるのか。数学的な導出は統計学のテキストに譲るとして、ここでは、正規分布の式がミステリアスに見える要因、すなわち、なぜ、式の中に円周率πが含まれていたりネイピア数(exp)が含まれているのか、さらになぜ平方根が含まれていたりベキ乗が含まれていたりするのか、直感的に理解することを目標に説明することにする。


ここから先は、よりシンプルな標準正規分布を前提に、まず、exp(ネイピア数)の肩に乗っかっているべき乗の部分-(x^2/2) について理解しよう。偉大な数学者ガウスは、3つの仮定から正規分布のようなものを導こうとした。その3つの仮定とは、以下のものである。

  1. 誤差が小さいほうが起こりやすく、誤差が大きいほうが起こりにくい
  2. プラスの誤差が起こる確率と、マイナスの誤差が起こる確率は同じ
  3. 誤差のない真の値は、観測値の平均値で推測する


先の-(x^2/2)は、上に凸の2次関数の特徴を示しており、左右対称のグラフになるような式になる。そしてこれは、上記のガウスの仮定2が満たされるようにできている。また、左右対称で上に凸の2次関数ということは、真ん中が最大値になるが、これは、誤差のない真の値が平均値であるというガウスの仮定3および、誤差が小さいほど起こりやすく誤差が大きいほうが起こりにくいという仮定1と整合する。つまり、-(x^2/2)が数式に含まれることで、平均値が誤差が極小でいちばん出やすい値であって、それが最大値として真ん中にくるグラフを描くことができるわけである。


しかし、もし正規分布の式が、Y = -(x^2/2) のような単純な上に凸の2次関数の式だったら、Xをプラス、マイナス方向に伸ばしていくと、Yの値はマイナスになってしまって都合が悪い。しかし、-(x^2/2)が、正の数であるネイピア数の乗数になっているということは、いくらxの値を大きくしても、Yの値は決してマイナスにはならないことを示している。正の数をマイナス乗しても、それはどんどんゼロに近づいていくだけだからである。よって、乗数として -(x^2/2)を置くことで、正規分布の確率変数はマイナスの値はとらないので都合がよいし、かつXの値がプラスおよびマイナスにどんどん伸びていく(誤差が大きくなる)にしたがって出現する確率が小さくなっていくことも維持されているので、依然として仮定1を満たしているのである。


つまり、正規分布の数式が指数関数でかつ肩の部分に -x^2があるため、yの値は決してマイナスにならず、富士山の裾野のように、0に沿って広がっていくようなグラフが描けるのである。 また、-x^2ということは、0を起点に左右対称のグラフを意味するので、xを大きな値から徐々に小さくしていくと、絶対値0のところで折り返してまたもとに戻っていく。だから左右対称の富士山のようなかたちになる。


ではなぜ、exp(ネイピア数)がでてくるのだろうか。これは、正規分布の数式を導出するときに、微分微分方程式が用いられ、エイピア数は微積分において特殊な性質を持っている(例、微分しても値が変わらない)ことが関係している。数学的には不正確かもしれないが簡単に説明すると、実際に分布のデータがあるときに、ガウスの仮定にしたがうかたちで各データポイントを定義すると、すべてのデータポイントが起こる確率は、それぞれのデータポイントが起こる確率の掛け算で示される。そのような式でもっとも起こりやすいデータポイント(つまり正規分布の真ん中であり、真の値と考えられるもの)を最大化させることを考えると、数式の微分をとってゼロと置く作業が必要となる。このときに、掛け算の式の微分をやりやすくするため、自然対数(ネイピア数が底となる)による対数変換が用いられる。ネイピア数はこの計算過程から出てきたわけである。


つぎに、なぜ、πが登場するのかについて考えてみよう。こちらについては、正規分布の式の積分(マイナス∞からプラス∞)に関連している。正規分布確率密度関数は、数式の特定の範囲の値が起こりうる確率を表しているから、おこりうるすべての事象の確率を足し合わせると1である。標準正規分布でいうと、以下のような式が成り立つということである。


\displaystyle F(x)=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\exp{\left\{-\frac{x^2}{2}\right\}}=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}\exp{\left\{-\frac{x^2}{2}\right\}}=1


正規分布の数式を導く際には、√2πのような値がまだ分かっていないわけだからそこを未知数として扱い、その未知数を、-∞から∞の区間積分が1になるという前提から逆算して導いていくわけだから、これは微分方程式を解くことになる。そのときに、数学的には重積分といったテクニックが登場するわけだが、簡単にいうと、-∞から∞の区間積分をするときに、同じ数式の掛け算をしたうえで積分してまた掛け算をした数式をもとに戻すという作業をする。その際、数式を掛け算したものの積分は、xy平面でいうと、xもyも-∞から∞の区間が対象となるので通常の方法では計算しにくい。しかし、極座標という考え方を用いると、(x, y)を0を中心にぐるりと一回転、すなわち360度回転させると平面全体をカバーできる。そして、360度というのは、極座標では2πである。かなりいい加減な説明ではあるが、このようにして出てきた2πが、同じ数式の掛け算をもとに戻すときに√2πとなり、それが最後まで生き残ることで、正規分布の数式にπが出現するというわけである。