なぜ世の中の分布の多くは正規分布に従うのか

正規分布というのは、富士山のように頂点があって裾野が広くて左右対称な分布である。そして、神秘的なことに、世の中の多くの分布が正規分布に従うといわれている。例えば、小学生や中学生の同一学年に全国学力テストを一斉に行ったとすれば、得点の分布は平均点を頂点に正規分布に従うであろう。では、なぜ、世の中の多くの分布が正規分布に従うのか。これは、経験則でそんなことが言えるというレベルなのか。いかにも不思議な、神秘的な話なのか。


実はそうではない。これはれっきしとた科学的・数学的思考から導き出された世の中の原理なのである。なんの根拠もない経験則なのではなく、きちんとした根拠から論理的に導き出した結論なのである。では、どのような思考によって導き出されるのか。そこで前提となるのが、まず、科学的思考には、測定と数学が必要不可欠であることである。別の言い方をすれば、科学的思考は、世の中を、数字で表そうとすることから始まるのである。であるから、「世の中の多くの分布」といった瞬間に、何かを数値で測定し、数えていることが前提となっている。「この世は数でできている。だからこの世は数式で表すことができる。数学は宇宙の記述言語である(という思い込み)」から出発しなければならない。


そして、世の中の多くの分布が正規分布であるということを示すために決定的に重要な前提が「世の中で起こることはすべてが確率の問題である」という思想である。「この世に絶対というのはない。けれども、この世で起こることは確率として予測することができる」というものである。これは前提にすぎないから、この命題自体の真偽は検証できないことには注意が必要である。この世に対するこのような前提があるから、統計という学問は、確率論から始まるのである。


そこで、確率論が、この世で起こる事象の分布を理解するための基礎となる。この世で起こることは、神様がサイコロを振ったり、コイン投げをしているようなものとして理解する。冒頭に挙げた、小学生や中学生の同一学年に全国学力テストのようなものも、確率の問題として理解する。すなわち、問題が全部で100問あるとすれば、各問題の正答率は、ある確率で表現することができる。わかりやすく、その確率が50%であると仮定しよう。つまり裏か表かのコイン投げと同じである。100問すべてが独立事象であるとして、1人のテストの得点を、コイン投げを100回やって表が出た数だと仮定してみよう。


そうすると、統計学で偉大な「中心極限定理」により、学生個人を1つのサンプルとし、各々のサンプルの平均値(ここでは平均値を個人のテストの得点になぞらえる)の分布は、正規分布に従うことが、「数学的に証明」されているのである。つまり、テスト結果の分布は、置いた仮定が正しければ、正規分布に従うことが証明されている。もちろん「1人のテストの得点を、コイン投げを100回やったもの」と仮定することは、現実的にはかなり無理がある。けれども、これはあくまでたとえ話であることに注意されたい。


確かに、独立した100回のコイン投げとしてテストの得点を理解すれば、高得点を取る確率は、ほとんどがコインの表しか出ないような確率なのでかなり低く、よって正規分布の広い裾野の端のほうになることは予測できる。テストをコイン投げの連続のように理解すれば、平均値は50点前後となるだろうし、50点前後の学生がもっとも多い度数を占めることになるだろう。


けれども、現実には賢い子供がいて、満点に近い得点を取ることが可能であり、この場合、各問題は独立試行とは言えないという反論は当然なされうる。しかし、そのような賢い子がどうして存在するのかというのも、これまた別の確率的事象なのである。例えば、生まれつき賢い子供が生まれる確率、家庭が裕福でよい教育がなされる確率、本人が勉強に関心がある確率、良い教師に巡り合う確率など、ある程度独立性のある複数の確率事象の繰り返しであると理解してもよいだろう。テストで高得点をとれる学生というのは、これらの異なるコイン投げを何度かやった結果、ほとんどが表だったような学生だと理解するのである。この世の事象が確率的なものであるという思想はそういうことである。


世の中の多くの事象が、サイコロやコインを何度も投げた結果の平均値のようなものであると捉えるならば、そのような平均値の分布は正規分布に従う(なぜならばそれが数学的に証明されているから)ということなのである。もちろん、上記のような前提が常に正しいわけではないから、世の中には別の分布もよく観察されるということなのである。その代表例が、べき乗分布なのである。べき乗分布の場合は、おそらく異なる仮定が成り立つ状況下で、どのような分布になるのかを数学的に探究すれば導き出せる分布だということである。