ブートストラップ法の直感的理解

経営学においても近年よく用いられる統計手法として、ブートストラップ法(bootstrap method)というのがある。これは、リサンプリング(再抽出)という統計手法の1つで、似たようなものに、ジャックナイフ法というのもある。ブートストラップ法とは、何をねらいとして、どういうロジックに沿って行う統計手法なのだろうか。この点にかんして三中(2018)は、このような手法を直観的に理解するのに役立つ解説をしている。結論じみたことを先に言ってしまうと、ブートストラップ法を含むリサンプリング統計学のポイントは、無作為サンプルを擬似的な母集団に見立て、サンプルに揺さぶりをかけることで擬似的なばらつきを生み出し、それを利用して統計的な推論を行うということである。


そもそも、統計分析が目的とする統計的検定や推論は、母集団から無作為に抽出したサンプルを対象とした分析により、母集団の特徴を推測することを指す。しかし、当たり前だが、サンプルから導き出される統計量(例えば標本平均)は、本当に知りたい母集団の統計量(例えば母平均)と一致するはずがないため、どれくらいそれが正確に推測できているのか、すなわちその誤差も推測する必要がある。伝統的なパラメトリック統計学では、母集団が正規分布をしていると仮定できて、かつ、推測する統計量が比較的単純な場合は、統計学で証明されている法則を用いて「計算」で求めることができる。例えば、サンプル数が十分あるとき、中心極限定理により、サンプル平均の確率分布は母集団平均と標本分散をサンプル数で割った値を分散とする正規分布に従うことがわかっているので、それを利用して計算する。


しかし、母集団の分布がわからず、正規分布であると仮定できない場合や、対象となる統計量が複雑である場合には、母集団の特徴、例えば母平均の推定値とその誤差をサンプルを用いた計算によって推測することができない。このような場合、母集団から何度も何度もサンプルを取り直して、その都度計算したサンプル統計量の実際の分布を調べれば、母集団の分布を推測することができる。いわば、統計学的定理からエレガントに計算して推測するのではなく、泥臭い単純作業を繰り返しながらマニュアル的に推測するわけである。しかし、母集団から何度も何度もサンプルを取り直すことなど非現実的で、ほとんどの場合、実現不可能である。しかし、このようなマニュアル的な考え方にヒントを得て、発想の転換を行うことで編み出された方法が、リサンプリング統計学であり、ブートストラップ法なのである。


つまりどういうことかというと、母集団から何度もサンプルを取り出すのではなく、無作為抽出されたサンプルを母集団に見立てて、あるいは擬似的な母集団と想定して、そこから無作為にサブサンプルを取り出すことを繰り返すということなのである。乱暴な言い方をするならば、実際のサンプルを母集団にすり替えてしまい、そこからサブサンプルを何度も抽出することで、先ほどの「母集団から何度も何度もサンプルを取り直す」というロジックをそのまま拝借して、母集団の統計量や誤差を推測してしまおうとするわけである。このプロセスをリサンプリングという。母集団に関する推定値と誤差を計算するときに、理想形は「母集団から何度も何度もサンプルを取り直すことでバラツキを得る」のに対し、リサンプリングでは「無作為サンプルを揺さぶってたくさんのサブサンプルを生み出すことでバラツキを得る」わけである。


ブートストラップ法は、リサンプリングの中でも、重複を許して無作為同数リサンプリングを反復する方法で、重複を許さずに無作為リサンプリングを反復する方法がジャックナイフ法である。どちらにせよ、パラメトリック統計学のように、母集団の確率分布やモデルを仮定する必要がないので、その場合をノンパラメトリックブートストラップ法というように言ったりする。ただし、母集団の確率分布やモデルを仮定したリサンプリングも可能で、この場合はパラメトリックブートストラップ法となる。いずれにせよ、このような、一見するとエレガントでない泥臭いやり方で母集団の分布や統計量を推定しようとする方法が近年になって増えてきているのは、ロジック的には単純であることに加え、コンピュータ技術の発展で、このような泥臭い反復が簡単にできるようになったという時代背景がある。乱数を用いた試行を繰り返すことにより知りたい値の近似解を求めるモンテカルロ法も同じような時代背景により普及してきたわけである。


このように、リサンプリング統計学やブートストラップ法は、やや「ずるい」やり方である。ずるいやり方であるがゆえに起こりうる問題点がある。それは、当然のことながら、無作為サンプルを母集団にすり替えてしまうところに起因するものである。つまり、そもそもサンプルが母集団の特徴を反映していなかったら、リサンプリングの前提が崩れてしまい、母集団を推測する際のロジックに破たんを来してしまうのである。よって、ブートストラップ法を用いる場合には、このような問題点をよく理解したうえで、無作為抽出を厳密に行い、十分な数のサンプル数を確保することによって、できるだけ母集団に近い特徴をもった無作為サンプルを入手する努力をすることが大切だといえよう。