統計学はどのように世界を理解しようとするのか

大塚(2020)によれば、統計学、とりわけ推測統計は、「帰納論理」「帰納推論」を通して世界を理解しようとする学問であり、統計学自身が、一定の存在論的前提に立つ科学認識論でもある。 一般的に、与えられた経験、観測、データをもとにして、まだ観測されていないし知られていない事象を推測するような帰納推論を可能にするためには、ヒュームの言うところの「自然の斉一性」を仮定することが必須となる。自然の斉一性とは、過去、未来を通して自然は同じように働くだろうという仮定を指すが、統計学では、この仮定を確率論を基礎とする「確率モデル」として定式化したうえで、帰納推論を数学的に精緻化することで世界認識の厳密性と正当性を高めている。なお、ここでいう確率とは、私たちがそこからデータを取ってくる源として想定される世界(母集団ないし標本空間)を特徴づける概念である。

 

そもそも、私たちは世界を「ありのまま」に認識することはないと大塚は言う。むしろ世界は、特定の単位に区分された状態で私たちに現れてくるという。世界から切り離されて眼前に現れる事物はそれぞれ固有の特徴を持っており、その性質に基づいて私たちは推論を行う。このように、世界に存在していると私たちが想定し、それに基づいて思考や推論を行うような離散的な単位を「自然種」と呼び、科学的思考の土台となっている。例えば化学者は様々な物質を元素という化学種に分類して、それらの元素が持つ諸特性から化学反応を説明するし、生物学者は、生物を異なる種に分類して、それぞれの種に特有な生態や特性、遺伝的機構などを明らかにする。各学問分野が探求すべき「世界」が、当該分野における自然種によって構成される、あるいはそのようなものとして把握されるとするならば、統計学(推測統計)では、様々な確率分布という「確率種」が自然種の役割を果たすと大塚は説く。

 

大塚によれば、推測統計における確率種は、二項分布、正規分布などの「分布族」と、そのパラメータによって特徴づけられる。分布族は、化学でいうところの周期表のようなものだと考えればよい。そして、統計学者は種々の帰納問題を特定の確率種に還元、帰着させることで推論を行う。つまり、推測統計では、与えられたデータの背後に何らかの構造を持った存在物を借定し、それを確率モデルとして表現し、その存在物を帰納推論を通じて推定するわけである。先述のとおり、確率モデルとはデータの背後にあると想定される「自然の斉一性」を確率論の言葉で表現したものであり、帰納推論を行うための前提条件を与える。

 

自然の斉一性としての確率モデルの想定を、「独立同一分布(independent and identically distributed: IID)」と呼ぶ。IIDという自然の斉一性の仮定があるために、ランダムサンプリングによって観測されたデータから、大数の法則中心極限定理などの大標本理論を用いて背後にある確率モデルについての帰納推論を行うことができるわけである。さらに統計学では、ある一定の範囲の分布に考察対象を絞り、IIDという自然の斉一性を仮定するのみならず、その分布がどのような種類のものかについて事前に当たりをつけるという点でより強い仮定を敷くと大塚はいう。このようにして絞り込まれた分布の集合を「統計モデル」という。

 

確率モデルがデータの背後にある世界の真なるあり方を確率の用語でモデル化したものであるのに対し、統計モデルはそのように存在が仮定された確率分布に対して私たちが立てる仮説である。よって、私たちが「真なる世界」として仮定する「確率モデル」を適切に近似しようとするのが「統計モデル」である。つまり、確率モデルは真なる世界に帰属していると仮定されており、統計モデルはそれを近似するための一種の「道具」として想定されている。統計的推論は、真なる世界の特徴として仮定された確率モデルのあり様について仮説(統計モデル)を立て、与えられたデータをもとにそれらの仮説を評価、判定することを通じて帰納推論を行う。例えばパラメトリック統計においては、あらゆる統計的仮説を分布のパラメータについての仮説であると捉え、このパラメータ仮説をデータから推論することによって帰納的推論を行うのである。

 

以上をまとめると、統計学(推測統計)は、独立同一分布(IID)という最低限の自然斉一性に関する存在論的前提に基づく確率モデルを想定し、観測されたデータから帰納推論を通してその確率モデルを理解しようとする。しかしより現実的に、有限サンプルでの帰納推論とその精度を高めるため、具体的にどのような規則性/斉一性が成立しているのか、その種類を分布族として特定する。これは、IIDのみという弱い存在論的前提に対して、より強い存在論的前提を立てることになる。そして、より強い存在論的前提を立てるほど、より幅広く効果的な帰納推論が可能になっていく。ただし、自然種の存在を仮定し、世界は自然種によって分節化されていると考えるような存在論的な前提は、マッハような実証主義者から見れば非科学的だと糾弾される。しかし、自然の斉一性も含め、経験に基づかない存在論的前提を置かなければ、帰納的推論自体が成り立たない。よって、IIDは帰納推論を行うための最低限に必要な条件だとして、それに加えて確率種(分布族)のような強い存在論的前提を置くほど効果的な帰納推論が可能になるが、その反面、そのような前提を置くこと自体が非科学的だという批判の対象にもなるというトレードオフが存在しているといえよう。

文献

大塚淳 2020「統計学を哲学する」名古屋大学出版会