科学は、数学のように論理のみで閉じた世界ではなく、理論や仮説を常に経験(証拠)と照らし合わせることで発展する。観測から得られる経験や証拠には確率的要素を排除できないため、科学的方法の根幹を支えるのが、統計的推論であるといえる。研究の過程で得られた証拠によって、特定の理論や仮説が正しいあるいは真である(尤もらしい、確からしい)といえるのか、あるいは、対立する理論や仮説があるときに、得られた証拠によってその優劣をどう判断するのか。そこには、統計的推論が必要不可欠なわけである。統計的推論を一言でいえば、科学において証拠の果たすべき役割は何かについての推論である。しかし、この統計的推論の方法には異なる考え方があって、現在に至ってもどれが最も適切なのかについての結論が出ているわけではない。
ソーバー(2012)は、この統計的推論を、大きく「ベイズ主義」「尤度主義」「頻度主義」に分類し、それぞれの推論の仕方を丹念に説明している。それぞれについて説明する前に、証拠と統計的推論との関係を、ソーバーが紹介するロイヤルの3つの問いで理解しよう。1つ目は、現在の証拠から何がわかるか(例、理論や仮説との関連性)、2つ目は、何を信じるべきか(例、理論や仮説が正しいか否か、別の理論のほうが適切か否か)、3つ目は、何をするべきか(例、追試をする、論文を書く)である。より現実的な話でいうならば、1つ目は、ある病気の検査を受けた時の結果(例、陽性)が出たときに何がわかるか、2つ目は、その証拠によって自分が病気であると信じるか、3つ目は、その結果、治療を開始するか、あるいは再度検査を行うかなどに例えられる。
まず、ベイズ主義から始めよう。ベイズ主義では、科学の目的を「証拠が手元に与えられたときに、真であることが確からしい理論はどれか」を見つけ出すことだとソーバーはいう。とりわけ、ロイヤルの2つ目の「何を信じるべきか」について、ベイズ主義は命題を信じるか信じないかといった2分法的な概念を、信念の度合いという概念に置き換え、その信念の度合いに対応する確率を当てはめる。具体的には、新たな証拠が得られた際に、ベイズの定理に基づいて「事前確率」と「尤度」を組み合わせて「事後確率」を求め、さらには、もともとの事前確率を得られた事後確率で置き換えることで更新し、別の新たな証拠が得られた際に、更新された事前確率と尤度を組み合わせて事後確率を求める。このような繰り返しの方法に基づき、ベイズ主義では、ある命題の確証とは、その命題が正しいという確率を上げることだと定義し、反証はその確率を下げることだと定義する。ベイズ主義は、「帰納によって知識を得る」という経験論哲学の考え方を進めた点で、科学的推論の理解に大きな貢献をしているとソーバーは指摘する。
つぎに、尤度主義についてである。ベイズ主義でも登場した「尤度」とは、検討したい命題が真であるときに特定の事象が起こる確率(条件付き確率)である。ここで、統計的推論において、検討したい命題は真であるかどうかは分かっていないという点を忘れてはいけない。仮に検討している命題が真だとするとある事象がどれくらいの確率で起こるかということに関する知識である。例えば、自分が病気か否かが分からない状態でも、病気であったときに検査で陽性がでる確率が分かっている場合、これが尤度に相当する。ベイズ主義では、事前確率や尤度が経験より正当化できる場合は問題ないが、例えば事前確率に主観的要素が多く入ってくるならば、ロイヤルの1つ目の「証拠から何がわかるか」について慎重にならざるを得ないことをソーバーは示唆する。
そこで、尤度主義では、明確な尤度を持つ仮説のみを互いに比較することで判断をしようとする方法をとる。例えば、得られた証拠に対する仮説Aと仮説Bがあるとするならば、尤度A(仮説Aが正しいときに証拠が生じる確率)と尤度B(仮説Bが正しいときに証拠が生じる確率)を比較し、尤度A>尤度Bであるならば、仮説Aを選択する。正確性の高い検査(尤度が既知である)で、ある病気の陽性が出た場合、その病気にかかる確率が事前に分かっている場合(例えば難病だがかかる確率は非常に低い)は、ベイズ主義に基づいて事前確率と尤度を組み合わせて、なおその病気にかかっている確率は低いという判断を下せる場合があるが、事前確率が分からない場合には、あえて主観的な事前確率を用いることをせず、尤度主義によって、尤度A(病気にかかっていた場合に陽性になる確率)と尤度B(病気にかかっていない場合に陽性になる確率)を比較して、病気にかかっているという仮説を選択するという手順になる。
頻度主義は統計学では最も標準的な考え方ではあるが幾分分かりにくい。ソーバーによれば、頻度主義は1つに統一された理論ではなく、互いにゆるやかに結びついた様々な手法の寄せ集めである。ただ、頻度主義(そして尤度主義でも)では、ベイズ主義のように、仮説に確率を割り当てる(仮説が正しい確率はどれくらいか)というような問いは認めない。むしろ、規則が繰り返し得られたときに得られる、よい結果(例、正しい判断)と悪い結果(間違った判断)の(期待される)頻度を吟味し、悪い結果(間違った判断)に陥る頻度が小さいように推論を進めていく方法を重視する。ソーバーは、フィッシャーの有意検定という考え方と、ネイマン=ピアソンの仮説検定理論をまずは紹介している。
ソーバーの解説によると、Hを仮説、Oを観察で得た証拠とするならば、フィッシャーの有意検定は、モーダス・トレンス(後件否定:「HならばO」「Oでない」→「Hでない」という推論規則)を確率論的に拡張したものに基づいている。すなわち、HならばOが起こる確率が非常に高いなかで、Oを否定する証拠を得た場合、Hを偽とみなす(棄却する)のである。確率論的モーダス・トレンスは演繹的には妥当とは言えないので、確率の境界線をどこに引くのかが問題となる。つまり、Oの否定がHを棄却することを正当化するために、その証拠が得られる確率がどれくらい低いのかを決めなければならないということである。この問題はそう簡単ではないとソーバーは指摘する。
ネイマン=ピアソンの仮説検定理論は、「謝る確率が大きいものよりも、小さいもののほうがよい」という自明の理が出発点になっているとソーバーはいう。具体的には、帰無仮説が棄却されればその対立仮説が支持されるという構図において、第1種の誤り(誤って帰無仮説を棄却してしまう誤り: その確率=α)と第2種の誤り(あやまって帰無仮説を支持してしまう誤り:その確率=β)の2つの誤りを考え、その誤りの深刻さの度合いによってどちらかの誤りを冒す可能性を最小限にとどめることを優先したうえで、もう一方の誤りの可能性を減らすようにする。これについてネイマン=ピアソンの仮説検定理論では、まずαの値を設定し(例えば、0.05)、次いでβの値を最小にしようとする。ただし、この考え方は、異なる仮説を比較したり選択したりするような目的にはあまりフィットしない。
異なる理論やモデルの比較に関しては、ソーバーは、ネイマン=ピアソン流の標準的な方法として尤度比検定というものをまずは紹介する。これは、異なる理論やモデルの尤度の比を用いて、この比がある恣意的に決められた有意水準より小さいかどうかを検定するというものである。その後ソーバーは、頻度主義に基づくモデル選択理論を詳しく説明し、赤池の定理と赤池情報量基準(AIC)について説明している。AICはこちらでも説明している。AICは、赤池の定理において、頻度主義者が重視する統計的性質である長期的試行での「不偏性」を推定手続きに含めている点で、頻度主義に含めることができることをソーバーは示唆する。AICは、既存のデータに適合したモデルが将来のデータをどれくらい正確に予測できるかという問いを包含している。AICによれば、偽のモデルが真のモデルよりも予測正確性が高いことも考えられるため、道具主義(科学の目的は予測の正確な理論を見つけること)と実在論(科学の目的は真なる理論の発見にある)という哲学的議論に新たな息吹を吹き込むのだという。
さて、ソーバーによる「ベイズ主義」「尤度主義」「頻度主義」の関係性の理解をまとめると、科学は常に「証拠から確かに言えることは何か」を本題として扱うべきだという徹底した「客観主義」の視点から、「尤度主義」が「ベイズ主義」と「頻度主義」の中間地点に立ち、それぞれに対して共同戦線を結ぶことが可能であるということである。尤度主義とベイズ主義の共同戦線とは、ベイズ主義における「事前確率」が客観的に与えられる場合には、尤度主義はベイズ主義に従うべきであり、事前確率が客観的でない場合には、尤度主義が前線に出ることである。この場合、問いが「どの理論が真であることが確からしいか(何を信じるべきか)」から「どの理論がその証拠によって最も裏付けられるか(何がわかるか)」に移るという。
尤度主義と頻度主義の共同戦線は、とりわけ赤池情報基準(AIC)との関連性にある。尤度主義では、仮説に基づく観察結果の確率を示す尤度の特定は「単純仮説」では可能であるが、求める必要のある尤度が無数に存在するような「複合仮説」では不可能である。一方、AICでは「真理とは」という問いと「正確な予測とは」という問いの両方を扱うことで複合仮説を扱うことが可能である。このような複合仮説への対処が必要になるときは、AICが尤度主義との共同戦線に現れることになるとソーバーは考えているという。この場合、問いが「異なるそれぞれの仮説が真であることに対し、証拠がどのような関係を持つか」から「証拠に基づけばどのモデルが最も予測正確性がよいのか」に移るという。
文献