統計分析で「p < .05」にこだわることが不適切な理由

経営学や心理学を始めとする多くの社会科学で仮説検証型の実証研究を行うとき、p値が重要な役割を果たしているように思える。とりわけ、「p < .05」が「統計的に有意」であり、「p = .051」のような場合は一般的には有意ではないとされることから、分析を進める研究者はこのp値で一喜一憂したり、論文を審査する査読者や読者は、p値あるいはアスタリスク「*」に着目することで研究の良し悪しを判断したりする。しかし、最近は、このような傾向が不適切であると警鐘を鳴らす動きが増えてきている。

まず、帰無仮説の棄却域について「間違って帰無仮説を棄却してしまう確率=5%水準」を用いるとして、「p < .05」だと仮説が支持され、「p ≧ .05」だと仮説が支持されないというのは、科学的な根拠は何もなく、単なる慣例にしかすぎない。であるから、p = .05付近で研究者が一喜一憂するというのは、本来ならば滑稽なことと言わざるをえない。たかだかpの値が0.001程度違うだけで結論が180度変わることなんて全く科学的でないからである。また、ときどき、p値が非常に小さいため、仮説で予測した度合いが強いと考える人がいるが、これは統計学的に間違った解釈となる。p値の大小と、予測の度合い（効果の強さ）とは次元が異なる。

p値に関する警鐘の最近の議論でもっと重要なのは、「帰無仮説を用いた検定」の論理そのものに問題があるという見解である。「帰無仮説を用いた検定」の考えは、統計的的検定の定石でもあり、背理法のように間接的に仮説を支持しようとするロジックである。つまり、本来検証したい仮説とは逆の「帰無仮説」を設定し、その仮説が起こる確率が非常に小さい（つまりp値が小さい）ならば、帰無仮説を棄却する（否定する）ことによって、本来の仮説が支持されるのである。直接証明するのが難しい数学の問題には背理法を用いるのが定石であるのと同時に、この「帰無仮説を用いた検定」も、間接的な論理によって巧みに本来の仮説を支持しようとするものなのであるが、間接的であるがゆえに分かりにくいのと同時に、この考え方自体が不適切だという見方もあるのである。

例えば、よく用いられる2群の平均値の差のt検定を考えると、帰無仮説は、「2群の平均値が等しい」というものになる。これが否定できれば、「2群の平均値は異なっている（あるいはどちらかが大きい）」という仮説を支持できる。しかし、よく考えてみると、オリジナルな仮説も、帰無仮説も、それだけでは無意味である。例えば、母集団すべてを対象にデータを取得したとしても、2群の平均値が同じなんてことはほどんどありえない。ほとんどありえないことを帰無仮説にしてしまったら、それはほとんどありえないから棄却するということになるので、はじめからオリジナルな仮説が支持されることが予定調和として決まっているようなものなのである。

このことを具体的に説明すると、例えば、ある仮説を統計分析したところ、p = .051で惜しくも統計的に有意とはならず、仮説は支持されなかった、だから論文としての価値はないとある研究者が落胆しているとしよう。しかし、このケースの場合、サンプル数を増やしていけば、かなりの確率でp値が下がり、結果的に「p < .05」を達成するものと思われる。つまり、分析結果を見て落胆するべき本当の原因は、仮説が支持されないからではなく、サンプル数が少ないからということなのである。しかし、どちらにせよ、そんなことで落胆するのは科学的にみてナンセンスだということなのである。科学者が気にするべきことは、仮説が本当に妥当かどうかであって、p値が0.05以下かどうかではないのだから。

ではどうすればよいのか。「一般的にAよりもBが大きい」とか、あるいは因果関係を絡めて「AはBに影響を与える」という仮説をつくったとしても、上記のような帰無仮説を用いた検定をp値にこだわることは無意味となる可能性が高い。大切なのは、その差とか効果が、どのような意味を持つのかということである。経営学でいえば、施策Aが企業業績Bに影響を与えるという仮説を立てたとしても、その影響が、10円だったら意味がないのである。施策Aをやった企業と、施策Aをやらなかった企業では、平均的にみて利益が10円違うという結論がデータから導かれたとしても、なんの意味もない。帰無仮説は、「施策Aをやった企業と、施策Aをやらなかった企業では、平均的な利益額が一寸違わずぴったりと同じ」ということだが、これが無意味なのも一目瞭然である。

だから、上記の例で、経営学的に意味がある結論を導くためには、例えば、「施策Aをやった企業と、施策Aをやらなかった企業では、平均的にみて利益が1億円違う」というくらいのことを言わなければならない。そのような証拠を示してはじめて、「じゃあ研究で支持されている施策Aというものををやってみようか」という気になるからである。これは、統計分析において「効果サイズ」を求めることで検証することができる。ヘルスケアで言えば、喫煙している人は、喫煙をしない人よりも、病気Aにかかる確率がXX倍になるというような報告の仕方である。XX倍が、0.01倍では意味がなく、10倍だと意味がある（意味があるなしはあくまで人間の判断である）。

帰無仮説を用いた検定でp値にのみこだわることは、帰無仮説を誤って棄却してしまう誤り（第一種の誤り）ばかりに気をとられており、本来の仮説が正しいのに帰無仮説を棄却しないですませてしまう（第二種の誤り）に無頓着であるという批判も妥当なものである。冒頭の例のように、p = .051だから仮説が支持できず、論文化を諦めるというようなことがあったとする場合、もしかするとそれは世の中に知らさせるべき重要な発見をみすみすボツにしてしまっている危険もあるということなのである。特に、効果サイズが大きく、学術的な意味も高いのに、p = .051だからその仮説は適切ではないという結論を出すことは危険である。これを防ぐためには、サンプル数を増やし、効果サイズを適切に推定することが重要である。複数の研究結果を用いてこれを実現しようとするのが「メタ分析」である。メタ分析は、複数の研究を統合することによってサンプルサイズを増やし、複数の研究で報告されている効果サイズから、真の効果サイズを推定しようとする手続きだといえる。

帰無仮説を用いた検定ではp値にこだわることの弊害が多いため、帰無仮説を用いた検定自体を使わないという方法もある。これには、信頼区間を用いる方法や、ベイズの考え方を用いる方法があり、これらを推奨する教科書や学会もあるようである。