HARKing, p-hacking, asterisk-seekingを助長している学術界

物事の本質に迫るため、正しい研究を行い、正しい報告を行うことは研究者の使命である。しかしながら、経営学を含め、多くの学問で、そのような適切な研究のあり方が危機に陥っている。学術界の社会制度自体が、研究者による不適切な研究を助長しているともいえる。このようなことを指摘しているのが、Mayer, van Witteloostuijn & Beugelsdijk (2017)である。具体的に言えば、現状の学術界では、本当は真実ではないことを、真実だと誤って報告した論文が多くジャーナルに掲載される危険性(False positive, 第一種の誤り)を高めているというのである。これらを生み出す研究行為のうち、典型的なものが、HARKing, p-hacking, asterisk-seekingである。


HARKingとは、Hypothesizing After the Results are Knownの略語で、データを分析してみて結果を見てから、それにフィットするように仮説を作り、あたかもその仮説がデータ収集よりも先に存在していたかのように論文化していく行為である。これは科学的にみて不適切な方法である。仮説検証型のデータの収集と分析は、先に仮説があって、それを検証するために行うものだから、結果につじつまが合うように仮説を作ることは本末転倒である。もちろん、経験から帰納的に理論を導出していく方法はある。しかし、それをあたかも先に仮説を設定し、そのあとにデータを使って厳密に仮説を検証したかのように論文化していくことが問題なのである。p-hackingとは、有意なp値になるまでデータ分析を繰り返して、有意な値がでたら、それを用いて論文を書こうとする態度である。これは、小さなp値だと価値があって、そうでないp値は価値がないという前提あるいはバイアスに基づいて、価値があるp値が見つかるまで試行錯誤を繰り返すというような態度で、これも真実を追求しようとする科学的態度とは言えない。asterisk-seekingもp-hackingと同じような行為で、多くの統計分析では、有意な値にアスタリスクをつけるが、分析のときに、そればかりを探し求める態度である。科学的態度からすれば、アスタリスクがあるから重要で、ないから重要ではないということはない。Mayerらによれば、実際にジャーナルに掲載された論文で報告されているp値を収集して分布をつくると、正規分布のようなきれいな分布ではなく、ラクダのような分布になるという。つまり、p = 0.05よりも少しだけ小さな値を報告している論文が山ほどある一方で、p = 0.05よりも少しだけ大きな値を報告している論文が極端に少なく、その部分が谷になってラクダのような分布になっているのである。p = 0.05以下のものが選り分けられているか、p = 0.05以下になるようにp-hackingが行われている形跡が伺われるのである。


では、なぜ、不適切な研究方法の流布や第一種の誤りが多く発生する危機が起こっているのだろうか。Meyerらによれば、まず、近年の研究機関では、研究者にその分野でのトップジャーナルへの論文掲載を奨励し、一定期間に一定数以上の論文を掲載できないと雇用継続に至らないような仕組みが多いことが挙げられる。これは、publish or perishという言葉で表現される。それに関連して、その分野のトップジャーナルでは、新しい理論、新しい発見を報告した論文が好んで掲載されるということが挙げられる。したがって、面白い理論や仮説を構築してその実証研究で有意な結果が出ている論文が採択させる確率が高い。統計的に有意でない結果は、トップジャーナルの論文としては掲載されにくいという事実があるわけである。そのため、統計的に有意でない結果がでてしまったデータや論文はごみ箱行きになるか、有意な値が出るまでp-hackingが繰り返されたり、逆に有意な値を探し出してつじつまがあうように仮説を作ることが行われやすくなる。さらに、ジャーナルの査読プロセスで、査読者が、結果に沿うような仮説の書き直しをリクエストしたりすることで、HARKingを助長している傾向もみられるという。つまり、研究機関側においてトップジャーナル掲載を雇用の条件においているところが多いこと、トップジャーナルでは有意な結果を報告する論文が採択されやすいこと、ジャーナルの査読プロセスで、結果に沿うような仮説づくりが時折奨励されることから、研究者が意図的に有意な結果を報告する論文を作成したり、有意でない結果を捨てるという行為が発生してしまうと考えられるのである。仮に、特定の論文で第一種の誤りが犯されたとしても、追試が何度も行われば、それを是正することができる。しかし、トップジャーナルでは単なる追試をしたような論文はまず掲載されないし、そのことが原因で、追試をやろうと動機づけられる研究者もいなくなってしまう。よって、第一種の誤りの増大の危機にますます拍車がかかってしまうのである。


Meyerらは、近年のこのような状況を回避し、適切な研究、適切な報告が行われるために、いくつかの提案を出している。例えば、実証分析の厳密性・妥当性を高めるためにリサーチデザインを工夫すること、ジャーナル側として、アスタリスクや p < .05といった基準を強調しないこと、データ分析においては、p値や有意・非有意のみにこだわるのではなく、効果サイズを必ず報告すること、データから帰納的に理論や仮説を導出することは1つの研究方法として考えられるが、HARKingをしないで、素直にそのとおりに報告することなどを挙げている。

文献

Meyer, K. E., van Witteloostuijn, A., & Beugelsdijk, S. (2017). What’s in a P? Reassessing best practices for conducting and reporting hypothesis-testing research.Journal of International Business Studies, 5, 535–55