「平均値に差がない」という仮説を検定する方法の直観的理解

基礎的な統計学において必ず学ぶのが「平均値の差の検定」である。これは、2群の平均値に差があるという仮説がデータから指示されるかを検証する方法で、最も基本的な方法は、帰無仮説と対立仮説を立て、t検定によって検証するという方法である。「平均値に差がない」を帰無仮説としてt値を求め、その生起確率が非常に低い場合(例:p < 0.05)に、帰無仮説を棄却し、対立仮説としての「平均値に差がある」という仮説を支持する。この基本的な考え方は、仮説検定のロジックとして、平均値の差のみならず、相関関係や回帰分析などにおいて、変数間に関係性がある、あるいは「効果がある」という仮説を検証する際にも応用される。

 

しかし、たまに「平均値の差がない」という仮説を立てるケースがある。一見すると筋の悪い仮説のように思えるが、テーマによってはまったく的外れということでもない。2つの群の母平均が「等しい」ということを示したいわけである。この基本形を拡張するならば、「変数間に関係がない」「ある要因が他の要因に対して効果がない」といった仮説を検証することにつながる。Stanton (2020)は、いくつかの例を挙げている。例えば、一般的に怒りやすい人ほどストレスを感じやすいが、ある条件下では、起こりやすい性格とストレスとは「関係がなくなる」という仮説である。今回解説するのは、このように、「差がない」という仮説が支持されるかどうかを統計学的にどのように検定するのかである。Stantonによる解説をメインに説明しよう。

 

まずは、よくある「間違った」検定の仕方を紹介しよう。これは、「平均値に差がある」という仮説を検証するのと同じ手順で、帰無仮説のt値など統計値を求めて、それがいわゆる「有意でない」ので、「平均値に差がない」と結論付けるというものである。これは論理的に間違っている。このような間違いを犯す原因は、「有意である=平均値に差がある」「有意でない=平均値に差がない」と安直に理解している点にある。ここで思い出すべきは「帰無仮説」のロジックで、「平均値に差があるか、もしくは平均値に差がない」という状態において、データに基づいて「平均値に差がない」を否定したら、残っているのは「平均値に差がある」というロジックなのである。よって、「平均値に差がない」を否定できていないということは、論理的に導かれる結論としては「平均値に差があるのかもしれないし、差がないのかもしれない」ということなのである。これが「平均値に差がない」という仮説を支持する結論ではないのは明らかである。

 

では本題に戻って、 「2群の平均値に差がない」という仮説がデータから支持されるかどうかを検証するにはどうすればよいのだろうか。論理的に考えると、帰無仮説と対立仮説を入れ替えることになる。つまり、帰無仮説を「平均値に差がある」とし、データからそれが棄却できるのであれば、対立仮説である「平均値に差がない」が支持されることになる。

 

直感的に考えると以下のようになる。もちろん2群の平均を取った場合にそれらが全く同じということはあり得ず、同じ値のように見えても、どんどん虫の目で細かく見ていけば、多少は違いがあるはずである。しかし、仮にそのような微小な違いがあったとしても、それは実践的にも理論的にもほとんど意味のない違いなので、そうであれば、あまりにも些細なことであるので、同じであると見なそう、つまり「平均値に差がある」という帰無仮説を棄却しよう、ということである。2群の平均値の差は、ゼロではなくとも、ゼロに近いと判断するわけである。これは、帰無仮説を100%棄却することなど不可能なので、5%以下の生起確率なのであれば、あまりにも小さいと判断し、(5%水準で)帰無仮説を棄却しようとする態度と類似しており、ロジックとして考えても不自然ではない。

 

それで必要になってくるが、「平均値に差がない」という伝統的な帰無仮説を棄却する際の危険水準(5%や1%)を、「平均値に差がある」 という帰無仮説を棄却する際にはどのようなロジックで設定すればよいかである。これに関しては、「取るに足らない(実践的に意味がないほど微小といえる)」範囲をどれだけにするかを決定することになる。これを、「取るに足らない差の範囲」としよう。そして、その範囲には当然、上限と下限があるので、例えば、平均値の差の確率分布が、95%の確率で上限も下限を超えないことが示せれば、95%の確率で上限と下限の間にあるということなので、その差は「取りに足らないほと小さい(そうではない結論が導かれる確率は5%未満)」とみなすことができるのである。これを示すための方法の1つが、片側検定を2度行う(Two One-Sided Tests) TOST)である。平均値の差が上限よりも小さいという仮説を通常のt検定の方法で片側検定し、同時に、平均値の差が下限よりも大きいという仮説を同じく片側検定する。この2つの検定は、典型的な「ある値(平均値の差)が別の値と(片側方向において)異なる」を検定している。両方とも有意であれば、平均値の差は取るに足らない差であると結論付ける。

 

別の方法としては、平均値の差の信頼区間を求め、その信頼区間にはゼロを含み、かつ「取りに足らない範囲」の上限と下限の範囲内にとどまっているかどうかを調べる。範囲内にとどまっていれば、平均値の差はないと結論付けることになる。これら2つの方法は、統計学においてもいわゆる伝統的な「頻度主義」の考え方に基づくものであるから、基本的な統計を学習している者にとってはそれほど抵抗感なく受け入れられるものと思われる。実際、Stantonによるコンピュータ・シミュレーションでは、頻度主義に基づくこの2つの方法はほぼ同じ結果を導くことが示されたことを報告している。

 

頻度主義とは別の方法として、ベイズ主義に基づく方法もある。これは平均値の差の真の値を確率分布として捉え、その分布を推計することによって「平均値に差がない」という仮説の妥当性を結論づける方法である。Stantonによるコンピュータ・シミュレーションでは、全体としてはベイズ的なアプローチのほうが良好な結果をもたらすことを指摘しているが、ベイズ主義になじみのない場合には分かりにくいかもしれないとのことである。いずれにせよ、「平均値に差がない」「変数間に関係がない」「変数が別の変数に対して効果がない」というような仮説を立て、それを検証する際には、先に挙げたように、有意でない(帰無仮説が棄却できない)ことをもって、差がない、関係がない、効果がないと結論づけてしまう「論理的な間違い」を犯さないように注意することが大切なのと、頻度主義に基づくTOSTや信頼区間を使った方法、あるいはベイズ主義に基づく方法を用いることで検証が可能であることを知っておくとよいだろう。

 

文献

Stanton, J. M. (2020). Evaluating Equivalence and Confirming the Null in the Organizational Sciences. Organizational Research Methods, 1094428120921934.