赤池情報量基準(AIC)とは何か - 講義のページへようこそ

経営学をはじめとする学術研究のうち数量的研究では、検証したい理論や仮説を数量的にモデル化し、収集したデータを用いた統計分析を実施することで妥当性を検証する。その際、個々の仮説、例えば個別の変数間の関係を検証するのみならず、構築したモデル全体がどれくらい適切なのかも検証する必要がある。その際に、候補となる複数のモデルから最適なものを選び出すというアプローチが必要になる。どのような統計的な方法で最良なモデルの判断および意思決定をすればよいのだろうか。

これに関して、三中(2018)は、1970年代に提唱された赤池情報量基準(Akaike Information Criterion: AIC)が、現在の統計的モデル選択論の中核となる概念であり、統計学にとどまらず科学哲学の分野にも影響を広めつつある基準であると説明する。AICの要点を理解するためには、尤度および最尤法についての理解が必要となる。統計学の分野では基本中の基本である尤度とは、ある仮説を固定した場合にデータがどのような確率密度の値をとるかに着目するのではなく、データを固定したうえで仮説を可変として考えることで、異なる仮説間の相対的評価を行おうとするものである。具体的には、ある仮説のもとで観察データが生じる確率の積として定義され、未知パラメータの値によって尤度が変化するため、尤度は未知パラメータの関数だといえる。そして最尤法とは、得られたデータのもとで尤度が最大化するようにパラメータを決める方法である。

最尤法においてはデータの当てはまりの良さ（適合度）を手がかりとしてパラメータを推定していく方法であるがゆえに、候補となる複数のモデルを選択する際に、より複雑なモデルほど適合度が上がるという性質を持っている。これは、パラメータを増やせば増やすほど、目の前にあるデータをより反映したモデルになっていくため当然ではある。しかし、このような方法の問題点は、目の前にあるデータにもっともフィットしたモデルが一般的にも最良なモデルとは限らないということである。なぜならば、目の前にあるデータは母集団から抽出したサンプルにすぎないからである。この場合、もう一度サンプルを取り直したデータであったらフィットがあまりよくないモデルということも考えられる。つまり、ありうる母集団のサンプルのうちの１つにしかベストフィットしていないモデルということになり、それが最良のモデルかというと疑問が出てくるのである。

それに対して、AICでは、母集団から無作為抽出されたときのデータに伴うばらつきを考慮して、すなわち得られたかもしれない別のデータのばらつきも考慮して尤度の期待値を求めようとする方法である。この方法は難解であるが、まず、尤度は掛け算の式なので計算しやすいように対数をとって対数尤度を求めたうえで、それをサンプル数で割った平均対数尤度を考える。その期待値としての期待平均対数尤度の式を求める。期待対数尤度の求め方には、テーラー展開やFisher情報行列を駆使する。そうすると、なんと、期待平均対数尤度の不偏推定値が、「最大対数尤度−パラメータ数」という極めて単純な尺度によって表現されることが分かったのである。AICはこの不偏推定値を踏まえ、AIC= -2*(L(θハット）-k)として定義される。

このように、赤池情報量基準（AIC）ではデータに対するモデルの当てはまりのよさを対数尤度で評価する一方で、モデルのもつ複雑さ（自由パラーメータ数）をペナルティーとして課すことで、複雑なモデルを当てはめるだけでは「よい仮説」とはいえず、三中によれば、中世の形而上学から継承されてきた「オッカムの剃刀」と呼ばれる最節約原理（シンプルなほどよい）の現代的効用を理論統計学から再評価したと読み取ることが可能なのである。

文献

三中信宏 2018「統計思考の世界 ~曼荼羅で読み解くデータ解析の基礎」技術評論社