最尤法と最小二乗法が母集団の確率分布が正規分布のときに同じになる理由

馬場(2015)によれば、最小二乗法とは、残差平方和(実際の値と予測値との差の二乗和)を最小にするようなパラメタを統計モデルに用いることである。一方、最尤法とは、尤度(そのデータが得られる確率)が最大になるようなパラメタを統計モデルに用いることである。前者は主に正規分布を確率分布として仮定する場合の正規線形モデルの時に用いられ、後者は、主に確率分布が正規分布とは限らない一般化線形モデルの時に用いられる。実は、後者において確率分布が正規分布の場合には、最小二乗法も最尤法も結果は同じとなる。


では、最尤法と最小二乗法が母集団の確率分布が正規分布のときに同じになるのはなぜか。直感的には、最尤法は何かを最大化することで、最小二乗法は何かを最小化することである。よって、最尤法は、「なにか」にマイナスをかけたものを最小化することと同じである。よって、条件が整うことによって、両方とも、おなじ「何か」を最小化する作業として理解できる。


もう少し具体的に言えば、最尤法は、個々のデータが出現する確率を、データすべての場合について掛け合わせた尤度を最大化する問題(データすべてが同時に起こる確率)であるが、個々のデータの確率分布が正規分布に従う場合、最尤法の掛け算の中に、正規分布確率密度関数が含まれることになる。一般的には、最尤法では対数を使って掛け算部分を足し算にする(対数を用いることのメリット)ことで推定する(尤度と対数尤度は単純増加の関係にあるから対数尤度を最大化することは尤度を最大化すること)が、ここで、正規分布確率密度関数が含まれる尤度の対数をとって対数尤度を計算すると、式の中に含まれる正規分布の密度関数の乗数部分が式の中に戻される(Y=exp(X)とlnY=Xが同じであるため)。その式の中に戻された部分に注目すると、その式の形が、最小二乗法で用いる式のマイナスと同じになるのである。


対数尤度の他の部分は、推定する必要のない部分なので、無視するならば、最小二乗法の式をマイナスにした部分のみを最大化する問題となる。よって、先述のとおり、それは、最小二乗法の式を最小にする。すなわち、最小二乗法と同じことを行うこととして解釈できるのである。