一般化線形モデルとは何か

粕谷(2012)によると、一般化線形モデルとは説明変数 x が、目的変数 y に与える影響を分析するための方法を統一的に理解しやすくしたものである。伝統的に広く使われてきた回帰分析を大幅に拡張し、より広い範囲で使いやすくしたものだともいえる。そのため、一般化線形モデルは、直線回帰や重回帰、分散分析や共分散分析といったものを特別な場合として含んでおり、説明変数も目的変数も量的なものでも質的なものでも構わない。


一般化線形モデルの仕組みについて、粕谷は以下のように説明する。まず、一般化線形モデルでは、説明変数の値から目的変数の予測値が決まり、目的変数の実際の値はその予測値のまわりにばらつくと考える。データ解析ではこのばらつきをゼロにしたり完全にコントロールすることは普通できなく、これらを誤差あるいは残差とよぶが、それがどのような分布をしているかにより統計的な推論から得られる結論が強く影響される。現実に合わないばらつきを想定すると誤った結論に到達してしまう。したがって、一般化線形モデルでは、関係式とばらつきの部分を、データの実態や分析の目的に応じていくつかの選択肢から選べるようにして、適用範囲を広げているのである。


一般化線形モデルでは、目的変数と説明変数の関係式を、目的関数の予測値の関数(リンク関数)=説明変数の線形結合(一次式)(粕谷によれば線形予測子)で表す。リンク関数は、log(目的変数の予測値)(対数)であったり、log{(目的変数の予測値)/(1−目的変数の予測値)}(ロジット)などがある。リンク関数を対数にすると、右辺の1次式がどのような値をとっても目的変数の予測値は正となる。リンク関数をロジットにすると、、右辺の1次式がどのような値をとっても目的変数の予測値は0と1の間になる。


よって、モデル式は「リンク関数(目的変数の予測値)=線形予測子」となる。これを変形すると「目的変数の予測値=リンク関数の逆数(線形予測子)」となる。例えば、「log(目的変数の予測値)=線形予測子」の場合は、「目的変数の予測値=exp(線形予測子)」となり、この予測値のまわりに実際の目的変数の値がばらつくことになる。この際、線形予測子に含まれる説明変数の係数の意味は「他の変数を一定に保った場合(変化しなければ)、当該説明変数の値が1増加するとリンク関数(目的変数の予測値)は説明変数の係数だけ増えるということになる。


また、モデルに名義尺度であるカテゴリカルデータを用いるときにはダミー変数が広く使われる。さらに、ある量(変数)の2乗や3乗といった高次のべきやある量(変数)の関数を説明変数とすることができる。その他、回帰係数がいつも1である説明変数(オフセット)や、ある説明変数の効果が他の説明変数の値によって異なる交互作用も含めることができる。リンク関数については、重回帰や分散分析と同じ恒等リンクや対数(log)やロジット(logit)の他、プロビット(probit)や逆数(inverse)、平方根、べき乗(power)などがある。


誤差構造については、回帰分析や分散分析で使われてきた等分散(分散がいつも一定)の正規分布ポアソン分布、ガンマ分布、逆ガウス分布などがある。目的変数の分布の特徴に応じて誤差構造を選べ、誤差構造を誤って設定することによる統計的推論の誤りを避けることができるのである。