非常に使い勝手が良い統計モデル:GLMとGLMM

GLM(Generalized Linear Model:一般化線形モデル)およびGLMM(Generalized Linear Mixed Model: 一般化線形混合モデル)は、広範囲に適用可能で非常に使い勝手が良い統計モデルである。GLMやGLMMでは、いわゆる最少二乗法を用いる回帰分析やロジスティック分析をすべて含んでいる。つまりこれらの分析はGLMやGMLLの特殊ケースにすぎない。よって、GLMやGLMMができるということは同時に、回帰分析やロジスティック分析ができるということである。


そもそも、統計モデルとは何だろうか。久保(2012)によれば、統計モデルとは、観察によってデータ化された現象を説明するために作られる数理モデルであり、「確率分布」が基本的な部品で、データとモデルを対応づける手続きが準備されており、モデルがデータにどれくらいよく当てはまるかを定量的に評価できるものを指す。言い換えるならば、実際にデータによって表現される現象における「ばらつき」や「欠測」などを、基本部品である「確率分布」を使ってうまく表現しようとするものなのである。確率分布にはさまざまな種類があるが、例えば期待値や標準偏差などの「パラメータ」を特定することによって、その確率分布がどのようなものなのかを特定することができる。よって、統計モデルでは、このパラメータを推定することが主な仕事となる。


統計分析の主眼となる従属変数もしくは「応答変数」の確率分布を説明する「説明変数」を組み込んだモデルの中で応用範囲が広いのが、GLM(一般化線形モデル)である。久保によれば、GLMには、「確率分布」「リンク関数」「線形予測子」という主に3つの部品があり、この部品の組み合わせかたを指定することによって、さまざまなタイプのデータを表現できる。


確率分布(probablity distribution)については、GLMは二項分布、ポアソン分布、負の二項分布、ガンマ分布、正規分布など、離散変数、連続変数を含むさまざまな確率変数が用意されている。リンク関数(link function)とは、特定の確率分布を表現するために、一般的にモデルの左辺(y = a + bx + cwであればyの部分)に当てはめる関数で、例えばポアソン回帰の場合は対数リンク関数、ロジスティック回帰分析の場合はロジットリンク関数を用いて、応答変数のポアソン分布、二項分布を表現する。逆に、線形予測子(linear predictor)とは、モデルの右辺に相当する、説明変数とパラメータの線形結合を示す。説明変数間の交互作用も扱える。要するに、リンク関数や線形予測子を入れ替えることによって、モデルが線形回帰モデルになったり、ロジスティック回帰モデルになったり、ポアソン回帰モデルになったりするわけである。


久保によれば、GLMM(一般化線形混合モデル)は、GLMでは説明できない「人間が測定できない・測定しなかった個体差」を組み込んだ統計モデルである。別の言い方をすれば、複数の確率分布を部品とする(混合させた)モデルということである。現実のデータにおいては、通常の確率分布で想定される以上の分散が生じてしまう「過分散」(ばらつきが大きすぎるケース)が見られることが多く、観測されていない個体差が過分散をもたらしている場合が多い。そこでGLMMでは観測されていない個体差を表すパラメータをモデルに組み込むことになるが、この個体差のばらつきを表す確率分布は、GLMでの応答変数を表現する確率分布と異なる場合もある。例えば、ロジスティック回帰では二項分布を想定するが、モデルに正規分布を前提とする個体差を含めると、実際のモデルの応答変数の確率変数は、二項分布と正規分布が混合したようなものになるわけである。