マルチレベル分析で説明変数を中心化する際のポイント

マルチレベル分析を実際に行うときによく出てくる疑問として、説明変数を中心化(センタリング)すべきかどうかというのがある。とりわけ、マルチレベル分析では、説明変数を集団内での平均値を用いて中心化する方法(集団平均中心化:group-mean centering)と、サンプル全体の平均値を用いて中心化する方法(全体平均中心化:grand-mean centering)の2つがあるが、この2つの違いと、どのような時にどちらの中心化を用いればよいかについて混乱してしまう場合がある。そこで、清水(2014)をベースにこの2つの中心化の意味、違い、効用について理解してみよう。


そもそもマルチレベル分析は、ある特殊なデータ構造(例えば、階層的データ)であるために、従属変数あるいは結果変数に個人レベルの効果と集団レベルの効果が混在している可能性がある場合に、これらの効果を分離することを目的としている。マルチレベル分析が一般化線形混合モデルの1つであると言われる所以でもある。例えば、ある県における学校ごとに数学の得点と志望校合格可能性の関係に関するデータがある場合、実際の志望校合格可能性の値は、学校内の本人の数学得点の位置づけと、学校全体としての数学力の水準(県内での学校別数学平均点)の両方の影響を受けていると考えられる。マルチレベル分析は、この2つを分離し、それぞれの効果を推定しようとする。


常にそうであるわけではないが、清水によると、集団平均中心化はおもにレベル1(例、個人レベル)の式に投入する説明変数に施し、全体平均中心化はレベル2(例、集団レベル)の式に投入する説明変数に施すことが多い。総論として、説明変数を中心化するメリットあるいは目的は主に2つある。1つ目は、一般的な重回帰分析における交互作用分析のように、説明変数を中心化することで、クロスレベル交互作用を推定する際などの多重共線性の影響を軽減する目的である。この目的はマルチレベル分析に限った話ではない。2つ目は、説明変数を中心化することで、先ほど述べた個人レベルの効果と集団レベルの効果との分離をクリアにしたり、結果の解釈をしやすくするという目的である。こちらはマルチレベル分析特有の目的もしくはメリットといえる。以下はこの2つ目のメリットに焦点を当てる。


まず、レベル1の式に投入する説明変数に集団平均中心化を施すとどうなるか。まずいえることは、集団中心平均化後は、どの集団(レベル2の単位)においても、集団平均の値がゼロになるわけだから、分散分析のアナロジーを用いるならば、当該説明変数については集団間で平均値のばらつきが全くなくなるということになる。ということはどういうことかというと、モデル式を構築して分析する際に、説明変数の集団の平均値(つねにゼロ)は結果変数に影響を及ぼさないということになる。つまり、純粋に集団内の個人の得点の違いが結果変数に影響を及ぼすというモデルになるので、集団平均中心化を施すことによって当該説明変数に関しては集団レベルの水準の違いに基づく効果を完全に取り除いたことになる。また、レベル1の式に投入する説明変数に集団平均中心化を施した場合に得られる切片は、説明変数が集団内の平均値であるときの値だという解釈になる。


次に、レベル2の式に投入する説明変数の全体平均中心化を施すとどうなるか。これは、レベル2の式の切片を、説明変数が全体平均のときの値として解釈できるようにすることを意味する。さらにいうと、マルチレベル分析でクロスレベル交互作用をモデル化する際に、レベル1の式における説明変数の回帰係数がレベル2の式における切片すなわち説明変数が全体平均のときの値として解釈できることを意味する。もし、レベル2の説明変数の中心化を施さない場合、クロスレベル分析から得られるレベル1の説明変数の回帰係数が何を意味しているのかの解釈が難しくなる場合がある。なぜならば、レベル2の切片は単純に説明変数の値がゼロのときの値であるが、1から7のリッカート尺度など、説明変数の値がゼロであることに深い意味がない場合もあるからである。