社会心理学とglmm

社会心理学とGLMM

清水裕士

第2回春の方法論セミナー 1

自己紹介

• 清水裕士– 広島大学大学院総合科学研究科助教

– ※現在は関西学院大学社会学部准教授

– 専門：社会心理学

– Twitter: @simizu706

• 心理統計が，好きです– 統計ソフトウェア作ってます

• HADといいます

• GLMMはできません


「みどりぼん」の図


久保先生の講演おさらい

• なんでも線を引けばいいわけじゃない– 正規分布＋線形を仮定すると予測値が負の値になったり，分散が均一じゃなくなることがある

– GLM（一般化線形モデル）が必要

• 過分散やブロック間の変動をモデリング– GLMでは個人差を正しくモデリングできない– ブロック差も推定に大きく影響する– 変量効果を導入することで，これらを解決

• 複雑なモデルはMCMCが有効


GLMMのおさらい

• 線形モデル– 重回帰分析・分散分析・共分散分析– 正規性を仮定した線形結合によるモデル

• 一般化線形モデル– ロジスティック回帰，ポアソン回帰，順序回帰・・・– 正規分布以外の指数型分布族を扱える

• 線形混合モデル– Mixedモデル・階層線形モデル– 変量効果を扱えるようになったモデル


GLMMのおさらい

• 一般化線形混合モデル

–一般化線形モデル

–線形混合モデル

– この二つの要素を両方持つモデル

–線形モデル＋いろんな分布＋変量効果


清水の発表概要

• 変量効果について

–社会心理学において出会う「変量効果」

• GLMMの社会心理学における事例

–具体的な事例を挙げて，GLMMを考える

• GLMMのススメ

–結局，GLMMっているの？


変量効果(random effect)について


変量効果って？

• 個人やブロックによって効果が変わる–定数で得られず，対象によって変化する

–正確に言えば，確率分布に従う

• 固定効果(fixed effect)と変量効果(random effect)

–固定効果：定数として得られるパラメータ• サンプル全体の特徴を表す

–変量効果：確率変数として得られるパラメータ• それぞれの対象ごとの特徴を表す


線形モデルにおける変量効果

• Yi = b0 + b1 Xi + ei

• 切片と回帰係数– b0とb1は定数なので，「固定効果」と呼ぶ

• 残差– eiは人によって値が違うので，「変量効果」と呼ぶ

• 確率変数として表現する

–変量効果は，その分散を推定する• ei ～ N（0, σ ）

• 残差は，平均0，分散σの正規分布に従う

10第2回春の方法論セミナー

線形モデルにおける変量効果

• 変動の種類が一つだけ

– しかし，残差はモデルではない

• 残差以外の変動を推定→ 線形混合モデル

–集団でネストされたデータの集団間変動

–反復測定データの個人変動

–仮定した分布を超える変動（過分散）


なぜ変量効果を推定するのか

• サンプルが独立に抽出されていない場合

–ネストされたデータの場合に必要になる

–変量効果を適切に推定しないと，推定精度を過大視してしまう

• データがモデルの想定する分布に合わない

–二項分布やポアソン分布の過分散を調整

–個人差を正規分布で推定する


例1：個人と集団のデータ

• 集団内に複数の個人が含まれる

–データの構造が階層性を持っている

• 集団内の個人は独立

–ネストされたデータ

• 階層線形モデル

–集団間変動と個人間変動の両方をモデリング


データセット


group individual y x1 1 3 31 2 3 31 3 3 32 4 3 32 5 2 32 6 2 33 7 1 23 8 3 23 9 3 24 10 1 14 11 1 14 12 1 15 13 2 55 14 3 55 15 2 5

モデリング

• 複数の添え字がつく– Yiｊ = b0 + b1Xｊ + uｊ + eiｊ

– 例えば,iは個人を，jは集団を意味する

• 推定するパラメータ– bは添え字がついていないので固定効果

– uは集団についての変量効果（集団間変動）• この集団間変動を別の変数で説明も可能

– eは個人（残差）についての変量効果


Rで分析（lmer関数）


例2：反復測定データ

• 同じ参加者から何度もデータをとる– 個人内で試行が繰り返されている

– 例1と同様，ネストされたデータ

• 試行間に相関が生じる– 時系列があるので，球面性は成り立たないこともある

• 線形混合モデル– 分散分析では個体間の変動を固定効果として推定している


データセット


individual time y x1 1 3 31 2 3 31 3 3 32 1 3 32 2 2 32 3 2 33 1 1 23 2 3 23 3 3 24 1 1 14 2 1 14 3 1 15 1 2 55 2 3 55 3 2 5

モデリング

• 先ほどと式は同じ– Yiｊ = b0 + b1Xｊ + uｊ + eiｊ

– iは試行を，jは個人を意味する

• 推定するパラメータ– bは固定効果で，切片と回帰係数

– uは個人についての変量効果（個人間変動）

– eは試行（残差）についての変量効果• 試行間に相関がある場合がある


例3：反復刺激データ

• すべての参加者に同じ刺激セットを反復呈示–例2と同様に，反復測定データ

– しかし，データは刺激間変動も考慮する必要

• Cross Classified データ–データは個人にも刺激にもネストされている

• 線形混合モデル–三種類の変量効果（個体，刺激，残差）を推定


データセット


individual item y x1 1 3 31 2 3 31 3 3 32 1 3 32 2 2 32 3 2 33 1 1 23 2 3 23 3 3 24 1 1 14 2 1 14 3 1 15 1 2 55 2 3 55 3 2 5

モデリング

• 変量効果が2種類＋残差– Yiｊ = b0 + b1Xｊ + u1i + u2j + eiｊ

– iは刺激を，jは個人を意味する

• 推定するパラメータ– bは固定効果

– u1は刺激についての変量効果

– u2は個人についての変量効果

– eは残差の変量効果


Rで分析（lmer関数）


例4：離散分布を仮定したモデル

• 二項分布やポアソン分布–平均が決まれば，分散も自動的に決まる

• 残差の変動が分布の仮定よりも大きい場合–過分散という

–推定にバイアスが生じる

• 説明しきれない変動を変量効果で推定–離散分布＋正規分布というモデル化


データセット


ID y x1 1 42 5 33 4 64 6 55 7 56 1 57 7 38 3 49 1 410 9 711 0 312 5 413 1 214 0 415 0 5

モデリング

• ロジスティック回帰分析– logit (pi) = log(pi / (1-pi)) = b0 + b1Xi

– ロジットリンクで線形モデルに変換

– yiは二項分布を仮定• 分散パラメータがない

• GLMMで残差の変動を変量効果として推定– log(pi / (1-pi)) = b0 + b1Xi + ei

– eを加えることで個体差をモデリング


Rで分析（glmer関数）


社会心理学とGLMM


正規分布に縛られた世界

• 正規分布ありきで計画されるデータ分析–正規分布じゃないから，この項目は削ろう

–正規分布じゃないから，t検定できないね

–正規分布じゃないから，以下略

• 正規分布じゃないのに適用されるデータ分析–正規分布じゃないけど，ｔ検定やってみた

–正規分布じゃないけど，有意だった

–分布見てないけど，分散分析やってみた


身近にある「非」正規分布

• 学生ほどそういうデータを持ってくる

–友人の中で親友が何人いるかの割合が知りたい

–なんかこの尺度，正規分布じゃないから分散分析しちゃいけないって言われたんですけど～

–え？1項目でとったんですけど？


正規分布以外の指数型分布

• 二項分布– 成功と失敗など，2値をとりうる離散データの分布

• 多項分布– 多値をとりうる離散データの分布

– 順序カテゴリデータの分布

• ポアソン分布・負の二項分布– 0以上の整数値をとりうる変数の離散分布

– 特に，生起頻度が少ない場合の分布


正規分布以外の指数型分布

• 対数正規分布

–正の値をとる連続変量

• ガンマ分布

–正の値をとる連続変量

• ベータ分布

– 0～1の間を取る連続変量


二値データ


二値データ

• はい・いいえの2択データ

–他にも，「する・しない」，「正解・不正解」など

• 二値データを線形回帰に当てはめると・・・

–推定値と標準誤差にバイアス

• 効果量を正しく推定できない

–予測値がとりえない数値になる

• 正しい予測ができない


二値データに線形回帰

• 予測値が0と1の間に収まらない


二値データにロジスティック回帰

• 予測値が0と1の間に収まる


事例: Web調査で階層データ

• 全国から，たくさんの人をWebでサンプリング

–選挙に投票したか否かを測定（二値データ）

–地域ごとの投票行動の違いが分析したい

• 二項分布＋個人・集団のネストデータ

–地域の中にもそれぞれたくさん回答者がいる

–二値データは二項分布に従う

–ロジスティック＋変量効果（地域間変動）


例えば，こんなデータ


ID 地域投票説明変数1 北海道 0 82 北海道 1 03 北海道 1 54 北海道 0 35 北海道 0 36 北海道 0 57 北海道 1 68 青森 0 29 青森 1 910 青森 1 811 青森 0 112 青森 1 213 秋田 1 514 秋田 1 315 秋田 0 8

モデリング

• 分布は二項分布–データに合わせた分布を選ぶ

• リンク関数はロジスティック–分布と線形モデルがフィットするように変換

–最小値と最大値を超えないようにする

• 地域間変動を変量効果として推定–いわゆるロジスティック階層線形モデル


カウントデータ



• ある事象が生じた回数についてのデータ

–非負の整数をとるデータ

–ある症状群について当てはまる個数

– 1日でメールをする回数

• カウントデータを線形回帰に当てはめると・・

–生起確率が低い場合，推定にバイアスが生じる

–予測値が負になる



• ある事象が生じた回数についてのデータ


カウントデータに線形回帰

• 予測値に負の値が出ることがある


カウントデータにポアソン回帰

• 予測値が負にならない


事例：経験サンプリングデータ

• 1週間，毎日抑うつ尺度に回答を求める

–抑うつ尺度は正規分布にならない

–一人の参加者ごとに，7日分のデータがある

• 負の二項分布＋反復測定

–一人が複数回答えるので，個人差の推定が必要

–正規分布にならないので，負の二項分布を適用

–負の二項分布回帰＋変量効果




ID 時点抑うつ説明変数1 1 24 21 2 3 71 3 15 91 4 3 51 5 18 52 1 6 92 2 21 02 3 9 82 4 3 72 5 0 13 1 9 83 2 6 103 3 12 83 4 3 83 5 18 7

例：GHQの分布（実際のデータ）


係数標準誤差 Z値 p値切片 2.826 0.026 108.417 .000過分散 0.702 0.035 20.028 .000 **

症状があれば１，なければ0の2件法60項目

モデリング

• 分布は負の二項分布– ポアソン分布＋変量効果（時点間変動）でもよい

• AICを利用して，どちらがよいか比較可能

• リンク関数– 予測値が負にならないように対数リンクを使う

• 個人間変動を変量効果で推定– 個人から複数回測定しているので，日々の変動以外の，安定した個人の抑うつの分散が推定できる


比率データ


比率データ

• 試行回数中の生起数の比率– 20問中何問正解したか・・・正答率

–思い浮かべた友人の中での，親友の割合

• 比率データを線形回帰に当てはめると・・・–試行数の違いをモデルに組み込めない

• 推定値にバイアスが生じる

–予測値が負になったり，試行数を超える• 正確な予測ができない


比率データに線形回帰

• 予測値に負の値が出ることがある


比率データに二項分布回帰

• 予測値が0から試行回数に収まる


事例：記憶実験

• 複数の問題への正答率を条件で比較

– 20問中，何問正答するか？

–実験条件と統制条件の正答率の違いを見たい

• 比率データ＋個人間変動

–正答率の変動は，二項分布＋正規分布（個人差）

• 個人差を別に正規分布として推定

–二項分布回帰＋変量効果




ID 正答数回答数正答率条件1 8 10 0.8 02 1 10 0.1 03 1 10 0.1 04 5 10 0.5 05 6 10 0.6 06 1 10 0.1 07 3 10 0.3 08 1 10 0.1 09 2 10 0.2 110 1 10 0.1 111 7 10 0.7 112 9 10 0.9 113 3 10 0.3 114 3 10 0.3 115 1 10 0.1 1

モデリング

• 分布は二項分布

– 2値（0,1）データの和は，二項分布で近似

• リンク関数はロジスティック

–上限と下限を超えないよう，ロジスティックで変換

• 個人差を変量効果で推定

–二項分布でとらえられない個人間変動を推定


多値カテゴリカルデータ


多値カテゴリカルデータ

• 順序カテゴリカルデータ– カテゴリが多値で，順序性がある

– リッカート尺度，学歴，主観的階層意識

–順序ロジスティック回帰

• 名義カテゴリカルデータ– カテゴリが多値で，順序性がない

–性別，職業カテゴリ

–名義ロジスティック回帰


事例：サポートについて質問紙調査

• 家族，友人，知り合いから得られるサポート

–なぜか1項目で測定してしまった

• 〇〇からあなたはどれほどサポートを受けていますか

–回答者の個人差だけでなく，サポート提供者間の変動も存在する

• 個人差と対象差を変量効果で推定

–二重にネストされたデータ




ID 対象サポート説明変数1 家族 1 01 友人 5 21 知り合い 2 62 家族 4 102 友人 4 32 知り合い 2 13 家族 4 53 友人 3 13 知り合い 3 14 家族 2 14 友人 5 64 知り合い 5 75 家族 2 45 友人 3 75 知り合い 2 0

モデリング

• 分布は多項分布

–二項分布の多値バージョン

• リンク関数は累積ロジスティック

– カテゴリの順序性を仮定したロジスティックリンク

• 個人間変動と対象間変動

–二種類の変量効果を推定する必要性


GLMMのススメ


社会心理学でGLMMは必要？

• いつでも必要なわけじゃない

–正規分布が仮定できる2群の平均値差の検定に，わざわざGLMMを使う必要はない

– しかし，われわれが思っているより「既存の方法」の守備範囲は狭い

• GLMMでどんなデータでも扱える

–無理に正規分布の枠に当てはめる必要がない

–自由な発想でデータを収集することができる


反復測定データ→ 分散分析？

• 分散分析で十分個人差は考慮してきた？–分散分析はネストされたデータの変動を固定効果として推定

–複雑な要因計画では自由度補正がいっぱい• 球面性，単純効果検定・・・

• 正規分布でないなら，変数変換がある？–推定精度はどうしても低くなる

– 2値データはどうやっても正規分布で近似できない


古典的手法を使い続けるということ

• 分散分析は，いわばWindows XP– 使い慣れていて快適・・・SP10ぐらいのバージョンアップ

– しかし，もはや最適な分析手法ではない• セキュリティホール（TypeⅠエラーの罠）がいっぱい

• すでにWindows7どころか，もう8も出てる– 線形混合モデル，HLM，そしてGLMM

– 分散分析の欠点はほとんど解決される• 正規性の仮定 → 正規分布以外の分布が使える

• 球面性の仮定 → 残差共分散もモデリングできる

• 分散の均一性の仮定 → 頑健な標準誤差を利用できる


え？Mac（=ベイズ）でいいじゃん？

• Windows（=最尤法）がそもそも・・・という人も–ベイズ推定は，モデルが複雑になっても無理がなくスムーズに推定できる• 階層ベイズモデルはGLMMを包含している

– MCMCの恩恵による

• ベイズ推定に乗り換える人も多数–経済学や他の社会科学では普通に使われている

–今回はこれがメインじゃないので紹介までに。


GLMMが動くソフトウェア

• SPSS・・・△– 一般化線形混合モデル– しかし，疑似尤度による計算 → 推定精度がよくない

• SAS・・・◎– GLIMMIXプロシージャ– 無償版でも使える → オススメ！

• R・・・○– lme4パッケージかglmmMLパッケージ– SASほど細かな指定はできないが，十分つかえる


※あくまで個人の感想です

「GLMMをSASで実行する方法」


GLMMがもつインプリケーション

• 統計モデルがそのものの理解が深まる– 確率分布のパラメータを推定

• 正規分布・・・平均と分散

• 二項分布・・・生起確率

• ポアソン分布・・・平均（平均と分散は等しい）

• データの生成メカニズムを意識することができる– 統計モデルは，データ生成のメカニズムを表現

– 効果があるかないかではなく，手元にあるデータがどのように生み出されているかに注目


説明モデルと予測モデル

• 社会心理学は説明モデルを作るのが好き

– どの変数にどれくらい効果があるのか

– 独立変数が決まった時，従属変数がどのような値になるのかはあまり考慮されない

• 予測モデル

– 説明変数の値がわかれば，目的変数を予測できる

– 推定したモデルに従ってデータを生成したとき，同じようなデータが次も得られるか？

• 情報量規準の考え方


最後に

• とりあえず，一度GLMMを触ってみてください–いますぐに必要じゃないが・・・

–使えたらこれほど便利なものはない• SAS無償版がオススメ

• 使わなくてもいいが，理解できる必要はある– GLMMを使った論文はバンバンでてくる

• Rのlme4やglmmMLの貢献は大きい

–使えると，なおよい• 学生がどんなデータ持ってきてもドヤ顔できる


※あくまで個人の感想です

まずはHLMからでも・・


おつかれさまでした

• GLMM ＝一般化線形混合モデル

–いろんな分布＋変量効果

• 清水裕士

– http://norimune.net

– [email protected]


http://norimune.net/

社会心理学とglmm

Science