社会心理学とglmm
TRANSCRIPT
社会心理学とGLMM
清水裕士
第2回春の方法論セミナー 1
自己紹介
• 清水裕士– 広島大学大学院総合科学研究科 助教
– ※現在は関西学院大学社会学部 准教授
– 専門:社会心理学
– Twitter: @simizu706
• 心理統計が,好きです– 統計ソフトウェア作ってます
• HADといいます
• GLMMはできません
第2回春の方法論セミナー 2
「みどりぼん」の図
第2回春の方法論セミナー 3
久保先生の講演おさらい
• なんでも線を引けばいいわけじゃない– 正規分布+線形を仮定すると予測値が負の値になったり,分散が均一じゃなくなることがある
– GLM(一般化線形モデル)が必要
• 過分散やブロック間の変動をモデリング– GLMでは個人差を正しくモデリングできない– ブロック差も推定に大きく影響する– 変量効果を導入することで,これらを解決
• 複雑なモデルはMCMCが有効
第2回春の方法論セミナー 4
GLMMのおさらい
• 線形モデル– 重回帰分析・分散分析・共分散分析– 正規性を仮定した線形結合によるモデル
• 一般化線形モデル– ロジスティック回帰,ポアソン回帰,順序回帰・・・– 正規分布以外の指数型分布族を扱える
• 線形混合モデル– Mixedモデル・階層線形モデル– 変量効果を扱えるようになったモデル
第2回春の方法論セミナー 5
GLMMのおさらい
• 一般化線形混合モデル
–一般化線形モデル
–線形混合モデル
– この二つの要素を両方持つモデル
–線形モデル+いろんな分布+変量効果
第2回春の方法論セミナー 6
清水の発表概要
• 変量効果について
–社会心理学において出会う「変量効果」
• GLMMの社会心理学における事例
–具体的な事例を挙げて,GLMMを考える
• GLMMのススメ
–結局,GLMMっているの?
第2回春の方法論セミナー 7
変量効果(random effect)について
第2回春の方法論セミナー 8
変量効果って?
• 個人やブロックによって効果が変わる–定数で得られず,対象によって変化する
–正確に言えば,確率分布に従う
• 固定効果(fixed effect)と変量効果(random effect)
–固定効果:定数として得られるパラメータ• サンプル全体の特徴を表す
–変量効果:確率変数として得られるパラメータ• それぞれの対象ごとの特徴を表す
第2回春の方法論セミナー 9
線形モデルにおける変量効果
• Yi = b0 + b1 Xi + ei
• 切片と回帰係数– b0とb1は定数なので,「固定効果」と呼ぶ
• 残差– eiは人によって値が違うので,「変量効果」と呼ぶ
• 確率変数として表現する
–変量効果は,その分散を推定する• ei ~ N(0, σ )
• 残差は,平均0,分散σの正規分布に従う
10第2回春の方法論セミナー
線形モデルにおける変量効果
• 変動の種類が一つだけ
– しかし,残差はモデルではない
• 残差以外の変動を推定→ 線形混合モデル
–集団でネストされたデータの集団間変動
–反復測定データの個人変動
–仮定した分布を超える変動(過分散)
第2回春の方法論セミナー 11
なぜ変量効果を推定するのか
• サンプルが独立に抽出されていない場合
–ネストされたデータの場合に必要になる
–変量効果を適切に推定しないと,推定精度を過大視してしまう
• データがモデルの想定する分布に合わない
–二項分布やポアソン分布の過分散を調整
–個人差を正規分布で推定する
第2回春の方法論セミナー 12
例1:個人と集団のデータ
• 集団内に複数の個人が含まれる
–データの構造が階層性を持っている
• 集団内の個人は独立
–ネストされたデータ
• 階層線形モデル
–集団間変動と個人間変動の両方をモデリング
第2回春の方法論セミナー 13
データセット
第2回春の方法論セミナー 14
group individual y x1 1 3 31 2 3 31 3 3 32 4 3 32 5 2 32 6 2 33 7 1 23 8 3 23 9 3 24 10 1 14 11 1 14 12 1 15 13 2 55 14 3 55 15 2 5
モデリング
• 複数の添え字がつく– Yij = b0 + b1Xj + uj + eij
– 例えば,iは個人を,jは集団を意味する
• 推定するパラメータ– bは添え字がついていないので固定効果
– uは集団についての変量効果(集団間変動)• この集団間変動を別の変数で説明も可能
– eは個人(残差)についての変量効果
第2回春の方法論セミナー 15
Rで分析(lmer関数)
第2回春の方法論セミナー 16
例2:反復測定データ
• 同じ参加者から何度もデータをとる– 個人内で試行が繰り返されている
– 例1と同様,ネストされたデータ
• 試行間に相関が生じる– 時系列があるので,球面性は成り立たないこともある
• 線形混合モデル– 分散分析では個体間の変動を固定効果として推定している
第2回春の方法論セミナー 17
データセット
第2回春の方法論セミナー 18
individual time y x1 1 3 31 2 3 31 3 3 32 1 3 32 2 2 32 3 2 33 1 1 23 2 3 23 3 3 24 1 1 14 2 1 14 3 1 15 1 2 55 2 3 55 3 2 5
モデリング
• 先ほどと式は同じ– Yij = b0 + b1Xj + uj + eij
– iは試行を,jは個人を意味する
• 推定するパラメータ– bは固定効果で,切片と回帰係数
– uは個人についての変量効果(個人間変動)
– eは試行(残差)についての変量効果• 試行間に相関がある場合がある
第2回春の方法論セミナー 19
例3:反復刺激データ
• すべての参加者に同じ刺激セットを反復呈示–例2と同様に,反復測定データ
– しかし,データは刺激間変動も考慮する必要
• Cross Classified データ–データは個人にも刺激にもネストされている
• 線形混合モデル–三種類の変量効果(個体,刺激,残差)を推定
第2回春の方法論セミナー 20
データセット
第2回春の方法論セミナー 21
individual item y x1 1 3 31 2 3 31 3 3 32 1 3 32 2 2 32 3 2 33 1 1 23 2 3 23 3 3 24 1 1 14 2 1 14 3 1 15 1 2 55 2 3 55 3 2 5
モデリング
• 変量効果が2種類+残差– Yij = b0 + b1Xj + u1i + u2j + eij
– iは刺激を,jは個人を意味する
• 推定するパラメータ– bは固定効果
– u1は刺激についての変量効果
– u2は個人についての変量効果
– eは残差の変量効果
第2回春の方法論セミナー 22
Rで分析(lmer関数)
第2回春の方法論セミナー 23
例4:離散分布を仮定したモデル
• 二項分布やポアソン分布–平均が決まれば,分散も自動的に決まる
• 残差の変動が分布の仮定よりも大きい場合–過分散という
–推定にバイアスが生じる
• 説明しきれない変動を変量効果で推定–離散分布+正規分布というモデル化
第2回春の方法論セミナー 24
データセット
第2回春の方法論セミナー 25
ID y x1 1 42 5 33 4 64 6 55 7 56 1 57 7 38 3 49 1 410 9 711 0 312 5 413 1 214 0 415 0 5
モデリング
• ロジスティック回帰分析– logit (pi) = log(pi / (1-pi)) = b0 + b1Xi
– ロジットリンクで線形モデルに変換
– yiは二項分布を仮定• 分散パラメータがない
• GLMMで残差の変動を変量効果として推定– log(pi / (1-pi)) = b0 + b1Xi + ei
– eを加えることで個体差をモデリング
第2回春の方法論セミナー 26
Rで分析(glmer関数)
第2回春の方法論セミナー 27
社会心理学とGLMM
第2回春の方法論セミナー 28
正規分布に縛られた世界
• 正規分布ありきで計画されるデータ分析–正規分布じゃないから,この項目は削ろう
–正規分布じゃないから,t検定できないね
–正規分布じゃないから,以下略
• 正規分布じゃないのに適用されるデータ分析–正規分布じゃないけど,t検定やってみた
–正規分布じゃないけど,有意だった
–分布見てないけど,分散分析やってみた
第2回春の方法論セミナー 29
身近にある 「非」正規分布
• 学生ほどそういうデータを持ってくる
–友人の中で親友が何人いるかの割合が知りたい
–なんかこの尺度,正規分布じゃないから分散分析しちゃいけないって言われたんですけど~
–え?1項目でとったんですけど?
第2回春の方法論セミナー 30
正規分布以外の指数型分布
• 二項分布– 成功と失敗など,2値をとりうる離散データの分布
• 多項分布– 多値をとりうる離散データの分布
– 順序カテゴリデータの分布
• ポアソン分布・負の二項分布– 0以上の整数値をとりうる変数の離散分布
– 特に,生起頻度が少ない場合の分布
第2回春の方法論セミナー 31
正規分布以外の指数型分布
• 対数正規分布
–正の値をとる連続変量
• ガンマ分布
–正の値をとる連続変量
• ベータ分布
– 0~1の間を取る連続変量
第2回春の方法論セミナー 32
二値データ
第2回春の方法論セミナー 33
二値データ
• はい・いいえ の2択データ
–他にも,「する・しない」,「正解・不正解」など
• 二値データを線形回帰に当てはめると・・・
–推定値と標準誤差にバイアス
• 効果量を正しく推定できない
–予測値がとりえない数値になる
• 正しい予測ができない
第2回春の方法論セミナー 34
二値データに線形回帰
• 予測値が0と1の間に収まらない
第2回春の方法論セミナー 35
二値データにロジスティック回帰
• 予測値が0と1の間に収まる
第2回春の方法論セミナー 36
事例: Web調査で階層データ
• 全国から,たくさんの人をWebでサンプリング
–選挙に投票したか否かを測定(二値データ)
–地域ごとの投票行動の違いが分析したい
• 二項分布+個人・集団のネストデータ
–地域の中にもそれぞれたくさん回答者がいる
–二値データは二項分布に従う
–ロジスティック+変量効果(地域間変動)
第2回春の方法論セミナー 37
例えば,こんなデータ
第2回春の方法論セミナー 38
ID 地域 投票 説明変数1 北海道 0 82 北海道 1 03 北海道 1 54 北海道 0 35 北海道 0 36 北海道 0 57 北海道 1 68 青森 0 29 青森 1 910 青森 1 811 青森 0 112 青森 1 213 秋田 1 514 秋田 1 315 秋田 0 8
モデリング
• 分布は二項分布–データに合わせた分布を選ぶ
• リンク関数はロジスティック–分布と線形モデルがフィットするように変換
–最小値と最大値を超えないようにする
• 地域間変動を変量効果として推定–いわゆるロジスティック階層線形モデル
第2回春の方法論セミナー 39
カウントデータ
第2回春の方法論セミナー 40
カウントデータ
• ある事象が生じた回数についてのデータ
–非負の整数をとるデータ
–ある症状群について当てはまる個数
– 1日でメールをする回数
• カウントデータを線形回帰に当てはめると・・
–生起確率が低い場合,推定にバイアスが生じる
–予測値が負になる
第2回春の方法論セミナー 41
カウントデータ
• ある事象が生じた回数についてのデータ
第2回春の方法論セミナー 42
カウントデータに線形回帰
• 予測値に負の値が出ることがある
第2回春の方法論セミナー 43
カウントデータにポアソン回帰
• 予測値が負にならない
第2回春の方法論セミナー 44
事例:経験サンプリングデータ
• 1週間,毎日抑うつ尺度に回答を求める
–抑うつ尺度は正規分布にならない
–一人の参加者ごとに,7日分のデータがある
• 負の二項分布+反復測定
–一人が複数回答えるので,個人差の推定が必要
–正規分布にならないので,負の二項分布を適用
–負の二項分布回帰+変量効果
第2回春の方法論セミナー 45
例えば,こんなデータ
第2回春の方法論セミナー 46
ID 時点 抑うつ 説明変数1 1 24 21 2 3 71 3 15 91 4 3 51 5 18 52 1 6 92 2 21 02 3 9 82 4 3 72 5 0 13 1 9 83 2 6 103 3 12 83 4 3 83 5 18 7
例:GHQの分布(実際のデータ)
第2回春の方法論セミナー 47
係数 標準誤差 Z値 p値切片 2.826 0.026 108.417 .000過分散 0.702 0.035 20.028 .000 **
症状があれば1,なければ0の2件法60項目
モデリング
• 分布は負の二項分布– ポアソン分布+変量効果(時点間変動)でもよい
• AICを利用して,どちらがよいか比較可能
• リンク関数– 予測値が負にならないように対数リンクを使う
• 個人間変動を変量効果で推定– 個人から複数回測定しているので,日々の変動以外の,安定した個人の抑うつの分散が推定できる
第2回春の方法論セミナー 48
比率データ
第2回春の方法論セミナー 49
比率データ
• 試行回数中の生起数の比率– 20問中何問正解したか・・・正答率
–思い浮かべた友人の中での,親友の割合
• 比率データを線形回帰に当てはめると・・・–試行数の違いをモデルに組み込めない
• 推定値にバイアスが生じる
–予測値が負になったり,試行数を超える• 正確な予測ができない
第2回春の方法論セミナー 50
比率データに線形回帰
• 予測値に負の値が出ることがある
第2回春の方法論セミナー 51
比率データに二項分布回帰
• 予測値が0から試行回数に収まる
第2回春の方法論セミナー 52
事例:記憶実験
• 複数の問題への正答率を条件で比較
– 20問中,何問正答するか?
–実験条件と統制条件の正答率の違いを見たい
• 比率データ+個人間変動
–正答率の変動は,二項分布+正規分布(個人差)
• 個人差を別に正規分布として推定
–二項分布回帰+変量効果
第2回春の方法論セミナー 53
例えば,こんなデータ
第2回春の方法論セミナー 54
ID 正答数 回答数 正答率 条件1 8 10 0.8 02 1 10 0.1 03 1 10 0.1 04 5 10 0.5 05 6 10 0.6 06 1 10 0.1 07 3 10 0.3 08 1 10 0.1 09 2 10 0.2 110 1 10 0.1 111 7 10 0.7 112 9 10 0.9 113 3 10 0.3 114 3 10 0.3 115 1 10 0.1 1
モデリング
• 分布は二項分布
– 2値(0,1)データの和は,二項分布で近似
• リンク関数はロジスティック
–上限と下限を超えないよう,ロジスティックで変換
• 個人差を変量効果で推定
–二項分布でとらえられない個人間変動を推定
第2回春の方法論セミナー 55
多値カテゴリカルデータ
第2回春の方法論セミナー 56
多値カテゴリカルデータ
• 順序カテゴリカルデータ– カテゴリが多値で,順序性がある
– リッカート尺度,学歴,主観的階層意識
–順序ロジスティック回帰
• 名義カテゴリカルデータ– カテゴリが多値で,順序性がない
–性別,職業カテゴリ
–名義ロジスティック回帰
第2回春の方法論セミナー 57
事例:サポートについて質問紙調査
• 家族,友人,知り合いから得られるサポート
–なぜか1項目で測定してしまった
• 〇〇からあなたはどれほどサポートを受けていますか
–回答者の個人差だけでなく,サポート提供者間の変動も存在する
• 個人差と対象差を変量効果で推定
–二重にネストされたデータ
第2回春の方法論セミナー 58
例えば,こんなデータ
第2回春の方法論セミナー 59
ID 対象 サポート 説明変数1 家族 1 01 友人 5 21 知り合い 2 62 家族 4 102 友人 4 32 知り合い 2 13 家族 4 53 友人 3 13 知り合い 3 14 家族 2 14 友人 5 64 知り合い 5 75 家族 2 45 友人 3 75 知り合い 2 0
モデリング
• 分布は多項分布
–二項分布の多値バージョン
• リンク関数は累積ロジスティック
– カテゴリの順序性を仮定したロジスティックリンク
• 個人間変動と対象間変動
–二種類の変量効果を推定する必要性
第2回春の方法論セミナー 60
GLMMのススメ
第2回春の方法論セミナー 61
社会心理学でGLMMは必要?
• いつでも必要なわけじゃない
–正規分布が仮定できる2群の平均値差の検定に,わざわざGLMMを使う必要はない
– しかし,われわれが思っているより「既存の方法」の守備範囲は狭い
• GLMMでどんなデータでも扱える
–無理に正規分布の枠に当てはめる必要がない
–自由な発想でデータを収集することができる
第2回春の方法論セミナー 62
反復測定データ→ 分散分析?
• 分散分析で十分個人差は考慮してきた?–分散分析はネストされたデータの変動を固定効果として推定
–複雑な要因計画では自由度補正がいっぱい• 球面性,単純効果検定・・・
• 正規分布でないなら,変数変換がある?–推定精度はどうしても低くなる
– 2値データはどうやっても正規分布で近似できない
第2回春の方法論セミナー 63
古典的手法を使い続けるということ
• 分散分析は,いわばWindows XP– 使い慣れていて快適・・・SP10ぐらいのバージョンアップ
– しかし,もはや最適な分析手法ではない• セキュリティホール(TypeⅠエラーの罠)がいっぱい
• すでにWindows7どころか,もう8も出てる– 線形混合モデル,HLM,そしてGLMM
– 分散分析の欠点はほとんど解決される• 正規性の仮定 → 正規分布以外の分布が使える
• 球面性の仮定 → 残差共分散もモデリングできる
• 分散の均一性の仮定 → 頑健な標準誤差を利用できる
第2回春の方法論セミナー 64
え?Mac(=ベイズ)でいいじゃん?
• Windows(=最尤法)がそもそも・・・という人も–ベイズ推定は,モデルが複雑になっても無理がなくスムーズに推定できる• 階層ベイズモデルはGLMMを包含している
– MCMCの恩恵による
• ベイズ推定に乗り換える人も多数–経済学や他の社会科学では普通に使われている
–今回はこれがメインじゃないので紹介までに。
第2回春の方法論セミナー 65
第2回春の方法論セミナー 66
GLMMが動くソフトウェア
• SPSS・・・△– 一般化線形混合モデル– しかし,疑似尤度による計算 → 推定精度がよくない
• SAS・・・◎– GLIMMIXプロシージャ– 無償版でも使える → オススメ!
• R・・・○– lme4パッケージかglmmMLパッケージ– SASほど細かな指定はできないが,十分つかえる
第2回春の方法論セミナー 67
※あくまで個人の感想です
「GLMMをSASで実行する方法」
第2回春の方法論セミナー 68
「GLMMをSASで実行する方法」
第2回春の方法論セミナー 69
GLMMがもつインプリケーション
• 統計モデルがそのものの理解が深まる– 確率分布のパラメータを推定
• 正規分布・・・平均と分散
• 二項分布・・・生起確率
• ポアソン分布・・・平均(平均と分散は等しい)
• データの生成メカニズムを意識することができる– 統計モデルは,データ生成のメカニズムを表現
– 効果があるかないかではなく,手元にあるデータがどのように生み出されているかに注目
第2回春の方法論セミナー 70
説明モデルと予測モデル
• 社会心理学は説明モデルを作るのが好き
– どの変数にどれくらい効果があるのか
– 独立変数が決まった時,従属変数がどのような値になるのかはあまり考慮されない
• 予測モデル
– 説明変数の値がわかれば,目的変数を予測できる
– 推定したモデルに従ってデータを生成したとき,同じようなデータが次も得られるか?
• 情報量規準の考え方
第2回春の方法論セミナー 71
最後に
• とりあえず,一度GLMMを触ってみてください–いますぐに必要じゃないが・・・
–使えたらこれほど便利なものはない• SAS無償版がオススメ
• 使わなくてもいいが,理解できる必要はある– GLMMを使った論文はバンバンでてくる
• Rのlme4やglmmMLの貢献は大きい
–使えると,なおよい• 学生がどんなデータ持ってきてもドヤ顔できる
第2回春の方法論セミナー 72
※あくまで個人の感想です
まずはHLMからでも・・
第2回春の方法論セミナー 73
おつかれさまでした
• GLMM = 一般化線形混合モデル
–いろんな分布 + 変量効果
• 清水裕士
– http://norimune.net
第2回春の方法論セミナー 74