Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1 of 74

Related Books

Free with a 30 day trial from Scribd

See all

社会心理学とGlmm

  1. 1. 社会心理学とGLMM 清水裕士 第2回春の方法論セミナー 1
  2. 2. 自己紹介 • 清水裕士 – 広島大学大学院総合科学研究科 助教 – ※現在は関西学院大学社会学部 准教授 – 専門:社会心理学 – Twitter: @simizu706 • 心理統計が,好きです – 統計ソフトウェア作ってます • HADといいます • GLMMはできません 第2回春の方法論セミナー 2
  3. 3. 「みどりぼん」の図 第2回春の方法論セミナー 3
  4. 4. 久保先生の講演おさらい • なんでも線を引けばいいわけじゃない – 正規分布+線形を仮定すると予測値が負の値になっ たり,分散が均一じゃなくなることがある – GLM(一般化線形モデル)が必要 • 過分散やブロック間の変動をモデリング – GLMでは個人差を正しくモデリングできない – ブロック差も推定に大きく影響する – 変量効果を導入することで,これらを解決 • 複雑なモデルはMCMCが有効 第2回春の方法論セミナー 4
  5. 5. GLMMのおさらい • 線形モデル – 重回帰分析・分散分析・共分散分析 – 正規性を仮定した線形結合によるモデル • 一般化線形モデル – ロジスティック回帰,ポアソン回帰,順序回帰・・・ – 正規分布以外の指数型分布族を扱える • 線形混合モデル – Mixedモデル・階層線形モデル – 変量効果を扱えるようになったモデル 第2回春の方法論セミナー 5
  6. 6. GLMMのおさらい • 一般化線形混合モデル – 一般化線形モデル – 線形混合モデル – この二つの要素を両方持つモデル – 線形モデル+いろんな分布+変量効果 第2回春の方法論セミナー 6
  7. 7. 清水の発表概要 • 変量効果について – 社会心理学において出会う「変量効果」 • GLMMの社会心理学における事例 – 具体的な事例を挙げて,GLMMを考える • GLMMのススメ – 結局,GLMMっているの? 第2回春の方法論セミナー 7
  8. 8. 変量効果(random effect) について 第2回春の方法論セミナー 8
  9. 9. 変量効果って? • 個人やブロックによって効果が変わる – 定数で得られず,対象によって変化する – 正確に言えば,確率分布に従う • 固定効果(fixed effect)と変量効果(random effect) – 固定効果:定数として得られるパラメータ • サンプル全体の特徴を表す – 変量効果:確率変数として得られるパラメータ • それぞれの対象ごとの特徴を表す 第2回春の方法論セミナー 9
  10. 10. 線形モデルにおける変量効果 • Yi = b0 + b1 Xi + ei • 切片と回帰係数 – b0とb1は定数なので,「固定効果」と呼ぶ • 残差 – eiは人によって値が違うので,「変量効果」と呼ぶ • 確率変数として表現する – 変量効果は,その分散を推定する • ei ~ N(0, σ ) • 残差は,平均0,分散σの正規分布に従う 10第2回春の方法論セミナー
  11. 11. 線形モデルにおける変量効果 • 変動の種類が一つだけ – しかし,残差はモデルではない • 残差以外の変動を推定 → 線形混合モデル – 集団でネストされたデータの集団間変動 – 反復測定データの個人変動 – 仮定した分布を超える変動(過分散) 第2回春の方法論セミナー 11
  12. 12. なぜ変量効果を推定するのか • サンプルが独立に抽出されていない場合 – ネストされたデータの場合に必要になる – 変量効果を適切に推定しないと,推定精度を過 大視してしまう • データがモデルの想定する分布に合わない – 二項分布やポアソン分布の過分散を調整 – 個人差を正規分布で推定する 第2回春の方法論セミナー 12
  13. 13. 例1:個人と集団のデータ • 集団内に複数の個人が含まれる – データの構造が階層性を持っている • 集団内の個人は独立 – ネストされたデータ • 階層線形モデル – 集団間変動と個人間変動の両方をモデリング 第2回春の方法論セミナー 13
  14. 14. データセット 第2回春の方法論セミナー 14 group individual y x 1 1 3 3 1 2 3 3 1 3 3 3 2 4 3 3 2 5 2 3 2 6 2 3 3 7 1 2 3 8 3 2 3 9 3 2 4 10 1 1 4 11 1 1 4 12 1 1 5 13 2 5 5 14 3 5 5 15 2 5
  15. 15. モデリング • 複数の添え字がつく – Yij = b0 + b1Xj + uj + eij – 例えば,iは個人を,jは集団を意味する • 推定するパラメータ – bは添え字がついていないので固定効果 – uは集団についての変量効果(集団間変動) • この集団間変動を別の変数で説明も可能 – eは個人(残差)についての変量効果 第2回春の方法論セミナー 15
  16. 16. Rで分析(lmer関数) 第2回春の方法論セミナー 16
  17. 17. 例2:反復測定データ • 同じ参加者から何度もデータをとる – 個人内で試行が繰り返されている – 例1と同様,ネストされたデータ • 試行間に相関が生じる – 時系列があるので,球面性は成り立たないこともある • 線形混合モデル – 分散分析では個体間の変動を固定効果として推定し ている 第2回春の方法論セミナー 17
  18. 18. データセット 第2回春の方法論セミナー 18 individual time y x 1 1 3 3 1 2 3 3 1 3 3 3 2 1 3 3 2 2 2 3 2 3 2 3 3 1 1 2 3 2 3 2 3 3 3 2 4 1 1 1 4 2 1 1 4 3 1 1 5 1 2 5 5 2 3 5 5 3 2 5
  19. 19. モデリング • 先ほどと式は同じ – Yij = b0 + b1Xj + uj + eij – iは試行を,jは個人を意味する • 推定するパラメータ – bは固定効果で,切片と回帰係数 – uは個人についての変量効果(個人間変動) – eは試行(残差)についての変量効果 • 試行間に相関がある場合がある 第2回春の方法論セミナー 19
  20. 20. 例3:反復刺激データ • すべての参加者に同じ刺激セットを反復呈示 – 例2と同様に,反復測定データ – しかし,データは刺激間変動も考慮する必要 • Cross Classified データ – データは個人にも刺激にもネストされている • 線形混合モデル – 三種類の変量効果(個体,刺激,残差)を推定 第2回春の方法論セミナー 20
  21. 21. データセット 第2回春の方法論セミナー 21 individual item y x 1 1 3 3 1 2 3 3 1 3 3 3 2 1 3 3 2 2 2 3 2 3 2 3 3 1 1 2 3 2 3 2 3 3 3 2 4 1 1 1 4 2 1 1 4 3 1 1 5 1 2 5 5 2 3 5 5 3 2 5
  22. 22. モデリング • 変量効果が2種類+残差 – Yij = b0 + b1Xj + u1i + u2j + eij – iは刺激を,jは個人を意味する • 推定するパラメータ – bは固定効果 – u1は刺激についての変量効果 – u2は個人についての変量効果 – eは残差の変量効果 第2回春の方法論セミナー 22
  23. 23. Rで分析(lmer関数) 第2回春の方法論セミナー 23
  24. 24. 例4:離散分布を仮定したモデル • 二項分布やポアソン分布 – 平均が決まれば,分散も自動的に決まる • 残差の変動が分布の仮定よりも大きい場合 – 過分散という – 推定にバイアスが生じる • 説明しきれない変動を変量効果で推定 – 離散分布+正規分布というモデル化 第2回春の方法論セミナー 24
  25. 25. データセット 第2回春の方法論セミナー 25 ID y x 1 1 4 2 5 3 3 4 6 4 6 5 5 7 5 6 1 5 7 7 3 8 3 4 9 1 4 10 9 7 11 0 3 12 5 4 13 1 2 14 0 4 15 0 5
  26. 26. モデリング • ロジスティック回帰分析 – logit (pi) = log(pi / (1-pi)) = b0 + b1Xi – ロジットリンクで線形モデルに変換 – yiは二項分布を仮定 • 分散パラメータがない • GLMMで残差の変動を変量効果として推定 – log(pi / (1-pi)) = b0 + b1Xi + ei – eを加えることで個体差をモデリング 第2回春の方法論セミナー 26
  27. 27. Rで分析(glmer関数) 第2回春の方法論セミナー 27
  28. 28. 社会心理学とGLMM 第2回春の方法論セミナー 28
  29. 29. 正規分布に縛られた世界 • 正規分布ありきで計画されるデータ分析 – 正規分布じゃないから,この項目は削ろう – 正規分布じゃないから,t検定できないね – 正規分布じゃないから,以下略 • 正規分布じゃないのに適用されるデータ分析 – 正規分布じゃないけど,t検定やってみた – 正規分布じゃないけど,有意だった – 分布見てないけど,分散分析やってみた 第2回春の方法論セミナー 29
  30. 30. 身近にある 「非」 正規分布 • 学生ほどそういうデータを持ってくる – 友人の中で親友が何人いるかの割合が知りたい – なんかこの尺度,正規分布じゃないから分散分 析しちゃいけないって言われたんですけど~ – え?1項目でとったんですけど? 第2回春の方法論セミナー 30
  31. 31. 正規分布以外の指数型分布 • 二項分布 – 成功と失敗など,2値をとりうる離散データの分布 • 多項分布 – 多値をとりうる離散データの分布 – 順序カテゴリデータの分布 • ポアソン分布・負の二項分布 – 0以上の整数値をとりうる変数の離散分布 – 特に,生起頻度が少ない場合の分布 第2回春の方法論セミナー 31
  32. 32. 正規分布以外の指数型分布 • 対数正規分布 – 正の値をとる連続変量 • ガンマ分布 – 正の値をとる連続変量 • ベータ分布 – 0~1の間を取る連続変量 第2回春の方法論セミナー 32
  33. 33. 二値データ 第2回春の方法論セミナー 33
  34. 34. 二値データ • はい・いいえ の2択データ – 他にも,「する・しない」,「正解・不正解」など • 二値データを線形回帰に当てはめると・・・ – 推定値と標準誤差にバイアス • 効果量を正しく推定できない – 予測値がとりえない数値になる • 正しい予測ができない 第2回春の方法論セミナー 34
  35. 35. 二値データに線形回帰 • 予測値が0と1の間に収まらない 第2回春の方法論セミナー 35
  36. 36. 二値データにロジスティック回帰 • 予測値が0と1の間に収まる 第2回春の方法論セミナー 36
  37. 37. 事例: Web調査で階層データ • 全国から,たくさんの人をWebでサンプリング – 選挙に投票したか否かを測定(二値データ) – 地域ごとの投票行動の違いが分析したい • 二項分布+個人・集団のネストデータ – 地域の中にもそれぞれたくさん回答者がいる – 二値データは二項分布に従う – ロジスティック+変量効果(地域間変動) 第2回春の方法論セミナー 37
  38. 38. 例えば,こんなデータ 第2回春の方法論セミナー 38 ID 地域 投票 説明変数 1 北海道 0 8 2 北海道 1 0 3 北海道 1 5 4 北海道 0 3 5 北海道 0 3 6 北海道 0 5 7 北海道 1 6 8 青森 0 2 9 青森 1 9 10 青森 1 8 11 青森 0 1 12 青森 1 2 13 秋田 1 5 14 秋田 1 3 15 秋田 0 8
  39. 39. モデリング • 分布は二項分布 – データに合わせた分布を選ぶ • リンク関数はロジスティック – 分布と線形モデルがフィットするように変換 – 最小値と最大値を超えないようにする • 地域間変動を変量効果として推定 – いわゆるロジスティック階層線形モデル 第2回春の方法論セミナー 39
  40. 40. カウントデータ 第2回春の方法論セミナー 40
  41. 41. カウントデータ • ある事象が生じた回数についてのデータ – 非負の整数をとるデータ – ある症状群について当てはまる個数 – 1日でメールをする回数 • カウントデータを線形回帰に当てはめると・・ – 生起確率が低い場合,推定にバイアスが生じる – 予測値が負になる 第2回春の方法論セミナー 41
  42. 42. カウントデータ • ある事象が生じた回数についてのデータ 第2回春の方法論セミナー 42
  43. 43. カウントデータに線形回帰 • 予測値に負の値が出ることがある 第2回春の方法論セミナー 43
  44. 44. カウントデータにポアソン回帰 • 予測値が負にならない 第2回春の方法論セミナー 44
  45. 45. 事例: 経験サンプリングデータ • 1週間,毎日抑うつ尺度に回答を求める – 抑うつ尺度は正規分布にならない – 一人の参加者ごとに,7日分のデータがある • 負の二項分布+反復測定 – 一人が複数回答えるので,個人差の推定が必要 – 正規分布にならないので,負の二項分布を適用 – 負の二項分布回帰+変量効果 第2回春の方法論セミナー 45
  46. 46. 例えば,こんなデータ 第2回春の方法論セミナー 46 ID 時点 抑うつ 説明変数 1 1 24 2 1 2 3 7 1 3 15 9 1 4 3 5 1 5 18 5 2 1 6 9 2 2 21 0 2 3 9 8 2 4 3 7 2 5 0 1 3 1 9 8 3 2 6 10 3 3 12 8 3 4 3 8 3 5 18 7
  47. 47. 例:GHQの分布(実際のデータ) 第2回春の方法論セミナー 47 係数 標準誤差 Z値 p値 切片 2.826 0.026 108.417 .000 過分散 0.702 0.035 20.028 .000 ** 症状があれば1, なければ0の2件法 60項目
  48. 48. モデリング • 分布は負の二項分布 – ポアソン分布+変量効果(時点間変動)でもよい • AICを利用して,どちらがよいか比較可能 • リンク関数 – 予測値が負にならないように対数リンクを使う • 個人間変動を変量効果で推定 – 個人から複数回測定しているので,日々の変動以外 の,安定した個人の抑うつの分散が推定できる 第2回春の方法論セミナー 48
  49. 49. 比率データ 第2回春の方法論セミナー 49
  50. 50. 比率データ • 試行回数中の生起数の比率 – 20問中何問正解したか・・・正答率 – 思い浮かべた友人の中での,親友の割合 • 比率データを線形回帰に当てはめると・・・ – 試行数の違いをモデルに組み込めない • 推定値にバイアスが生じる – 予測値が負になったり,試行数を超える • 正確な予測ができない 第2回春の方法論セミナー 50
  51. 51. 比率データに線形回帰 • 予測値に負の値が出ることがある 第2回春の方法論セミナー 51
  52. 52. 比率データに二項分布回帰 • 予測値が0から試行回数に収まる 第2回春の方法論セミナー 52
  53. 53. 事例: 記憶実験 • 複数の問題への正答率を条件で比較 – 20問中,何問正答するか? – 実験条件と統制条件の正答率の違いを見たい • 比率データ+個人間変動 – 正答率の変動は,二項分布+正規分布(個人差) • 個人差を別に正規分布として推定 – 二項分布回帰+変量効果 第2回春の方法論セミナー 53
  54. 54. 例えば,こんなデータ 第2回春の方法論セミナー 54 ID 正答数 回答数 正答率 条件 1 8 10 0.8 0 2 1 10 0.1 0 3 1 10 0.1 0 4 5 10 0.5 0 5 6 10 0.6 0 6 1 10 0.1 0 7 3 10 0.3 0 8 1 10 0.1 0 9 2 10 0.2 1 10 1 10 0.1 1 11 7 10 0.7 1 12 9 10 0.9 1 13 3 10 0.3 1 14 3 10 0.3 1 15 1 10 0.1 1
  55. 55. モデリング • 分布は二項分布 – 2値(0,1)データの和は,二項分布で近似 • リンク関数はロジスティック – 上限と下限を超えないよう,ロジスティックで変換 • 個人差を変量効果で推定 – 二項分布でとらえられない個人間変動を推定 第2回春の方法論セミナー 55
  56. 56. 多値カテゴリカルデータ 第2回春の方法論セミナー 56
  57. 57. 多値カテゴリカルデータ • 順序カテゴリカルデータ – カテゴリが多値で,順序性がある – リッカート尺度,学歴,主観的階層意識 – 順序ロジスティック回帰 • 名義カテゴリカルデータ – カテゴリが多値で,順序性がない – 性別,職業カテゴリ – 名義ロジスティック回帰 第2回春の方法論セミナー 57
  58. 58. 事例: サポートについて質問紙調査 • 家族,友人,知り合いから得られるサポート – なぜか1項目で測定してしまった • 〇〇からあなたはどれほどサポートを受けていますか – 回答者の個人差だけでなく,サポート提供者間の 変動も存在する • 個人差と対象差を変量効果で推定 – 二重にネストされたデータ 第2回春の方法論セミナー 58
  59. 59. 例えば,こんなデータ 第2回春の方法論セミナー 59 ID 対象 サポート 説明変数 1 家族 1 0 1 友人 5 2 1 知り合い 2 6 2 家族 4 10 2 友人 4 3 2 知り合い 2 1 3 家族 4 5 3 友人 3 1 3 知り合い 3 1 4 家族 2 1 4 友人 5 6 4 知り合い 5 7 5 家族 2 4 5 友人 3 7 5 知り合い 2 0
  60. 60. モデリング • 分布は多項分布 – 二項分布の多値バージョン • リンク関数は累積ロジスティック – カテゴリの順序性を仮定したロジスティックリンク • 個人間変動と対象間変動 – 二種類の変量効果を推定する必要性 第2回春の方法論セミナー 60
  61. 61. GLMMのススメ 第2回春の方法論セミナー 61
  62. 62. 社会心理学でGLMMは必要? • いつでも必要なわけじゃない – 正規分布が仮定できる2群の平均値差の検定に, わざわざGLMMを使う必要はない – しかし,われわれが思っているより「既存の方法」 の守備範囲は狭い • GLMMでどんなデータでも扱える – 無理に正規分布の枠に当てはめる必要がない – 自由な発想でデータを収集することができる 第2回春の方法論セミナー 62
  63. 63. 反復測定データ → 分散分析? • 分散分析で十分個人差は考慮してきた? – 分散分析はネストされたデータの変動を固定効果 として推定 – 複雑な要因計画では自由度補正がいっぱい • 球面性,単純効果検定・・・ • 正規分布でないなら,変数変換がある? – 推定精度はどうしても低くなる – 2値データはどうやっても正規分布で近似できない 第2回春の方法論セミナー 63
  64. 64. 古典的手法を使い続けるということ • 分散分析は,いわばWindows XP – 使い慣れていて快適・・・SP10ぐらいのバージョンアップ – しかし,もはや最適な分析手法ではない • セキュリティホール(TypeⅠエラーの罠)がいっぱい • すでにWindows7どころか,もう8も出てる – 線形混合モデル,HLM,そしてGLMM – 分散分析の欠点はほとんど解決される • 正規性の仮定 → 正規分布以外の分布が使える • 球面性の仮定 → 残差共分散もモデリングできる • 分散の均一性の仮定 → 頑健な標準誤差を利用できる 第2回春の方法論セミナー 64
  65. 65. え?Mac(=ベイズ)でいいじゃん? • Windows(=最尤法)がそもそも・・・という人も – ベイズ推定は,モデルが複雑になっても無理がなく スムーズに推定できる • 階層ベイズモデルはGLMMを包含している – MCMCの恩恵による • ベイズ推定に乗り換える人も多数 – 経済学や他の社会科学では普通に使われている – 今回はこれがメインじゃないので紹介までに。 第2回春の方法論セミナー 65
  66. 66. 第2回春の方法論セミナー 66
  67. 67. GLMMが動くソフトウェア • SPSS・・・△ – 一般化線形混合モデル – しかし,疑似尤度による計算 → 推定精度がよくない • SAS・・・◎ – GLIMMIXプロシージャ – 無償版でも使える → オススメ! • R・・・○ – lme4パッケージかglmmMLパッケージ – SASほど細かな指定はできないが,十分つかえる 第2回春の方法論セミナー 67 ※あくまで個人の感想です
  68. 68. 「GLMMをSASで実行する方法」 第2回春の方法論セミナー 68
  69. 69. 「GLMMをSASで実行する方法」 第2回春の方法論セミナー 69
  70. 70. GLMMがもつインプリケーション • 統計モデルがそのものの理解が深まる – 確率分布のパラメータを推定 • 正規分布・・・平均と分散 • 二項分布・・・生起確率 • ポアソン分布・・・平均(平均と分散は等しい) • データの生成メカニズムを意識することができる – 統計モデルは,データ生成のメカニズムを表現 – 効果があるかないかではなく,手元にあるデータがど のように生み出されているかに注目 第2回春の方法論セミナー 70
  71. 71. 説明モデル と 予測モデル • 社会心理学は説明モデルを作るのが好き – どの変数にどれくらい効果があるのか – 独立変数が決まった時,従属変数がどのような値に なるのかはあまり考慮されない • 予測モデル – 説明変数の値がわかれば,目的変数を予測できる – 推定したモデルに従ってデータを生成したとき,同じ ようなデータが次も得られるか? • 情報量規準の考え方 第2回春の方法論セミナー 71
  72. 72. 最後に • とりあえず,一度GLMMを触ってみてください – いますぐに必要じゃないが・・・ – 使えたらこれほど便利なものはない • SAS無償版がオススメ • 使わなくてもいいが,理解できる必要はある – GLMMを使った論文はバンバンでてくる • Rのlme4やglmmMLの貢献は大きい – 使えると,なおよい • 学生がどんなデータ持ってきてもドヤ顔できる 第2回春の方法論セミナー 72 ※あくまで個人の感想です
  73. 73. まずはHLMからでも・・ 第2回春の方法論セミナー 73
  74. 74. おつかれさまでした • GLMM = 一般化線形混合モデル – いろんな分布 + 変量効果 • 清水裕士 – http://norimune.net – simizu706@norimune.net 第2回春の方法論セミナー 74

×