SlideShare a Scribd company logo
1 of 26
Download to read offline
Rubinの論文
(の行間)を読んでみる
傾向スコア解析の理論
2015/06/15 学生セミナー
バイオ統計センターM1 宜保光一郎
http://faculty.smu.edu/Millimet/classes/eco7377/papers/rosenbaum%20rubin%2083a.pdf
http://www.
stat.harvard
.edu/DonRu
bin70/
Introduction
• 1983年の論文を意訳していきます
• 重要な「large sampleで傾向スコアがなぜ機能
するか」の証明まで。
• 証明は元論文ではわかりにくいので、前述した2
015年出版の書籍での証明をさらに噛み砕くこ
とを狙う(一部?のところはあるが..)
• 条件付き期待値のもろもろの定理を駆使して証
明していくので、以下のURLなどを参照。
• http://math.arizona.edu/~tgk/464_07/cond_exp.pdf
• 実践的な話はナシです。
Notation
• i: ユニットの番号
• r: アウトカム
• z: 割り付けの指標。z={1,0}
• r1i: 1の割り付けをされたユニットiの周辺アウト
カム→後述
• xi: ユニットiの観察された共変量(ベクトル)
Causal Inference
• ある割り付けをされたとき(e.g. treatment V.S
. control)に、その割り付けによる効果について
の推定をしたい
• その効果を因果効果(causal effect)とよぶ。
• 効果の推定を以下の式で表すときに
• これをAverage treatment effect(ATE) と呼ぶ
E(r1)−E(r0)
Motivation
• ATEはRCTにおいては直接測定できる。
• なぜなら、割り付けはランダムに行われおり、
両群の背景は同一と考えられるから。
• (後述するが、割り付けはランダムなので、アウ
トカムと独立しているから)
• しかし、非RCTにおいてはATEを直接推定する
ことは困難。
• なぜか?
E(r1∣z=1)−E(r0∣z=0)
Motivation
• ATEはRCTにおいては直接測定できる。
• なぜなら、割り付けはランダムに行われおり、
両群の背景は同一と考えられるから。
• (後述するが、割り付けはランダムなので、アウ
トカムと独立しているから)
• しかし、非RCTにおいてはATEを直接推定する
ことは困難。
• なぜか?
E(r1∣z=1)−E(r0∣z=0)
Rubin’s potential outcome
E[r1
| z=1]
i=1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
ATE
E[r0
| z=0]
Rubin’s potential outcome
E[r1
| z=1]
i=1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
ATE
E[ r0 | z=1 ]
E[ r1 | z=0 ]
E[r0
| z=0]
Rubin’s potential outcome
z=1 z=0
E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ]
E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ]
Rubin’s potential outcome
z=1 z=0
E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ]
E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ]
この周辺和の差がATE
現実では欠測している(反事実)
Rubin’s potential outcome
z=1 z=0
E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ]
E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ]
この周辺和の差がATE
現実では欠測している(反事実)
現実はこの両者しか直接推定で
きない(因果推論の根本問題)
RCT
z=1 z=0
E[ r1 ] E[ r1 | z=1 ]
E[ r0 ] E[ r0 | z=0 ]
ランダム割り付け
=
=
(r1 ,r0)⊥z
Strongly ignorable treatment assignment
z=1 z=0
E[ r1 ] E[ r1 | z=1 ]
E[ r0 ] E[ r0 | z=0 ]
(観測された)共変量 x
(r1 ,r0)⊥z∣x
目標はこれを利用することだが
、xはベクトルなので使いづらい。
よってxを簡易にしたものを探
すことにする
Strongly ignorable treatment assignment
• 観測された共変量xで条件づけると、アウトカム
と割り付けの確率は独立になる=RCTのように
比較ができるという、仮定
• かなり強い仮定のように思えるが、この仮定が
傾向スコア解析の肝
• この仮定が本当に成り立っているかは、非常に
重要なのだが直接確かめる方法は存在しないた
め、間接的な確認を行う。
Balancing score
• 定義:バランシングスコアb(x)とは、共変量xか
ら成る関数で、それで条件付けると割り付けzと
共変量xが独立になるようなものである
• 条件つき独立の性質からb(x)=xとなり得るのは
自明である
• 一番関心があるのはb(x)がスカラーとなる場合
→これが後の傾向スコアとなる
z ⊥ x∣b(x)
Propensity score
• 定義:傾向スコアe(x)は共変量xから成る関
数で、z=1に割り付けされる確率である。
• (前述のバランシングスコアとの関係は定義
上では明らかでないことに注意)
• i={1,2,..,n}の同時確率は、独立なベルヌー
イ分布を考え、次のように表すことができる
e(x)= pr(z=1∣x)
Pr(z1 ,..., zn∣x1 ,..., xn)=∏
n
e(xi)
xi
[1−e(xi)]
1−xi
定理
• これからいくつかの定理を証明する。示したい
ことは
• 1. 傾向スコアはバランシングスコアである
• 2. 全てのバランシングスコアに適当な関数をと
れば、傾向スコアと等しくなる(最も”粗い”もの
が傾向スコア)
• 3. もし、共変量xのもとでstorngly ignorableで
あれば、バランシングスコアで条件付けてもそ
うである
Theorem 1
•      を証明できれば、z ⊥x∣e(x)
Pr(z=1∣x ,e(x))=E(z∣x ,e(x))
=E(z∣x)
=e(x)
Pr(z=1∣e(x))=E(z∣e(x))
=E[E(z∣x ,e(x))∣e(x)]
=E[e(x)∣e(x)]
=e(x)
Pr(z=1∣x ,e(x))=Pr(z=1∣e(x))⇔ z⊥x∣e(x)∴
∵
Definition of Conditional Independence
E[ A∣B , g (B)]=E[A∣B]∵
E[E(A∣B ,C)∣B]=E[A∣B]∵
E[g (A)∣A]=g (A)
e(x)⊆b(x)
Theorem 2
バランシングスコアの定義からe(x)=f{b(x)}であることを
背理法で証明する。
全てのb(x)に対しe(x)≠f{b(x)}とすると、e(x1)≠e(x2)かつ
b(x1)=b(x2)となる2つの異なるx1, x2が存在する。よって、
e(x1)=E(z∣x1)=E(z∣b(x1), x1)=E(z∣b(x1))=E(z∣b(x2))=E(z∣x2)
E[ A∣B , g (B)]=E[A∣B] Definition of balancing score
e(x1)=e(x2)となり矛盾。ゆえに、バランシングスコアが定義され
れば、e(x)=f{b(x)}が言える。(逆も言える。証明可能。)
Theorem 3
• 目標は
• 同様に、b(x)をe(x)としても成り立つ。
E[E(A∣B ,C)∣B]=E[A∣B]
Strongly ignorable treatment assignment
Definition of balancing score
Tower property of conditional expectation
(r1 ,r0)⊥ z∣b(x)
Pr(z=1∣r1 ,r0 ,b(x))=E[z∣r1 ,r0 ,b(x)]
=E[E(z∣r1 , r0 , x ,b(x))∣r1 ,r0 ,b(x)]
=E[E(z∣x ,b(x))∣r1 ,r0 ,b(x)]
=E[E(z∣b(x))∣r1 ,r0 ,b(x)]
=E(z∣b(x))
=Pr(z=1∣b(x))
z=1 z=0
E[ r1 ] E[ r1 | z=1 ]
E[ r0 ] E[ r0 | z=0 ]
バランシングスコアb(x)
E[r1
| z=1,
b(x)]
E[r0
| z=0,
b(x)]
Theorem 4
E(r1∣z=1,b(x))−E(r0∣z=0,b(x))
=E(r1∣b(x))−E(r0∣b(x))
=E(r1−r0∣b(x))
Theorem 3
さらに期待値をとると、
E[E(r1−r0∣b(x))]=E(r1−r0) Law of iterative expectations
よって、E(r1
-r0
|b(x))を推定量と考えると
E(r1
-r0
)=ATEの不偏推定量となる
(ちなみに条件付き確率の期待値は確率変数)
Summary
•バランシングスコア(傾向スコアはその一
部)で条件付けると、割り付けz=1,0の両群の
アウトカムの平均値の差は、ATEの不偏推定量
となる。つまりATEの推定が可能となる。
•バランシングスコアの中でも傾向スコアは
最も粗く、1次元のスカラーなので、今後はこ
の傾向スコアを使用する
傾向スコアによる条件付け
① マッチング
② 層別化
③ 傾向スコアを共変量としての回帰モデル調
整
④ 傾向スコアによる重み付け推定法(IPW法)
それぞれに長所と短所がある。
ここまでで、とりあえず終了
Remarks
•論文はこの後”small sample
theory”,”some applications”と続いていく
•“strongly ignorable assumption”は最近は
”unconfoundness”と記述されることも多い
•実践的な適応については多くの資料が出回
っているので今回はパス

More Related Content

What's hot

因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"takehikoihayashi
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会takehikoihayashi
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-Koichiro Gibo
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回Hikaru GOTO
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38horihorio
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)Yoshitake Takebayashi
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択kazutantan
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展Shiga University, RIKEN
 
生存時間分析数理の基礎
生存時間分析数理の基礎生存時間分析数理の基礎
生存時間分析数理の基礎Koichiro Gibo
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~ Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~ Takashi J OZAKI
 

What's hot (20)

因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
Chapter2.3.6
Chapter2.3.6Chapter2.3.6
Chapter2.3.6
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
生存時間分析数理の基礎
生存時間分析数理の基礎生存時間分析数理の基礎
生存時間分析数理の基礎
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~ Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~
 
潜在クラス分析
潜在クラス分析潜在クラス分析
潜在クラス分析
 

Similar to Rubinの論文(の行間)を読んでみる-傾向スコアの理論-

ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRDaisuke Yoneoka
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章nocchi_airport
 
Rm20150513 4key
Rm20150513 4keyRm20150513 4key
Rm20150513 4keyyouwatari
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient DescentRyutaro Yamauchi
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』koji ochiai
 
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証Kow Kuroda
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場Daisuke Yoneoka
 

Similar to Rubinの論文(の行間)を読んでみる-傾向スコアの理論- (9)

ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
 
第2回DARM勉強会
第2回DARM勉強会第2回DARM勉強会
第2回DARM勉強会
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
Rm20150513 4key
Rm20150513 4keyRm20150513 4key
Rm20150513 4key
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』
 
Regression2
Regression2Regression2
Regression2
 
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
 

Rubinの論文(の行間)を読んでみる-傾向スコアの理論-