GEE(一般化推定方程式)の理論

GEE(一般化推定方程式)の理論
-Liang and Zeger, Biometorika 1986
の行間を読む-
宜保光一郎
2015/11/6

http://magazine.j
hsph.edu/2002/fa
ll/Accolades.html
http://www.jhsph.edu
/faculty/directory/prof
ile/3859/scott-zeger

はじめに
• このスライドは医学統計において重要な発展
の一つである一般化推定方程式(GEE)の理論
的な解説を目的としています。
• 原著はA4の3Pくらいで解説していますが、非
専門家が読むにはかなりつらいので、行間を
埋めるように心がけました。
• 数式の展開は結構面倒くさいので、もしかし
たら表記にちょっとした誤りがあるかもしれま
せん(limが抜けてたり、ベクトルがボルド体に
なっていなかったりetc.)。

PubMedにコメントもついている
• 機械学習領域で著名なTibshiraniがPubMed
にコメントを付けている
http://www.ncbi.nlm.nih.go
v/pubmed/3719049

Overview
• 全体を俯瞰すると、一般化線形モデルの拡
張である擬似尤度法(Wedderburn 1976)をさ
らに拡張したものといえる。
• まずは、①一般化線形モデルのおさらいをし
て、②擬似尤度法、③GEEと進めていく

概念図
GLM
Quasi-likelihood
GEE
制約
①アウトカムの分布が指数分
布族(の同時分布)
②アウトカムがそれぞれ独立
①を取り払う
②を取り払う

Notation 1
• Yi: i={1,2,..,N}番目の対象のアウトカム(反応変
数)
• Xi：p×1の共変量ベクトル
• Ex. “X1”は1番目の対象の共変量ベクトルを示す
• μi: i番目の対象の期待値=E[Yi|Xi1,Xi2,..,Xip]
• Var(Yi): i番目の反応変数の分散
• β: p×1の回帰係数ベクトル
• パラメータ(μ、β)の推定値にはハット(^)をつける
• 確率変数はY, 𝜇, 𝜷, である

復習：一般化線形モデルのステップ
• 一般化線形モデルは以下のステップを踏みパラメー
タβを推定する。(最尤推定法)
• ① Yi の確率分布を仮定する(ex.2値なら2項分布な
ど)。
• ② Yiの期待値に対する回帰モデルを立てる(リンク
関数hを介在させる)。
•
• ③ ①より尤度関数を作り、②を代入する。この尤度
関数を最大化するようなβを決定すればそれが最尤
推定量 𝛽である。対数をとった尤度関数をβについて
偏微分し、その関数(スコア関数)の根を求める。
( ) (1)T
i ih  X β

復習：最尤推定の一般例
• 一般化線形モデルでは反応変数の確率分布
は全て指数分布族を考えている。そして指数
分布族は全て以下の形で書ける
• ここでΘは興味のあるパラメーター、φは拡散パラメーター
• また、が導か
れる。さて、Yiがすべて独立であるとき尤度関
数は
( ) exp[{ ( ) ( )} ]i i i i if y y a b y    
( ) '( ), ( ) "( ) /i i i i iE y a Var y a     
1 2
1
( ; , ,.., ) ( )
N
N i
i
L y y y f y

 

• さてこの尤度関数を最大にするβを求めたい
のだが、このままだとやりにくいので対数を
とって和の形にする。その後βについて偏微
分し、極値をみつければ良い(高校数学！)
ここで、βはp×1のベクトル
• この対数尤度関数を偏微分したものをスコア
関数といい、一般的に次で示される
( ; ,.., ) log 0i Nl y y L
 
 
 β β
1
1
( ) { ( )} ( ) (2)
N
i
i i i
i
U Var Y y




 

β
β

• スコア関数＝0としたスコア方程式を解いて、
最尤推定量 𝜷を求める。
• この最尤推定量にはいくつかの望ましい性質
がある。
1. 一致性(Ｎ→∞につれて、推定量が真値に近づ
く)
2. 漸近正規性(N→∞につれて、推定量の分布が
正規分布となる)

最尤法の問題点
• 一般化線形モデルにおける最尤法の問題と
して、①アウトカムの分布が指数分布族では
無いとき、②アウトカムがそれぞれ独立では
無いとき、が挙げられる。
• 今から述べる擬似尤度は①の制約を取り払
い、GEEはさらに②の制約を(限定的ではある
が)取り払うような拡張をしていると解される。

擬似尤度(Wedderburn,1974)
• アウトカムの分布が指数分布族以外である場合
の有名な例が、ポアソン回帰モデルにおける過
分散(over-dipersion)の問題である
• カウントデータに対するポアソン回帰のあてはめ
では、アウトカムの真の分布がポアソン分布で
は無いために、分散の過剰評価が生じやすいこ
とが知られる。
• ならば、アウトカムの分布は考えなければ良い、
というアイディアが擬似尤度の考え方である。

• Yの分布が指数分布族であれば、
• より、両者の関係性が一意
に決まる。これを次に示す。
• 擬似尤度の考え方ではある重みViをVar(Yi)の
代わりとして考える。つまり、
とおく。
( ) '( ),i i iE Y a  
( ) "( ) /i iVar Y a  
( ) ( ) /i iVar Y   
( ) / (3)i iV   
ν()はある関数

• 擬似尤度の仮定を整理すると
1. (1)式
• この仮定をもとに、以下の方程式を解くことに
よって定まる 𝛽を擬似尤度推定量とする。
( )T
i ih  X β
( ) /i iV   
1
1
( ) ( ) { ( )} 0 (4)
N
Ti
QR i i i
i
U V Y

 


  

β
β

• (4)式はスコア方程式(2)に非常によく似ている。
• このため(4)式は擬似スコア方程式ともよばれ
る。よく似せているので、この重みViがもし、
Var(Yi)と一致している(=Yが指数分布族)なら
ば、これはスコア方程式(2)と同一のものにな
る。
• さて、この擬似尤度方程式を解いて得られる
推定量 𝛽の性質を調べてみる。

擬似尤度推定量の性質
• 実は最尤推定量と同様な望ましい性質(一致性
と漸近正規性)があると分かる。
• これを証明してみる。定石に従って、テーラー展
開からの中心極限定理、大数の法則を使う
0
1 1
0 1 0
1
0
1
1 1
1
1
ˆ( ) ( , )
lim (5)
1
( ) ( ),
1
( ) ( ) ( )
F
N
N
Ti
i
i
N
Ti
i i i
i
N N C
where
C I I I
i
I V
N
i
I V Var Y V
N


 
 
 



 

 

 

 
 

 


β β 0
β β
β β

漸近正規性と一致性の証明
• UQR( 𝜷)を真値𝜷0のまわりでテーラー展開し、N→∞ほど十分
大きく、正則条件を満たしていると(limは明示したりしなかっ
たりです)
0 0
0 0
1
0 0
1
1 1
0
× ×1
ˆ ˆ( ) ( ) { ( ) }( ) (1)
1 1 ˆ ˆ( ) { ( ) } ( ) (1) ( ) 0
1 1ˆ( ) { ( ) } ( ) (1)
* (1)
1 1
{ ( ) } , ( )
QR QR QR p
QR QR p QR
QR QR p
p
QR QR
p p p
U U U o
U U N o U
NN
N U U o
N N
o
where
U U
N N





 


   


    


   

 

  

0
0
0
0
β β
β β
β β
β β
β β β β β
β
β β β β β
β
β β β β
β
H B
H β B β
β
Q

漸近正規性の証明
• →Cont’d
• 補足：Aには”1/N*∑”という形が現れ、これは標本平均と考え
られるから大数の法則により期待値(定数)に収束する。
• Bには「1/√N*∑」が現れ、中心極限定理が使える。
1
1
1
0
1
0
1 1
{ ( ) } lim [ ( ) ( )]
(1)
1 1
( ) lim [( ) ( )]
~
ˆ( ) ~
N
Ti
QR i i i
N
i
N
Ti
QR i i i
N
i
U V Y
N N
Op
U V Y
N N
Normal
N Normal distribution










 
    
  


  

 


0β β
H β
β β β
B β
β
β β

一致性の証明
• 漸近正規性は確認されたので、平均と分散を求める
0
1 1
1 1
0
0 0 0
1 1 1 1
ˆ[ ( )] [ (1)] (1)* [ ] (1),
1 1
[ ] [ {( ) ( )}] {( ) [ ]}
ˆ[ ( )]
ˆ ˆ ˆ[ ( )] [{ ( )}{ ( )} ]
[ (1)] [ ] ,
T
N N
T Ti i
i i i i i i
i i
T
E N E op Op E op
E E V Y V E Y
N N
E N
Var N E N N
E op E
 
  
 
   
    
 
   
 

  
   
  

 
 
T
T T
β β HB B
B
β β
0
β β 0
β β β β β β
H BB H H BB H
H 1
1
1
1
[ ( ) ( )]
[( ) ( )]
N
Ti
i i i
i
Ti
i i i
V Y
N
E V Y









 

  
 
β β
β β
H と E[BBT]に分解

一致性の証明(cont’d)
1
2
1 1 1 1
1
1 1
1
1
[( ) ( )]
[( ) ( ) ( ) ( ) ( )
( ) { ( )}]
{ ( ) ( )} ( ) ( )
1
lim ( ) ( )
Ti
i i i
T Ti i
i i i i i i i iT
Ti
i i i
T Ti i i i
i i
N
Ti i
i
N
i
E V Y
E V Y V V V Y
V Y
V V
V
N


 
 


   
 

   

 




  
 
  
    
   
 
 
 
   
    
   
 
 
 

H
β β
β β β β
β β
0 0
β β β β
H
β β
Hは対称行列

一致性の証明(cont’d)
1 1
1
1 1
1
1 1
0
0
1
0
1
[ ] lim [( ) [( )( ) ] ( )]
1
lim [( ) ( ) ( )
ˆ[ ( )] [ ]
ˆ( )~ ( , )
1
lim ( ) (
N
T T Ti i
i i i i i i
N
i
N
Ti i
i i i
N
i
Ti
i
N
E V E Y Y V
N
V Var Y V
N
Var N E
N N
where
V
N
 
 
 

 


 


 


 
  
 
 

 
   
 





T -1 -1
0 1 0
-1 -1
0 1 0
BB
β β
β β
β β H BB H I I I
β β 0 I I I
I
β1
1 1
1
1
),
1
lim [( ) ( ) ( )]
N
i
i
N
Ti i
i i i
N
i
V Var Y V
N

 

 




 

 


β
I
β β

サンドイッチ推定量
• 𝜷の分散の推定量はという風にはさま
れた形で生じるためサンドイッチ推定量と呼
ばれる。
• もしYiが指数分布族であれば、前述したように
この 𝜷は最尤推定量と同一になる
-1 -1
0 1 0I I I
1 0
1 1 1
0 1 0
1ˆ( )~ ( , )N N
  

  
 
  
I I
I I I
β β 0
フィッシャー情報行列

演算
• 一般化線形モデルと同様に、陽に計算するこ
とは困難な場合が多いから、反復計算を行っ
て求める。
• 結局は(4)式を解けばいいので、求根法のス
コアアルゴリズム(ニュートンラプソン法の一
種)や反復重み付き最小二乗法を使えばよい。

まとめ：擬似尤度
• 擬似尤度はアウトカムの確率分布を必要とし
ない。要求するのは重みViとμiとの関係
• その関係も実際に計算(反復計算)するときに
は陽に示す必要はない
• もし、真のアウトカムの確率分布が指数分布
族の同時分布であった場合は、その推定量
は最尤推定量と一致する
• そのため、一般化線形モデルの純粋な拡張
といえる

GEE = 擬似尤度の拡張
• 今までは、アウトカムYiは全て独立であるとい
う仮定をしてきた。
• ここからは、繰り返し測定データのようにアウ
トカムに何らかの相関構造がある状況を想定
しよう。
• 前述したように、このようなYiの同時分布を見
つけるのは至難であり、分布の仮定が必要な
い擬似尤度の考え方を応用してみる

Notation 2
• アウトカムYi={Yi1,..,Yij,..,Yini
}
• j={1,..,ni} :the number within a subject
• i={1,..,N} :the number of subjects
• E[Yi]= μiはni×1ベクトル
• Cov[Yi] は共分散成分もあり
• Yi同士は独立とする
• Yiの同時分布は仮定しない
• 𝜷 𝐺はGEEでの推定量
( )T
i ihμ X β

GEE
• 擬似尤度方程式(4)をそのまま持って来よう
• 問題はCov(Yi)を暗示するViに相関構造が存在する
ことである。この相関構造を決定するパラメーターを
αとしてさらに考えてみる。
1
1
0
( ), ( )
N
T
i i i
i
i
i i i i
where
D S





  

D V S
Y μ β
β

GEE
• 対称行列であるViは対角行列Aと相関行列Ri(α)に一般に分
解できる。たとえば相関構造が”exchangeable”のときの例を
示す
1/2 1/2
1
( ) /
( ) 0
{ ( )},
0 ( )
1
( ) 1 ,
1
i
i i
i
in
i
where
diag
 
 

 
  
  
  

 
 
  
 
 
   
    
   
      
i
V A R A
A μ
R α α
L
M O M
L

GEE
• 前スライドの式の構造をもう少し詳しくみてみる
と、対角行列Aは擬似尤度のときの仮定・式(3)を
意味していることが分かる。
• 相関行列Ri(α)は相関構造を示すパラメータ行列
αに依存している。
• ”exchangeable”であれば成分がすべて同一の値となる
し、”autoregrresive”なら行列の成分同士の距離に応じ
た値となる
• GEEではこの相関行列Ri(α)を「作業」相関行列呼
び、ユーザーが指定することになる。

GEE
• さて、この「作業」相関行列は、アウトカムYiの真
の相関行列を暗示したいのだが、実務上これが
アプリオリに分かっている状況は考えにくい。
• なので、この作業相関行列がたとえ初期設定で
多少間違っていても、パラメーターβが正確に推
定されることを期待したい。
• ここまでまとめると、GEE(一般化推定方程式)とし
て、次の方程式を考え、βを推定することとする。
ただし、これはαにも依存する

GEE
1
1
1/2 1/2
( , ) 0 (6)
( ), ( ) / , ( ),
{ ( )}
N
T
GEE i i i
i
i
i i i i i i
U
where
diag
 
 



 

   



i
D V S
μ
D V A R A S Y μ β
β
A μ
• Di, A, Si はβに依存し、Ri(α)はαに依存している
• ここまで準備した上で、この方程式を解いたパラ
メータβの推定量の性質を調べてみる。
• αについては作業相関行列をユーザーが指定す
ることで決定される。

Theorem
• 以下のweak conditionsを仮定し
i.
ii.
iii.
• この条件のもと推定量 𝛽 𝐺は
• これを証明する
ˆ( ) (1), ;
ˆ( ) (1), ;
ˆ( , ) ( , ), (1)
p
p
p
N O given and
N O given
H which is O

 
 
 
 
  
α α β
β
α β Y β
1 1
0 0 1 0
1 1 1
0 1
1 1
ˆ( ) ~ ( , )
1 1
lim , lim ( ) ]
G
N N
T T
i i i i i i i i
N N
i i
N N
where
Cov
N N
 
  
 
 

  
β β 0 M M M
M D V D M D V Y V D

Theorem-Proof
• 一般化推定方程式(6)の構成要素はα、β、Θ
であるので前述したweak conditions(弱条件)
のもとで以下のように表すことができる
• 次にα*を次の式で導入しておく
1
ˆˆ[ , { , ( )}] 0 (7)
N
i
i
U 

 β α β β
* ˆˆ( ) { , ( )}α β α β β

Proof
• α*をαまわりでテーラー展開
*
*
* * *
* 1
1
*
{ , ( )} ( , ) ( , ) /
( ) (1)
(1)
1
lim (1) arg
1 ˆˆ ˆ ˆ[ { , ( )} ( , ) ( , ) ]
ˆ1 ˆ ˆ ˆ[( ) { , ( )} ( , ) ]
i i i
N
T
i i i
N
i
U U U
N op
NN N
op
op Lawof L e Numbers
N
N
N
partial derivati
  
   




 
   
  
 
   

   

  

β α β β α β α α
α α
P Q R
Q D V S
R α β β α β α β α
α
β β α β α
Q
Q ˆ
*
ˆˆ ˆ ˆ{ , ( )} ( , )ˆ. : { , ( )} lim
ˆ
(1)
vedef
Op The weak conditions
 
 

  
 

 

α α β β α β
β β
R Q

Proof(cont’d)
• 左辺(√Nで割った(7)式)は結局P*と漸近的に一致す
る
• 中心極限定理よりP*は漸近的に正規分布となる
• またその期待値と分散は
• と比較容易に導出できる
*
*
1 1
1
{ , ( )}
[ ] ,
{ , ( )}
[ ] lim{ ( ) }
i
N
i T T
i i i i i
N
i
U
E
N
U
Var Cov
N
 





 
β α β
0
β α β
D V Y V D

Proof(cont’d)
• α*の一致性と漸近正規性が分かったので本命の 𝛽 𝐺
について同様に議論する
• 擬似尤度の項で行ったことと同様の式変形で、
• これを示すことができる。
* 1 *
0
1 1
1 1ˆ( ) { [ , ( )] } [ , ( ) ] (1)
N N
G i i p
i i
N U U o
N N 

 

   

  β β0
0β β
β β β α β β α β
β
1 1
0 0 1 0
1 1 1
0 1
1 1
ˆ( ) ~ ( , )
1 1
lim , lim ( ) ]
G
N N
T T
i i i i i i i i
N N
i i
N N
where
Cov
N N
 
  
 
 

  
β β 0 M M M
M D V D M D V Y V D

まとめ：GEE
• Yiの期待値に関する回帰式(1)式と作業相関
行列を規定すると(つまりパラメータαを規定
する)、一般化推定方程式GEE=(6)式を解くこ
とで得られる 𝜷 𝐺は一致性と漸近正規性を持
つ。
• もし作業相関行列がCov(Yi)の相関構造部分
と同一であれば、最尤推定と同一の結果とな
る。そうでないとしても後述する数値的な接近
法でロバストな推定量が得られる。

GEEの計算
• (7)式は陽にはとけないが、結局は求根法な
ので、フィッシャースコアアルゴリズムなどで
数値的に接近することができる。
• しかし、求めるべきは 𝜷 𝐺だけでなく 𝛼も推定し
なければならないので、2段階法で解く
• 通常は残差を用いて 𝜶の推定をする。
• この方法における 𝜶は一致性を持つことは容
易に示すことができる(略)

Modified Fisher Scoring algorhythm
• この式を反復して収束まで続ける
• (フィッシャースコアアルゴリズムはニュートンラフソン法の尤
度計算における改良版です)
1 1 1
1
1 1
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ{ ( ) ( ) ( )] } { ( ) ( ) ( )]}
N N
T T
j j i j i j i j i j i j i j
i i
  

 
   β β D β V β D β D β V β S β% %

おまけ：GEE V.S. mixed-model
• GEEと比較して語られるのが混合効果モデル
であるが、アウトカムが離散値の場合はこの
両者の推定値が異なる(というか解釈が異な
る)ことが知られている。
• なぜこういうことがおきるかというと、一言で
いえば「リンク関数が挟まっているから」
[ ( )] ( [ ])E g Y g E Y

おまけ：GEE V.S. mixed-model
• GEEは”marginal (population-averaged) mean”で
GLMMは”conditional (subject-specific) mean”が
推定される
• 詳しくは
https://perswww.kuleuven.be/~u0018341/documents/ldasc1
2Budapest.pdf
ˆarg : ( )
ˆ: ( | )
ˆ, ( | 0)
T
i i G
T
i i i M i i
T
i i i M
M inal mean E Y X
Conditional mean E Y b X Z b
specifically E Y b X




 
 

まとめ
• 一般化推定方程式はアウトカムが独立でな
い状況(繰り返し測定やクラスターのあるデー
タなど)で威力を発揮する手法である
• また作業相関行列をmisspecifyしてもある程
度のロバストな推定ができる
• 混合モデルとの比較はアウトカムが離散値の
場合、推定量の解釈が異なってくる(もし暇が
あれば、なぜこうなるのかのスライドも作る予
定)

まとめ
GLM
Quasi-likelihood
GEE
制約
①アウトカムの分布が指数分
布族(の同時分布)
②アウトカムがそれぞれ独立
①を取り払う
②を取り払う

GEE(一般化推定方程式)の理論

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to GEE(一般化推定方程式)の理論

Similar to GEE(一般化推定方程式)の理論 (7)

GEE(一般化推定方程式)の理論