SlideShare a Scribd company logo
1 of 23
Download to read offline
Unified	
  Expecta.on	
  Maximiza.on	
  
      R.	
  Samdani,	
  M.	
  Chang	
  ,Dan	
  Roth	
  
                  (NAACL’12)	

  すずかけ論文読み会 2013	
  /	
  03	
  /	
  23	
  
      紹介者:matsuda	



                                                          1
Unified	
  EM	
  Algorithm	
•  [Samdani+	
  NAACL’12]	
  
    –  EMによる(Semi-­‐supervised)学習の統一的な解釈	
  
        •  この論文のアイデアは非常にシンプル	
  
    –  構造に「制約」が無い場合は簡単(アニーリング
       EMの拡張)	
  
    –  構造に「制約」が入る場合はややこしい	
  
•  Prior	
  Work	
                            主にこっちのお話をします	
    –  Posterior	
  Reguraliza.on	
  [Ganchev+	
  JMLR’10]	
  
    –  Constraint	
  Driven	
  Learning	
  [Chang+	
  ACL’07]	

                                                                  2
構造に制約が無いEM	
•  ふつうの	
  EM	
  アルゴリズム	
  
     –  色々な定式化があるが,ここでは発表者スライド
        に合わせて	


•  E-­‐step:	
  
                                        現在のパラメータのもとで,尤もらしい	
  
     argminqKL(qt(y),P (y|x;wt)) 	
     ラベルyの分布qを求める	

•  M-­‐step:	
  
                                        求めた分布qの期待値が最大	
  
     argmaxw Eqlog P(x, y; w)           になるようにパラメータwを更新	



                                                            3
自然言語処理における	
  
               具体的な事前知識の例	
•  文書分類	
  
    –  ある割合の文書はあるクラスであるということが分かっている	
  
•  POS-­‐tagging	
  
    –  各文に最低一つは動詞,名詞が含まれている	
  
    –  ある語が多数のPOSに割り当てられることは少ない	
  
•  Rela.on	
  Informa.on	
  Extrac.on	
  
    –  ある種類のEn.tyと他の種類のEn.tyの間には,特定の
       Rela.onしか成り立たない	
  
         •  LOCATION	
  –	
  PERSON間 なら LIVE-­‐IN	
  とか.	
  
•  (SMTにおける)アラインメント	
  
    –  L1	
  -­‐>	
  L2の対応は,	
  L2	
  -­‐>	
  L1の対応と等しい	
  
    –  L1のある語がL2の多数の語と対応することは少ない	
  

多数のラベルつきデータがあれば,そこから自然に学習が可能そう	
  
しかし,ラベルつきデータが利用できない場合でも,事前知識をモデルに取り込みたい	
                                                               4
EM学習において,	
  
       どのように事前知識を入れるか	
  •  制約をどのように表現するか	
  
  •  制約を用いた学習はどうすれば良いか	

Posterior	
  Regulariza.on	
   COnstraint	
  Driven	
  Learning	
  
      [Ganchev	
  et	
  al,	
  2010]	
                 [Chang	
  et	
  al,	
  2007]	
制約を「ソフト」に入れる	
                                     制約を「ハード」に入れる	
  
「制約を満たす分布」とのKLダイバージェンス最小化	
                        ビームサーチ	
  +	
  hard	
  EM	
  
                                                   (今回は紹介しません)	
  



                                    Unified	
  EM	
  
                一つパラメータを導入することで,一般的な解釈	
  
                ラグランジュ緩和に基づく効率的なE-­‐stepの計算	
  
                                                                                        5
Posterior	
  Regulariza.on	
•  ふつう	
  “Regulariza.on”	
  というと	
  
  –  パラメータw(とかθ)に対する事前知識の導入	
  
   正則化と言われてすぐ思いつく例	
                                               正則化項(L2ノルムなど)	
  
     w = argmin " L(x, y, w) + ! R(w)
       !

              w

•  しかし,出力(の構造)に事前知識を入れたい	
  
                                                 ・・・どうやって??	
  –  Posterior	
  Regulariza.on	
  
  –  Constraint	
  Driven	
  Learing	
  
  –  Generalized	
  Expecta.on	
  Criteria	

                                                              6
PRにおける制約の表現(1/2)	
•  制約の「素性表現」を導入	
  
 –  文書分類の例) ある文書が”poli.cs”	
  
 	
   ! (x, y) = ! 1 if y is "politics"
                 #
                 "
 	
              # 0
                 $       otherwise
•  素性の「期待値」を取る	
  
 –  文書分類の例) 25%の文書が”poli.cs”	
  
    E p! [" (x, y)] = b 期待値を取るのは「モデル全体として」
                    のソフトな制約を入れるため	
  
   b = 0.25         (期待値をとらないハードな手法もある)	
  
                    bは一般にはベクトル表現になる(多数
                    の制約を入れるため)	
                                              7
PRにおける制約の表現(2/2)	
•  制約を満たす確率分布の集合を定義	
  
 –  先ほどの例なら,”poli.cs”が25%であるような分
    布の集合(一般には,不等式制約で書く)	
  


•  分布の集合とのKLダイバージェンスを定義	
  
	
  
                 制約を満たす分布qの中で,最
•  最大化する目的関数	
   もモデルの分布と近いものとの
                 KLダイバージェンス	



         モデルの尤度を	
     制約分布とのKLダイバージェンスを最小に	
         最大に	
                            8
PRにおけるEM学習(1/2)	
•  Jensenの不等式で尤度の下限をおさえる	




q,	
  θを交互に最大化	




                             9
PRにおけるEM学習(2/2)	
•  先ほどの制約を導入した目的関数	



つまり, q∈Qの範囲でE-­‐stepの探索を行えばよい	




                                  10
PRにおけるEM学習(図解)	
                             ここに問答無用で近づけるのが	
  
                             ふつうのEM	




PRにおいては,制約を満たすqの中で,もっとも尤もらしい事後分布にprojec.on	
                                           11
実装例	




constraint.project()	
  は問題(制約)依存だが既存のgradientベースのソルバで解ける	


                                                          12
Unified	
  EM(ここからが本論文)	
•  PRのE-­‐StepはKLダイバージェンスを最小化	
  
         KL(q , p)	
  =	
  ∑y	
  q(y)	
  log	
  q(y)	
  –	
  q(y)	
  log	
  p(y)	
  
	
  
•  modified	
  KL	
  Divergenceを導入	
  
     	
  KL(q , p;	
  °)	
  =	
  ∑y	
  °	
  q(y)	
  log	
  q(y)	
  –	
  q(y)	
  log	
  p(y)	
  
	
  
•  ここで°がどういう役割を果たしているか考え
     る	

                                                                                            13
γの効果	
                          KL(q , p;	
  °)	
  =	
  ∑y	
  °	
  q(y)	
  log	
  q(y)	
  –	
  q(y)	
  log	
  p(y)	
  
                                                               qのエントロピー	
 q,pのクロスエントロピー	

              q	
  with	
  °	
  =	
  1                                                                    q	
  with	
  °	
  =	
  1




                                                           Original	
  
                                                           Distribu.on	
  p
                                                           	
                                    q	
  with	
  °	
  =	
  0
q	
  with	
  °	
  =	
  -­‐1




             γは事後分布のエントロピーを制御するパラメータとみなすことができる	
                                                                                                                                     14
γの効果	

γを導入することで,過去に提案されてきたさまざまなEMベースの	
  
学習アルゴリズムを統一的に解釈できる	
  

                                                                      Determinis.c	
  Annealing	
  
                                                                      (Smith	
  and	
  Eisner,	
  04;	
  
制約なし	
                     Hard	
  EM	
                  EM	
         Hofmann,	
  99)	
  




             -1	
  	
            0	
  	
                  1	
  	
                                       1	
  	
  	
  
                          LP	
  approx	
  
                                             °	
  	
  
制約あり	
     CODL	
                                         PR	
  
                          to	
  CODL	
  




                                                                                                                    15
制約つきE-­‐Stepの計算	

            modified	
  KL	
  divergence	



                                            制約の期待値	


                                            q(y)のsimplex制約	




γ	
  ≧	
  0	
  であればconvexなので,(劣)勾配法で最小化が可能	


                                                               16
制約つきE-­‐Stepの計算	
•  ラグランジュ変数λを各制約に対して導入	
  
 –  あとは劣勾配法でλとqを更新していくだけ	




                        G(・)は論文参照	
  
                        いわゆるヘルパ	
                                 17
制約付きE-­‐Stepの計算	
•  制約および分布が分解できる場合は双対分
   解を用いることができる	



                 たとえば,等式制約を	
  
                 二つの不等式制約	
  
                 (上下から抑える)に	
  
                 分けたり,	
  
                 アラインメントのように	
  
                 双方向で一致するような	
  
                 制約を入れたりできる	

                             18
実験(POS	
  tagging)	
•  Un(semi-­‐)supervised	
  POS	
  Tagging	
  
    –  モデル	
  :	
  HMM(First	
  Order,	
  制約なし)	
  
    –  初期値	
  :	
  Uniform	
  or	
  few	
  Labeled	
  Example	

                                                                  γ	
  =	
  1(EM),	
  γ	
  =	
  0(Hard	
  EM)	
  
                                                                  より,γを調整した方が	
  
                                                                  高いAccuracy	
  
                                                                  (初期値に依存する)	


                                                                  傾向としては,初期値	
  
                                                                  が良ければEMよりHard	
  EM	
  
                                                                  のほうが優れている	



                                                                                                            19
実験(Rela.on	
  Extrac.on)	
•  Semi	
  Supervised	
  En.ty-­‐Rela.on	
  Extrac.on	
  
   –  モデル:	
  log	
  linear(en.ty	
  extrac.on,	
  rela.on	
  classifica.on)	
  
   –  制約:	
  
       •  Type	
  Constraint	
  	
  	
  :	
  	
  (	
  (Loc,Per)	
  -­‐>	
  LIVE	
  IN	
  )	
  etc..	
  
       •  Count	
  Constraint	
  :	
  データ内のRela.on数から±20%	
  


                                                                                                          γの調整は	
  
                                                                                                          2-­‐fold	
  CV.	
  
                                                                                                          0.5-­‐0.6くらいに	
  
                                                                                                          最適値がある
                                                                                                          らしい	
  
                                                                                                          	


                                                                                                                        20
実験(Word	
  Alignment)	
•  モデル:	
  HMM,MBRデコード	
  
•  制約:bi-­‐direc.onal	
  agreement	
  
•  E-­‐Stepは双対分解(ループ数5,けっこう重い?)	




 γはdevelopment	
  setで決定,	
  0.5-­‐0.7くらいに最適値があるらしい	
                                                        21
まとめ	
•  EMに基づくun(semi)	
  supervisedな学習において,事前知識を導入する手
   法のひとつPosterior	
  Regulariza.on	
  を紹介	
  
•  PRを含んだ様々な(制約付き)EMアルゴリズムを内包するアルゴリズムと
   して,UEMを紹介	
  
•  この論文のContribu.on	
  
    –  KLダイバージェンスにパラメータを一個足すことで,CoDL,	
  PRを一般化できるこ
       とを示した	
  
    –  ラグランジュ緩和による効率的なE-­‐Stepの計算法を示した	
  
    –  実験において,PR(γ=1)とCoDL(γ=-­‐inf)の間に最適なγがあることを明らかにした	
  
    –  (EM,	
  PRのコードがあれば)実装が非常に簡単なのもポイントらしい	
  
•  感想	
  
    –  思っていたのとはちょっと違った,Posterior	
  Regulariza.onは面白そう,双対分
       解する必要性がどれくらいあるものなの?ICML	
  Workshopにまったく同じ内容
       の論文出てますね(今気づいた)	
  

                                                         22
Further	
  Reading	
•  Posterior	
  Regulariza.on	
  for	
  Structured	
  Latent	
  Variable	
  
   Models	
  [Ganchev+	
  JMLR	
  2010]	
  
     –  PRについて恐らくもっとも詳しく書いてある文献	
  
•  Rich	
  Prior	
  Knowledge	
  in	
  Learning	
  for	
  NLP	
  [Druck+	
  ACL	
  2011	
  
   Tutorial]	
  
     –  PR,	
  CODL,	
  その他の類似フレームワークについて整理されたチュート
        リアル.スライドがわかりやすい.	
  
     –  hup://sideinfo.wikkii.com/	
  
•  MALLET	
  
     –  PR,GE	
  (for	
  Maxent,	
  linear-­‐chain	
  CRF)のコードが含まれている	
  
     –  hup://mallet.cs.umass.edu/ge-­‐classifica.on.php	


                                                                                              23

More Related Content

Similar to Unified Expectation Maximization

A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)Morpho, Inc.
 
Introduction to Algorithms#24 Shortest-Paths Problem
Introduction to Algorithms#24 Shortest-Paths ProblemIntroduction to Algorithms#24 Shortest-Paths Problem
Introduction to Algorithms#24 Shortest-Paths ProblemNaoya Ito
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...T T
 
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive EstimationMakoto Takenaka
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011Preferred Networks
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Taiji Suzuki
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage正志 坪坂
 
Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会Shuyo Nakatani
 
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)Toshiyuki Shimono
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムMiyoshi Yuya
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5sleepy_yoshi
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358Ace12358
 
Introduction to Locally Testable Codes and Related Topics (in Japanese)
Introduction to Locally Testable Codes and Related Topics (in Japanese)Introduction to Locally Testable Codes and Related Topics (in Japanese)
Introduction to Locally Testable Codes and Related Topics (in Japanese)Nobutaka Shimizu
 
Graph and network_chap14
Graph and network_chap14Graph and network_chap14
Graph and network_chap14Hiroki Iida
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMMMorpho, Inc.
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke HoriiSuurist
 

Similar to Unified Expectation Maximization (20)

yyoshida thesis
yyoshida thesisyyoshida thesis
yyoshida thesis
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
 
Introduction to Algorithms#24 Shortest-Paths Problem
Introduction to Algorithms#24 Shortest-Paths ProblemIntroduction to Algorithms#24 Shortest-Paths Problem
Introduction to Algorithms#24 Shortest-Paths Problem
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会
 
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358
 
Introduction to Locally Testable Codes and Related Topics (in Japanese)
Introduction to Locally Testable Codes and Related Topics (in Japanese)Introduction to Locally Testable Codes and Related Topics (in Japanese)
Introduction to Locally Testable Codes and Related Topics (in Japanese)
 
Graph and network_chap14
Graph and network_chap14Graph and network_chap14
Graph and network_chap14
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke Horii
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
汎化性能測定
汎化性能測定汎化性能測定
汎化性能測定
 

More from Koji Matsuda

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Koji Matsuda
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKoji Matsuda
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Koji Matsuda
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源Koji Matsuda
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門Koji Matsuda
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価 Koji Matsuda
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Koji Matsuda
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5Koji Matsuda
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesKoji Matsuda
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...Koji Matsuda
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesKoji Matsuda
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component AnalysisKoji Matsuda
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleKoji Matsuda
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric LearningKoji Matsuda
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Koji Matsuda
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節Koji Matsuda
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節Koji Matsuda
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Koji Matsuda
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 

More from Koji Matsuda (19)

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 

Unified Expectation Maximization

  • 1. Unified  Expecta.on  Maximiza.on   R.  Samdani,  M.  Chang  ,Dan  Roth   (NAACL’12) すずかけ論文読み会 2013  /  03  /  23   紹介者:matsuda 1
  • 2. Unified  EM  Algorithm •  [Samdani+  NAACL’12]   –  EMによる(Semi-­‐supervised)学習の統一的な解釈   •  この論文のアイデアは非常にシンプル   –  構造に「制約」が無い場合は簡単(アニーリング EMの拡張)   –  構造に「制約」が入る場合はややこしい   •  Prior  Work   主にこっちのお話をします –  Posterior  Reguraliza.on  [Ganchev+  JMLR’10]   –  Constraint  Driven  Learning  [Chang+  ACL’07] 2
  • 3. 構造に制約が無いEM •  ふつうの  EM  アルゴリズム   –  色々な定式化があるが,ここでは発表者スライド に合わせて •  E-­‐step:   現在のパラメータのもとで,尤もらしい   argminqKL(qt(y),P (y|x;wt))   ラベルyの分布qを求める •  M-­‐step:   求めた分布qの期待値が最大   argmaxw Eqlog P(x, y; w) になるようにパラメータwを更新 3
  • 4. 自然言語処理における   具体的な事前知識の例 •  文書分類   –  ある割合の文書はあるクラスであるということが分かっている   •  POS-­‐tagging   –  各文に最低一つは動詞,名詞が含まれている   –  ある語が多数のPOSに割り当てられることは少ない   •  Rela.on  Informa.on  Extrac.on   –  ある種類のEn.tyと他の種類のEn.tyの間には,特定の Rela.onしか成り立たない   •  LOCATION  –  PERSON間 なら LIVE-­‐IN  とか.   •  (SMTにおける)アラインメント   –  L1  -­‐>  L2の対応は,  L2  -­‐>  L1の対応と等しい   –  L1のある語がL2の多数の語と対応することは少ない   多数のラベルつきデータがあれば,そこから自然に学習が可能そう   しかし,ラベルつきデータが利用できない場合でも,事前知識をモデルに取り込みたい 4
  • 5. EM学習において,   どのように事前知識を入れるか •  制約をどのように表現するか   •  制約を用いた学習はどうすれば良いか Posterior  Regulariza.on   COnstraint  Driven  Learning   [Ganchev  et  al,  2010] [Chang  et  al,  2007] 制約を「ソフト」に入れる   制約を「ハード」に入れる   「制約を満たす分布」とのKLダイバージェンス最小化   ビームサーチ  +  hard  EM   (今回は紹介しません)   Unified  EM   一つパラメータを導入することで,一般的な解釈   ラグランジュ緩和に基づく効率的なE-­‐stepの計算   5
  • 6. Posterior  Regulariza.on •  ふつう  “Regulariza.on”  というと   –  パラメータw(とかθ)に対する事前知識の導入   正則化と言われてすぐ思いつく例 正則化項(L2ノルムなど)   w = argmin " L(x, y, w) + ! R(w) ! w •  しかし,出力(の構造)に事前知識を入れたい   ・・・どうやって?? –  Posterior  Regulariza.on   –  Constraint  Driven  Learing   –  Generalized  Expecta.on  Criteria 6
  • 7. PRにおける制約の表現(1/2) •  制約の「素性表現」を導入   –  文書分類の例) ある文書が”poli.cs”     ! (x, y) = ! 1 if y is "politics" # "   # 0 $ otherwise •  素性の「期待値」を取る   –  文書分類の例) 25%の文書が”poli.cs”   E p! [" (x, y)] = b 期待値を取るのは「モデル全体として」 のソフトな制約を入れるため   b = 0.25 (期待値をとらないハードな手法もある)   bは一般にはベクトル表現になる(多数 の制約を入れるため) 7
  • 8. PRにおける制約の表現(2/2) •  制約を満たす確率分布の集合を定義   –  先ほどの例なら,”poli.cs”が25%であるような分 布の集合(一般には,不等式制約で書く)   •  分布の集合とのKLダイバージェンスを定義     制約を満たす分布qの中で,最 •  最大化する目的関数   もモデルの分布と近いものとの KLダイバージェンス モデルの尤度を   制約分布とのKLダイバージェンスを最小に 最大に 8
  • 11. PRにおけるEM学習(図解) ここに問答無用で近づけるのが   ふつうのEM PRにおいては,制約を満たすqの中で,もっとも尤もらしい事後分布にprojec.on 11
  • 13. Unified  EM(ここからが本論文) •  PRのE-­‐StepはKLダイバージェンスを最小化   KL(q , p)  =  ∑y  q(y)  log  q(y)  –  q(y)  log  p(y)     •  modified  KL  Divergenceを導入    KL(q , p;  °)  =  ∑y  °  q(y)  log  q(y)  –  q(y)  log  p(y)     •  ここで°がどういう役割を果たしているか考え る 13
  • 14. γの効果 KL(q , p;  °)  =  ∑y  °  q(y)  log  q(y)  –  q(y)  log  p(y)   qのエントロピー q,pのクロスエントロピー q  with  °  =  1 q  with  °  =  1 Original   Distribu.on  p   q  with  °  =  0 q  with  °  =  -­‐1 γは事後分布のエントロピーを制御するパラメータとみなすことができる 14
  • 15. γの効果 γを導入することで,過去に提案されてきたさまざまなEMベースの   学習アルゴリズムを統一的に解釈できる   Determinis.c  Annealing   (Smith  and  Eisner,  04;   制約なし   Hard  EM   EM   Hofmann,  99)   -1     0     1     1       LP  approx   °     制約あり   CODL   PR   to  CODL   15
  • 16. 制約つきE-­‐Stepの計算 modified  KL  divergence 制約の期待値 q(y)のsimplex制約 γ  ≧  0  であればconvexなので,(劣)勾配法で最小化が可能 16
  • 17. 制約つきE-­‐Stepの計算 •  ラグランジュ変数λを各制約に対して導入   –  あとは劣勾配法でλとqを更新していくだけ G(・)は論文参照   いわゆるヘルパ 17
  • 18. 制約付きE-­‐Stepの計算 •  制約および分布が分解できる場合は双対分 解を用いることができる たとえば,等式制約を   二つの不等式制約   (上下から抑える)に   分けたり,   アラインメントのように   双方向で一致するような   制約を入れたりできる 18
  • 19. 実験(POS  tagging) •  Un(semi-­‐)supervised  POS  Tagging   –  モデル  :  HMM(First  Order,  制約なし)   –  初期値  :  Uniform  or  few  Labeled  Example γ  =  1(EM),  γ  =  0(Hard  EM)   より,γを調整した方が   高いAccuracy   (初期値に依存する) 傾向としては,初期値   が良ければEMよりHard  EM   のほうが優れている 19
  • 20. 実験(Rela.on  Extrac.on) •  Semi  Supervised  En.ty-­‐Rela.on  Extrac.on   –  モデル:  log  linear(en.ty  extrac.on,  rela.on  classifica.on)   –  制約:   •  Type  Constraint      :    (  (Loc,Per)  -­‐>  LIVE  IN  )  etc..   •  Count  Constraint  :  データ内のRela.on数から±20%   γの調整は   2-­‐fold  CV.   0.5-­‐0.6くらいに   最適値がある らしい   20
  • 21. 実験(Word  Alignment) •  モデル:  HMM,MBRデコード   •  制約:bi-­‐direc.onal  agreement   •  E-­‐Stepは双対分解(ループ数5,けっこう重い?) γはdevelopment  setで決定,  0.5-­‐0.7くらいに最適値があるらしい 21
  • 22. まとめ •  EMに基づくun(semi)  supervisedな学習において,事前知識を導入する手 法のひとつPosterior  Regulariza.on  を紹介   •  PRを含んだ様々な(制約付き)EMアルゴリズムを内包するアルゴリズムと して,UEMを紹介   •  この論文のContribu.on   –  KLダイバージェンスにパラメータを一個足すことで,CoDL,  PRを一般化できるこ とを示した   –  ラグランジュ緩和による効率的なE-­‐Stepの計算法を示した   –  実験において,PR(γ=1)とCoDL(γ=-­‐inf)の間に最適なγがあることを明らかにした   –  (EM,  PRのコードがあれば)実装が非常に簡単なのもポイントらしい   •  感想   –  思っていたのとはちょっと違った,Posterior  Regulariza.onは面白そう,双対分 解する必要性がどれくらいあるものなの?ICML  Workshopにまったく同じ内容 の論文出てますね(今気づいた)   22
  • 23. Further  Reading •  Posterior  Regulariza.on  for  Structured  Latent  Variable   Models  [Ganchev+  JMLR  2010]   –  PRについて恐らくもっとも詳しく書いてある文献   •  Rich  Prior  Knowledge  in  Learning  for  NLP  [Druck+  ACL  2011   Tutorial]   –  PR,  CODL,  その他の類似フレームワークについて整理されたチュート リアル.スライドがわかりやすい.   –  hup://sideinfo.wikkii.com/   •  MALLET   –  PR,GE  (for  Maxent,  linear-­‐chain  CRF)のコードが含まれている   –  hup://mallet.cs.umass.edu/ge-­‐classifica.on.php 23