Unified Expectation Maximization

Uniﬁed
Expecta.on
Maximiza.on

R.
Samdani,
M.
Chang
,Dan
Roth

(NAACL’12)

すずかけ論文読み会 2013
/
03
/
23

紹介者:matsuda

1

Uniﬁed
EM
Algorithm
•  [Samdani+
NAACL’12]

–  EMによる(Semi-‐supervised)学習の統一的な解釈

•  この論文のアイデアは非常にシンプル

–  構造に「制約」が無い場合は簡単（アニーリング
EMの拡張)

–  構造に「制約」が入る場合はややこしい

•  Prior
Work
主にこっちのお話をします
–  Posterior
Reguraliza.on
[Ganchev+
JMLR’10]

–  Constraint
Driven
Learning
[Chang+
ACL’07]

2

構造に制約が無いEM
•  ふつうの
EM
アルゴリズム

–  色々な定式化があるが，ここでは発表者スライド
に合わせて

•  E-‐step:

現在のパラメータのもとで，尤もらしい

argminqKL(qt(y),P (y|x;wt))
ラベルyの分布qを求める

•  M-‐step:

求めた分布qの期待値が最大

argmaxw Eqlog P(x, y; w) になるようにパラメータｗを更新

3

自然言語処理における

具体的な事前知識の例
•  文書分類

–  ある割合の文書はあるクラスであるということが分かっている

•  POS-‐tagging

–  各文に最低一つは動詞,名詞が含まれている

–  ある語が多数のPOSに割り当てられることは少ない

•  Rela.on
Informa.on
Extrac.on

–  ある種類のEn.tyと他の種類のEn.tyの間には，特定の
Rela.onしか成り立たない

•  LOCATION
–
PERSON間なら LIVE-‐IN
とか．

•  (SMTにおける)アラインメント

–  L1
-‐>
L2の対応は，
L2
-‐>
L1の対応と等しい

–  L1のある語がL2の多数の語と対応することは少ない

多数のラベルつきデータがあれば，そこから自然に学習が可能そう

しかし，ラベルつきデータが利用できない場合でも，事前知識をモデルに取り込みたい
4

EM学習において，

どのように事前知識を入れるか
•  制約をどのように表現するか

•  制約を用いた学習はどうすれば良いか

Posterior
Regulariza.on
COnstraint
Driven
Learning

[Ganchev
et
al,
2010]
[Chang
et
al,
2007]
制約を「ソフト」に入れる
制約を「ハード」に入れる

「制約を満たす分布」とのKLダイバージェンス最小化
ビームサーチ
+
hard
EM

(今回は紹介しません)

Uniﬁed
EM

一つパラメータを導入することで，一般的な解釈

ラグランジュ緩和に基づく効率的なE-‐stepの計算

5

Posterior
Regulariza.on
•  ふつう
“Regulariza.on”
というと

–  パラメータw(とかθ)に対する事前知識の導入

正則化と言われてすぐ思いつく例
正則化項（L2ノルムなど)

w = argmin " L(x, y, w) + ! R(w)
!

w

•  しかし，出力（の構造）に事前知識を入れたい

・・・どうやって？？
–  Posterior
Regulariza.on

–  Constraint
Driven
Learing

–  Generalized
Expecta.on
Criteria

6

PRにおける制約の表現(1/2)
•  制約の「素性表現」を導入

–  文書分類の例）ある文書が”poli.cs”

! (x, y) = ! 1 if y is "politics"
#
"

# 0
$ otherwise
•  素性の「期待値」を取る

–  文書分類の例） 25%の文書が”poli.cs”

E p! [" (x, y)] = b 期待値を取るのは「モデル全体として」
のソフトな制約を入れるため

b = 0.25 （期待値をとらないハードな手法もある）

bは一般にはベクトル表現になる（多数
の制約を入れるため)
7

PRにおける制約の表現(2/2)
•  制約を満たす確率分布の集合を定義

–  先ほどの例なら，”poli.cs”が25%であるような分
布の集合(一般には，不等式制約で書く)

•  分布の集合とのKLダイバージェンスを定義

制約を満たす分布qの中で，最
•  最大化する目的関数
もモデルの分布と近いものとの
KLダイバージェンス

モデルの尤度を
制約分布とのKLダイバージェンスを最小に
最大に
8

PRにおけるEM学習(1/2)
•  Jensenの不等式で尤度の下限をおさえる

q,
θを交互に最大化

9

PRにおけるEM学習(2/2)
•  先ほどの制約を導入した目的関数

つまり， q∈Qの範囲でE-‐stepの探索を行えばよい

10

PRにおけるEM学習（図解）
ここに問答無用で近づけるのが

ふつうのEM

PRにおいては，制約を満たすqの中で，もっとも尤もらしい事後分布にprojec.on
11

実装例

constraint.project()
は問題(制約)依存だが既存のgradientベースのソルバで解ける

12

Uniﬁed
EM(ここからが本論文)
•  PRのE-‐StepはKLダイバージェンスを最小化

KL(q , p)
=
∑y
q(y)
log
q(y)
–
q(y)
log
p(y)

•  modiﬁed
KL
Divergenceを導入

KL(q , p;
°)
=
∑y
°
q(y)
log
q(y)
–
q(y)
log
p(y)

•  ここで°がどういう役割を果たしているか考え
る

13

γの効果
KL(q , p;
°)
=
∑y
°
q(y)
log
q(y)
–
q(y)
log
p(y)

qのエントロピー
q,pのクロスエントロピー

q
with
°
=
1 q
with
°
=
1

Original

Distribu.on
p

q
with
°
=
0
q
with
°
=
-‐1

γは事後分布のエントロピーを制御するパラメータとみなすことができる
14

γの効果

γを導入することで，過去に提案されてきたさまざまなEMベースの

学習アルゴリズムを統一的に解釈できる

Determinis.c
Annealing

(Smith
and
Eisner,
04;

制約なし
Hard
EM
EM
Hofmann,
99)

-1

0

1

1

LP
approx

°

制約あり
CODL
PR

to
CODL

15

制約つきE-‐Stepの計算

modiﬁed
KL
divergence

制約の期待値

q(y)のsimplex制約

γ
≧
0
であればconvexなので，(劣)勾配法で最小化が可能

16

制約つきE-‐Stepの計算
•  ラグランジュ変数λを各制約に対して導入

–  あとは劣勾配法でλとqを更新していくだけ

G(・）は論文参照

いわゆるヘルパ
17

制約付きE-‐Stepの計算
•  制約および分布が分解できる場合は双対分
解を用いることができる

たとえば，等式制約を

二つの不等式制約

（上下から抑える）に

分けたり，

アラインメントのように

双方向で一致するような

制約を入れたりできる

18

実験(POS
tagging)
•  Un(semi-‐)supervised
POS
Tagging

–  モデル
:
HMM（First
Order,
制約なし)

–  初期値
:
Uniform
or
few
Labeled
Example

γ
=
1(EM),
γ
=
0(Hard
EM)

より，γを調整した方が

高いAccuracy

(初期値に依存する)

傾向としては，初期値

が良ければEMよりHard
EM

のほうが優れている

19

実験(Rela.on
Extrac.on)
•  Semi
Supervised
En.ty-‐Rela.on
Extrac.on

–  モデル:
log
linear(en.ty
extrac.on,
rela.on
classiﬁca.on)

–  制約：

•  Type
Constraint

:

(
(Loc,Per)
-‐>
LIVE
IN
)
etc..

•  Count
Constraint
:
データ内のRela.on数から±20%

γの調整は

2-‐fold
CV.

0.5-‐0.6くらいに

最適値がある
らしい

20

実験(Word
Alignment)
•  モデル:
HMM，MBRデコード

•  制約：bi-‐direc.onal
agreement

•  E-‐Stepは双対分解（ループ数5，けっこう重い？）

γはdevelopment
setで決定,
0.5-‐0.7くらいに最適値があるらしい
21

まとめ
•  EMに基づくun(semi)
supervisedな学習において，事前知識を導入する手
法のひとつPosterior
Regulariza.on
を紹介

•  PRを含んだ様々な（制約付き）EMアルゴリズムを内包するアルゴリズムと
して，UEMを紹介

•  この論文のContribu.on

–  KLダイバージェンスにパラメータを一個足すことで，CoDL,
PRを一般化できるこ
とを示した

–  ラグランジュ緩和による効率的なE-‐Stepの計算法を示した

–  実験において,PR(γ=1)とCoDL(γ=-‐inf)の間に最適なγがあることを明らかにした

–  （EM,
PRのコードがあれば）実装が非常に簡単なのもポイントらしい

•  感想

–  思っていたのとはちょっと違った，Posterior
Regulariza.onは面白そう，双対分
解する必要性がどれくらいあるものなの？ICML
Workshopにまったく同じ内容
の論文出てますね（今気づいた)

22

Further
Reading
•  Posterior
Regulariza.on
for
Structured
Latent
Variable

Models
[Ganchev+
JMLR
2010]

–  PRについて恐らくもっとも詳しく書いてある文献

•  Rich
Prior
Knowledge
in
Learning
for
NLP
[Druck+
ACL
2011

Tutorial]

–  PR,
CODL,
その他の類似フレームワークについて整理されたチュート
リアル．スライドがわかりやすい．

–  hup://sideinfo.wikkii.com/

•  MALLET

–  PR,GE
(for
Maxent,
linear-‐chain
CRF)のコードが含まれている

–  hup://mallet.cs.umass.edu/ge-‐classiﬁca.on.php

23

Unified Expectation Maximization

Recommended

Recommended

More Related Content

Similar to Unified Expectation Maximization

Similar to Unified Expectation Maximization (20)

More from Koji Matsuda

More from Koji Matsuda (19)

Unified Expectation Maximization