More Related Content
Similar to Unified Expectation Maximization
Similar to Unified Expectation Maximization (20)
More from Koji Matsuda (19)
Unified Expectation Maximization
- 2. Unified
EM
Algorithm
• [Samdani+
NAACL’12]
– EMによる(Semi-‐supervised)学習の統一的な解釈
• この論文のアイデアは非常にシンプル
– 構造に「制約」が無い場合は簡単(アニーリング
EMの拡張)
– 構造に「制約」が入る場合はややこしい
• Prior
Work
主にこっちのお話をします
– Posterior
Reguraliza.on
[Ganchev+
JMLR’10]
– Constraint
Driven
Learning
[Chang+
ACL’07]
2
- 3. 構造に制約が無いEM
• ふつうの
EM
アルゴリズム
– 色々な定式化があるが,ここでは発表者スライド
に合わせて
• E-‐step:
現在のパラメータのもとで,尤もらしい
argminqKL(qt(y),P (y|x;wt))
ラベルyの分布qを求める
• M-‐step:
求めた分布qの期待値が最大
argmaxw Eqlog P(x, y; w) になるようにパラメータwを更新
3
- 4. 自然言語処理における
具体的な事前知識の例
• 文書分類
– ある割合の文書はあるクラスであるということが分かっている
• POS-‐tagging
– 各文に最低一つは動詞,名詞が含まれている
– ある語が多数のPOSに割り当てられることは少ない
• Rela.on
Informa.on
Extrac.on
– ある種類のEn.tyと他の種類のEn.tyの間には,特定の
Rela.onしか成り立たない
• LOCATION
–
PERSON間 なら LIVE-‐IN
とか.
• (SMTにおける)アラインメント
– L1
-‐>
L2の対応は,
L2
-‐>
L1の対応と等しい
– L1のある語がL2の多数の語と対応することは少ない
多数のラベルつきデータがあれば,そこから自然に学習が可能そう
しかし,ラベルつきデータが利用できない場合でも,事前知識をモデルに取り込みたい
4
- 5. EM学習において,
どのように事前知識を入れるか
• 制約をどのように表現するか
• 制約を用いた学習はどうすれば良いか
Posterior
Regulariza.on
COnstraint
Driven
Learning
[Ganchev
et
al,
2010]
[Chang
et
al,
2007]
制約を「ソフト」に入れる
制約を「ハード」に入れる
「制約を満たす分布」とのKLダイバージェンス最小化
ビームサーチ
+
hard
EM
(今回は紹介しません)
Unified
EM
一つパラメータを導入することで,一般的な解釈
ラグランジュ緩和に基づく効率的なE-‐stepの計算
5
- 6. Posterior
Regulariza.on
• ふつう
“Regulariza.on”
というと
– パラメータw(とかθ)に対する事前知識の導入
正則化と言われてすぐ思いつく例
正則化項(L2ノルムなど)
w = argmin " L(x, y, w) + ! R(w)
!
w
• しかし,出力(の構造)に事前知識を入れたい
・・・どうやって??
– Posterior
Regulariza.on
– Constraint
Driven
Learing
– Generalized
Expecta.on
Criteria
6
- 7. PRにおける制約の表現(1/2)
• 制約の「素性表現」を導入
– 文書分類の例) ある文書が”poli.cs”
! (x, y) = ! 1 if y is "politics"
#
"
# 0
$ otherwise
• 素性の「期待値」を取る
– 文書分類の例) 25%の文書が”poli.cs”
E p! [" (x, y)] = b 期待値を取るのは「モデル全体として」
のソフトな制約を入れるため
b = 0.25 (期待値をとらないハードな手法もある)
bは一般にはベクトル表現になる(多数
の制約を入れるため)
7
- 8. PRにおける制約の表現(2/2)
• 制約を満たす確率分布の集合を定義
– 先ほどの例なら,”poli.cs”が25%であるような分
布の集合(一般には,不等式制約で書く)
• 分布の集合とのKLダイバージェンスを定義
制約を満たす分布qの中で,最
• 最大化する目的関数
もモデルの分布と近いものとの
KLダイバージェンス
モデルの尤度を
制約分布とのKLダイバージェンスを最小に
最大に
8
- 11. PRにおけるEM学習(図解)
ここに問答無用で近づけるのが
ふつうのEM
PRにおいては,制約を満たすqの中で,もっとも尤もらしい事後分布にprojec.on
11
- 14. γの効果
KL(q , p;
°)
=
∑y
°
q(y)
log
q(y)
–
q(y)
log
p(y)
qのエントロピー
q,pのクロスエントロピー
q
with
°
=
1 q
with
°
=
1
Original
Distribu.on
p
q
with
°
=
0
q
with
°
=
-‐1
γは事後分布のエントロピーを制御するパラメータとみなすことができる
14
- 16. 制約つきE-‐Stepの計算
modified
KL
divergence
制約の期待値
q(y)のsimplex制約
γ
≧
0
であればconvexなので,(劣)勾配法で最小化が可能
16
- 19. 実験(POS
tagging)
• Un(semi-‐)supervised
POS
Tagging
– モデル
:
HMM(First
Order,
制約なし)
– 初期値
:
Uniform
or
few
Labeled
Example
γ
=
1(EM),
γ
=
0(Hard
EM)
より,γを調整した方が
高いAccuracy
(初期値に依存する)
傾向としては,初期値
が良ければEMよりHard
EM
のほうが優れている
19
- 20. 実験(Rela.on
Extrac.on)
• Semi
Supervised
En.ty-‐Rela.on
Extrac.on
– モデル:
log
linear(en.ty
extrac.on,
rela.on
classifica.on)
– 制約:
• Type
Constraint
:
(
(Loc,Per)
-‐>
LIVE
IN
)
etc..
• Count
Constraint
:
データ内のRela.on数から±20%
γの調整は
2-‐fold
CV.
0.5-‐0.6くらいに
最適値がある
らしい
20
- 21. 実験(Word
Alignment)
• モデル:
HMM,MBRデコード
• 制約:bi-‐direc.onal
agreement
• E-‐Stepは双対分解(ループ数5,けっこう重い?)
γはdevelopment
setで決定,
0.5-‐0.7くらいに最適値があるらしい
21
- 22. まとめ
• EMに基づくun(semi)
supervisedな学習において,事前知識を導入する手
法のひとつPosterior
Regulariza.on
を紹介
• PRを含んだ様々な(制約付き)EMアルゴリズムを内包するアルゴリズムと
して,UEMを紹介
• この論文のContribu.on
– KLダイバージェンスにパラメータを一個足すことで,CoDL,
PRを一般化できるこ
とを示した
– ラグランジュ緩和による効率的なE-‐Stepの計算法を示した
– 実験において,PR(γ=1)とCoDL(γ=-‐inf)の間に最適なγがあることを明らかにした
– (EM,
PRのコードがあれば)実装が非常に簡単なのもポイントらしい
• 感想
– 思っていたのとはちょっと違った,Posterior
Regulariza.onは面白そう,双対分
解する必要性がどれくらいあるものなの?ICML
Workshopにまったく同じ内容
の論文出てますね(今気づいた)
22
- 23. Further
Reading
• Posterior
Regulariza.on
for
Structured
Latent
Variable
Models
[Ganchev+
JMLR
2010]
– PRについて恐らくもっとも詳しく書いてある文献
• Rich
Prior
Knowledge
in
Learning
for
NLP
[Druck+
ACL
2011
Tutorial]
– PR,
CODL,
その他の類似フレームワークについて整理されたチュート
リアル.スライドがわかりやすい.
– hup://sideinfo.wikkii.com/
• MALLET
– PR,GE
(for
Maxent,
linear-‐chain
CRF)のコードが含まれている
– hup://mallet.cs.umass.edu/ge-‐classifica.on.php
23