More Related Content
Similar to 20150730 トピ本第4回 3.4節 (20)
20150730 トピ本第4回 3.4節
- 2. LDAの確率的変分ベイズ法
KL情報量を最小にする近似事後分布q(z, θ, Φ)を求める
変分下限Fを最大にする近似事後分布q(z, θ, Φ)を求める
𝑞 𝜙 𝑘 = 𝐷𝑖𝑟 𝜙 𝑘 𝜉 𝑘
𝜙
𝑞 𝜃 𝑑 = 𝐷𝑖𝑟 𝜃 𝑑 𝜉 𝑑
𝜃
𝑞 𝑧 𝑑,𝑖 = 𝑘
勾配降下法により𝜉 𝑘
𝜙
を求める
確率的勾配降下法により𝜉 𝑘
𝜙
を求める
同義(メリット:目的関数の結合分布化)
変分法
オンライン化
ドキュメントd毎に推計全ドキュメントに対して推計
𝛼 𝜃 𝑑
𝛽 𝜙 𝑘
ドキュメント 𝑑 = 1,2, … , 𝑀
トピック 𝑘 = 1,2, … , 𝐾
データ i= 1,2, … , 𝑛 𝑑
𝑧 𝑑,𝑖 𝑤 𝑑,𝑖
𝜋?
𝐷𝑖𝑟
𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖
𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾
𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉
(3.99)(3.90)(3.96)
- 3. 勾配降下法
最適化問題 𝑥∗
= argmin
𝑥
𝑓 𝑥 (3.132)
数値解
𝑥(𝑠)
= 𝑥(𝑠−1)
− 𝜈(𝑠−1)
𝛻𝑥 𝑓 𝑥(𝑠−1) (3.133)
ステップサイズ 勾配
𝛻𝑥 = 𝜕 𝜕𝑥 =
𝜕 𝜕𝑥1
𝜕 𝜕𝑥2
⋮
しかし、目的関数が 𝑓 𝑥 =
𝑖=1
𝑛
𝑓𝑖 𝑥 で n が大きいと
勾配の計算にかかるコストが大きい
𝑓 𝜉 =
𝑑=1
𝑀
𝑖=1
𝑛 𝑑
𝑓 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 𝜉観測データ 𝑤 𝑑,𝑖 , 𝑧 𝑑,𝑖 目的関数
- 4. 確率的勾配降下法
𝑓 𝑥 =
𝑖=1
𝑛
𝑓𝑖 𝑥 = 𝑛
𝑖=1
𝑛
1
𝑛
𝑓𝑖 𝑥
𝑝 𝑖 = 1 𝑛
𝑛𝔼 𝑝 𝑖 𝑓𝑖 𝑥
𝑖~𝑝 𝑖 = 1 𝑛
サンプリング近似
𝑛𝑓𝑖 𝑥
(確率的)勾配
𝑛𝛻𝑥 𝑓𝑖 𝑥𝑥(𝑠) = 𝑥(𝑠−1) − 𝜈(𝑠−1) 𝑛𝛻𝑥 𝑓𝑖 𝑥(𝑠−1)
確率的勾配降下法
真の勾配と確率的勾配との差:𝜈 𝑠−1
𝛻𝑥 𝑓𝑖 𝑥 𝑠−1
− 𝛻𝑥 𝔼 𝑝 𝑖 𝑓𝑖 𝑥 𝑠−1
𝜈 𝑠
に対する制約:
(局所)最適解を得るために
𝑠=1
∞
𝜈 𝑠
= ∞,
𝑠=1
∞
𝜈 𝑠 2
< ∞
よく用いられる :𝜈 𝑠
𝜈 𝑠 =
𝑎
𝑏 + 𝑠 𝜅
𝑎 > 0, 𝑏 > 0, 𝜅 ∈ (0.5,1
(3.137)
(3.138)
(3.136)
- 7. 自然勾配法
勾配を最適化問題の解として定義
argmax
𝛿𝜃: 𝛿𝜃 2≤𝜖
𝛻𝜃 𝑓 𝜃 ⊺
𝛿𝜃 =
𝜖
𝛻𝜃 𝑓 𝜃 2
𝛻𝜃 𝑓 𝜃 = 𝜈𝛻𝜃 𝑓 𝜃
𝜈
ベクトルの内積
制約条件
𝛻𝜃 𝑓 𝜃𝛿𝜃∗ は の定数倍
𝛻𝜃 𝑓 𝜃
𝛿𝜃
𝛿𝜃 2
= 𝜖
𝛿𝜃に対する制約をKL情報量を用いて確率分布間の距離で与える
統計モデルの最適化に応用
argmax
𝛿𝜃:𝐾𝐿 𝑝 𝑥 𝜃 ∥𝑝 𝑥 𝜃 + 𝛿𝜃 ≤𝜖
𝛻𝜃 𝑓 𝜃 ⊺
𝛿𝜃勾配: (3.142)
(3.140) (3.141)
- 8. フィッシャーの情報行列
𝐺 𝜃 = − 𝑝 𝑥 𝜃 𝛻𝜃
2
log 𝑝 𝑥 𝜃 𝑑𝑥
𝐺𝑗,𝑖 𝜃 = − 𝑝 𝑥 𝜃
𝜕2
𝜕𝜃𝑗 𝜕𝜃𝑖
log 𝑝 𝑥 𝜃 𝑑𝑥 = 𝑝 𝑥 𝜃
𝜕
𝜕𝜃𝑗
log 𝑝 𝑥 𝜃
𝜕
𝜕𝜃𝑖
log 𝑝 𝑥 𝜃 ⊺ 𝑑𝑥
(3.143)
(3.144) (3.146)
KL情報量をフィッシャーの情報行列𝐺 𝜃 を用いて近似
𝐾𝐿 𝑝 𝑥 𝜃 ∥ 𝑝 𝑥 𝜃 + 𝛿𝜃 ≈
1
2
𝛿𝜃⊺
𝐺 𝜃 𝛿𝜃
近似した最適化問題の解としての自然勾配
(3.147)
argmax
𝛿𝜃:
1
2
𝛿𝜃⊺ 𝐺 𝜃 𝛿𝜃≤𝜖
𝛻𝜃 𝑓 𝜃 ⊺
𝛿𝜃 = 𝜈𝐺 𝜃 −1
𝛻𝜃 𝑓 𝜃
(3.150)
θの更新式: 𝜃 𝑠 = 𝜃 𝑠−1 + 𝜈 𝑠−1 𝐺 𝜃 𝑠−1 −1
𝛻𝜃 𝑓 𝑝 𝑥 𝜃 𝑠−1
(3.151)
- 9. LDAに対する自然勾配法
𝑞 𝜙 𝑘 𝜉 𝑘
𝜙
= 𝐷𝑖𝑟 𝜙 𝑘 𝜉 𝑘
𝜙
=
Γ 𝑣=1
𝑉
𝜉 𝑘,𝑣
𝜙
𝑣=1
𝑉
Γ 𝜉 𝑘,𝑣
𝜙
𝑣=1
𝑉
𝜙 𝑘,𝑣
𝜉 𝑘,𝑣
𝜙
−1
𝛼 𝜃 𝑑
𝛽 𝜙 𝑘
ドキュメント 𝑑 = 1,2, … , 𝑀
トピック 𝑘 = 1,2, … , 𝐾
データ i= 1,2, … , 𝑛 𝑑
𝑧 𝑑,𝑖 𝑤 𝑑,𝑖
𝜋?
𝐷𝑖𝑟
𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖
𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾
𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉
(3.96)
𝐺 𝜉 = − 𝑞 𝜙 𝑘 𝜉 𝑘
𝜙
𝛻2
𝜉 𝑘
𝜙 log 𝑞 𝜙 𝑘 𝜉 𝑘
𝜙
𝑑𝜙 𝑘
argmax
𝛿𝜉:
1
2 𝛿𝜉⊺ 𝐺 𝜉 𝛿𝜉≤𝜖
𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉
⊺
𝛿𝜉 = 𝜈𝐺 𝜉 −1
𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉
𝜉 𝑘
(𝑠+1)
= 𝜉 𝑘
(𝑠)
+ 𝜈 𝑠
𝐺 𝜉 𝑘
−1
𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘
𝑠
(3.156)
𝜈 𝑠 𝔼 𝑞 𝑧 𝑛 𝑘 + 𝛽 − 𝜉 𝑘
(𝑠)
(3.155)
(3.152)~(3.154), (3.104)
- 10. LDAの確率的最適化
𝔼 𝑞 𝑧 𝑛 𝑘 + 𝛽 − 𝜉 𝑘
(𝑠)
LDAの勾配:
全ドキュメントに対する平均
𝛼 𝜃 𝑑
𝛽 𝜙 𝑘
ドキュメント 𝑑 = 1,2, … , 𝑀
トピック 𝑘 = 1,2, … , 𝐾
データ i= 1,2, … , 𝑛 𝑑
𝑧 𝑑,𝑖 𝑤 𝑑,𝑖
𝜋?
𝐷𝑖𝑟
𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖
𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾
𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉
サンプリングされたドキュメントの値から近似
𝑀𝔼 𝑞 𝑧 𝑛 𝑑,𝑘 + 𝛽 − 𝜉 𝑘
(𝑠)
𝑣成分ごとに𝜉の更新式を書き下すと
𝜉 𝑘,𝑣
(𝑠+1)
= 𝜉 𝑘,𝑣
(𝑠)
+ 𝜈 𝑠
𝑀𝔼 𝑞 𝑧 𝑛 𝑑,𝑘,𝑣 + 𝛽𝑣 − 𝜉 𝑘,𝑣
(𝑠)
(3.159)
- 11. おまけ
LDAの自然勾配の𝑣成分が式(3.155)になることの確認
𝐺 𝜉 𝑘 ∙ 𝐺 𝜉 𝑘
−1 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘 =
𝜕
𝜕𝜉 𝑘
𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘
勾配
𝜕
𝜕𝜉 𝑘,𝑣
𝔼 𝑞 𝜙 𝑘 𝜉 𝑘
log 𝜙 𝑘,𝑣′
𝑋 𝑣′𝐺𝑣,𝑣′
両辺の𝑣成分
(左辺)
𝑣′=1
𝑉
𝑋 𝑣′ ∙
𝜕
𝜕𝜉 𝑘,𝑣
𝔼 𝑞 𝜙 𝑘 𝜉 𝑘
log 𝜙 𝑘,𝑣′
(3.154)
(右辺)
𝑣′=1
𝑉
𝔼 𝑞 𝑧 𝑛 𝑘,𝑣′ + 𝛽𝑣′ − 𝜉 𝑘,𝑣′ ∙
𝜕
𝜕𝜉 𝑘,𝑣
𝔼 𝑞 𝜙 𝑘 𝜉 𝑘
log 𝜙 𝑘,𝑣′ (3.104)