More Related Content
Similar to 変分推論法(変分ベイズ法)(PRML第10章) (20)
変分推論法(変分ベイズ法)(PRML第10章)
- 2. 近似推論法(1)
やりたいこと
観測データ𝑿が与えられた時に,
(1) 潜在変数𝒁の事後分布𝑝 𝒁|𝑿
(2) この事後分布を使った期待値
を求めたい.
例えば,混合ガウス分布の場合
潜在変数
𝐾次元の2値確率変数1-of-K表現
(どれか一つだけ1,残りが0)
事後分布𝑝 𝒁|𝑿
各データ𝑿が特定のガウス分布か
ら生成される確率
混合ガウス分布
潜在変数
𝑝 𝒛 = 𝜋 𝑘
𝑧 𝑘
𝐾
𝑘=1
条件付き分布
𝑝 𝒙|𝒛 = 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
𝐾
𝑘=1
同時分布
𝑝 𝒙, 𝒛 = 𝜋 𝑘 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
𝐾
𝑘=1
周辺分布(混合ガウスモデル)
𝑝 𝒙 = 𝜋 𝑘 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘
𝐾
𝑘=1
- 4. 変分推論法(変分ベイズ法)(1)
前準備
• モデルのパラメータ(混合ガウス分布の場合:𝜋 𝑘, 𝜇 𝑘, Σ 𝑘)を
確率変数と考え,潜在変数に含める.
• 全てのパラメータに対して事前分布が与えられたベイズ的な
モデルを考える.
観測データ:𝑿 = 𝑥1, ⋯ , 𝑥 𝑁
潜在変数: 𝒁 = 𝑧1, ⋯ , 𝑧 𝑁
目的
確率モデルによって同時分布𝑝 𝑿, 𝒁 が定められた時, 事後分
布𝑝 𝒁|𝑿 および周辺尤度(モデルエビデンス) 𝑝 𝑿 の近似を
変分推論法(変分ベイズ法)で求める
- 6. 変分推論法(変分ベイズ法)(3)
周辺対数尤度の分解の導出
ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝 &= 𝑞 𝒁 ln
𝑝 𝑿, 𝒁
𝑞 𝒁
𝑑𝒁 − 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln
𝑝 𝒁|𝑿 𝑝 𝑿
𝑞 𝒁
𝑑𝒁 − 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
+ ln 𝑝 𝑿 − ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln 𝑝 𝑿 𝑑𝒁
&= ln 𝑝 𝑿 𝑞 𝒁 𝑑𝒁
&= ln 𝑝 𝑿
- 7. 変分推論法(変分ベイズ法)(4)
周辺対数尤度の分解
𝒁に関する分布𝑞 𝒁 を使って,周辺対数尤度ln 𝑝 𝑿 を分解する
ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝
ただし,
ℒ 𝑞 = 𝑞 𝒁 ln
𝑝 𝑿, 𝒁
𝑞 𝒁
𝑑𝒁
𝐾𝐿 𝑞||𝑝 = − 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
𝑝 𝒁|𝑿 と𝑞 𝒁 のKullback-
Leiblerダイバージェンス
ln 𝑝 𝑿 の下界
確率密度関数𝑞 𝒁 を入力と
した汎関数
(10.2)
(10.3)
(10.4)
- 9. 変分推論法(変分ベイズ法)(6)
周辺対数尤度の分解
𝒁に関する分布𝑞 𝒁 を使って,周辺対数尤度ln 𝑝 𝑿 を分解する
ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝
• KLダイバージェンスは必ず0以上なので,ℒ 𝑞 はln 𝑝 𝑿 の下
界である
• ℒ 𝑞 を最大にする𝑞 𝒁 を求めるためには, 𝐾𝐿 𝑞||𝑝 を最小
にする𝑞 𝒁 を求めればよい
𝑝 𝒁|𝑿 と𝑞 𝒁 のKullback-
Leiblerダイバージェンス
ln 𝑝 𝑿 の下界
確率密度関数𝑞 𝒁 を入力と
した汎関数
- 11. 変分推論法(変分ベイズ法)(8)
分布𝑞 𝒁 のクラスの制限
• 𝒁の要素をいくつかの排反なグループに分割する
𝒁𝑖&(𝑖 = 1, ⋯ , 𝑀)
• 分布𝑞 𝒁 がこれらのグループに関して分解できると仮定する
𝑞 𝒁 = 𝑞𝑖 𝒁𝑖
𝑀
𝑖=1
• この式で表される𝑞 𝒁 の中で,ℒ 𝑞 を最大にするものを探す
• この分解は,物理学の平均場近似に対応している
(10.5)
- 12. 変分推論法(変分ベイズ法)(9)
ℒ 𝑞 の変形
制限された形の𝑞 𝒁 に対して, ℒ 𝑞 を最大にするものを求め
るために,グループに分解された分布𝑞 𝒁 の式をℒ 𝑞 の式に代
入して変形する
ℒ 𝑞 &= 𝑞 𝒁 ln
𝑝 𝑿, 𝒁
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 − ln 𝑞 𝒁 𝑑𝒁
&= 𝑞𝑖 𝒁𝒊
𝑖
ln 𝑝 𝑿, 𝒁 − ln 𝑞𝑖 𝒁𝒊
𝑖
𝑑𝒁
&= 𝑞𝑖
𝑖
ln 𝑝 𝑿, 𝒁 𝑑𝒁 − 𝑞𝑖 𝒁𝒊
𝑖
ln 𝑞𝑖
𝑖
𝑑𝒁
𝑞𝑖
- 13. 変分推論法(変分ベイズ法)(10)
ℒ 𝑞 の変形(続き)
𝑞𝑗に関わる項だけ抜き出す
ℒ 𝑞 &= 𝑞𝑖
𝑖
ln 𝑝 𝑿, 𝒁 𝑑𝒁 − 𝑞𝑖
𝑖
ln 𝑞𝑖
𝑖
𝑑𝒁
&= 𝑞𝑗 𝑞𝑖
𝑖≠𝑗
ln 𝑝 𝑿, 𝒁 𝑑𝒁𝒊 𝑑𝒁𝒋 − 𝑞𝑖
𝑖
ln 𝑞𝑗 + ln 𝑞𝑖
𝑖≠𝑗
𝑑𝒁
&= 𝑞𝑗 ln 𝑝 𝑿, 𝒁 𝑞𝑖
𝑖≠𝑗
𝑑𝒁𝒊 𝑑𝒁𝒋
− 𝑞𝑖
𝑖
ln 𝑞𝑗 𝑑𝒁 − 𝑞𝑖
𝑖≠𝑗
ln 𝑞𝑖
𝑖≠𝑗
𝑞𝑗 𝑑𝒁𝑗 𝑑𝒁𝒊
&= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 − 𝑐𝑜𝑛𝑠𝑡 𝑑𝒁𝒋 − 𝑞𝑗 ln 𝑞𝑗 𝑑𝒁𝒋 − 𝑞𝑖
𝑖≠𝑗
ln 𝑞𝑖
𝑖≠𝑗
𝑑𝒁𝒊
const
- 14. 変分推論法(変分ベイズ法)(11)
ℒ 𝑞 の変形(続き)
ℒ 𝑞 &= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 𝑑𝒁𝒋 − 𝑞𝑗 ln 𝑞𝑗 𝑑𝒁𝒋 + 𝑐𝑜𝑛𝑠𝑡
&= 𝑞𝑗 ln
𝑝 𝑿, 𝒁𝑗
𝑞𝑗
𝑑𝒁𝒋 + 𝑐𝑜𝑛𝑠𝑡
𝑞𝑗(𝒁𝒋)と𝑝 𝑿, 𝒁𝑗 の負の
Kullback-Leiblerダイ
バージェンス
ただし,
ln 𝑝 𝑿, 𝒁𝑗 = ln 𝑝 𝑿, 𝒁 𝑞𝑖
𝑖≠𝑗
𝑑𝒁𝒊 + 𝑐𝑜𝑛𝑠𝑡 = 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + 𝑐𝑜𝑛𝑠𝑡
𝑖 ≠ 𝑗である全ての𝑧𝑖によ
る分布𝑞での期待値
したがって,ℒ 𝑞 を最大にする
𝑞𝑗
∗
𝑍𝑗 は
𝑞𝑗
∗
𝑍𝑗 = 𝑝 𝑿, 𝒁𝑗
(10.7), (10.8)
(10.6)
- 16. 分解による近似の特性 (1)
分解による近似の例
相関のある2変数𝒛 = 𝑧1, 𝑧2 に関するガウス分布
𝑝 𝒛 = 𝑁 𝒛|𝝁, 𝜦−1
を考える.ただし,
𝝁 = 𝜇1, 𝜇2
𝑇
, &𝜦 =
𝛬11 𝛬12
𝛬21& 𝛬22
この分布を分解したガウス分布
𝑞 𝒛 = 𝑞1 𝑧1 𝑞2 𝑧2
で近似する.𝑞 𝒛 の最適解は(10.9)式から
𝑙𝑛 𝑞1
∗
𝑧1 = 𝐸𝑧2
𝑙𝑛 𝑝 𝒛 + 𝑐𝑜𝑛𝑠𝑡
𝑧1に関する項以外は定数項に含まれるので, 𝑧1に関する項だけを集めて
𝑙𝑛 𝑞1
∗
𝑧1 = 𝐸𝑧2
−
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
(10.10)
- 17. 分解による近似の特性 (2)
分解による近似の例(続き)
𝑙𝑛 𝑞1
∗
𝑧1 &= 𝐸𝑧2
−
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
&= 𝑞2 𝑧2 −
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 𝑑𝑧2 + 𝑐𝑜𝑛𝑠𝑡
&= −
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1Λ12 𝑞2 𝑧2 𝑧2 𝑑𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
&= −
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1Λ12 𝐸𝑧2
𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
この式は𝑧1に関する2次式になっているので,𝑞1
∗
𝑧1 はガウス分布となる.
平方完成して,
𝑞1
∗
𝑧1 = 𝑁 𝑧1|𝑚1, Λ11
−1
𝑚1 = 𝜇1 − Λ11
−1
Λ12 𝐸𝑧2
𝑧2 − 𝜇2
𝑧2についても同様に導出できる
(10.11)
- 18. 分解による近似の特性 (3)
分解による近似の例(続き)
以上から求まった𝑞 𝒛 = 𝑞1 𝑧1 𝑞2 𝑧2 の最適解は
𝑞1
∗
𝑧1 = 𝑁 𝑧1|𝑚1, Λ11
−1
𝑞2
∗
𝑧2 = 𝑁 𝑧2|𝑚2, Λ22
−1
𝑚1 = 𝜇1 − Λ11
−1
Λ12 𝐸𝑧2
𝑧2 − 𝜇2
𝑚2 = 𝜇2 − Λ22
−1
Λ12 𝐸𝑧1
𝑧1 − 𝜇1
これらの解は相互に依存関係がある
• 𝑞1
∗
𝑧1 は,𝑞2
∗
𝑧2 を使って計算される期待値𝐸𝑧2
𝑧2 に依存する
• 𝑞2
∗
𝑧2 は,𝑞1
∗
𝑧1 を使って計算される期待値𝐸𝑧1
𝑧1 に依存する
したがって,収束条件が満たされるまで交互に更新して解を求める
(10.12)-(10.15)
- 21. 例:一変数ガウス分布 (1)
目的
ガウス分布から独立に発生したと仮定する観測値𝑥のデータ集合𝐷 =
𝑥1, ⋯ , 𝑥 𝑁 が与えられた時,もともとのガウス分布の平均𝜇と標準偏差𝜏の事
後分布を求める
尤度関数
𝑝 𝐷|𝜇, 𝜏 =
𝜏
2𝜋
𝑁
2
exp −
𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
共役事前分布
パラメータ𝜇と𝜏を確率変数と考え,共役事前分布を導入(2.3.6節参照)
𝑝 𝜇|𝜏 = 𝑁 𝜇|𝜇0, 𝜆0 𝜏 −1
𝑝 𝜏 = 𝐺𝑎𝑚 𝜏|𝑎0, 𝑏0
𝐺𝑎𝑚 𝜏|𝑎, 𝑏 =
1
Γ 𝑎
𝑏 𝑎
𝜏 𝑎−1
exp −𝑏𝜏
Γ 𝑥 = 𝑢 𝑥−1
∞
0
𝑒−𝑢
𝑑𝑢
(2.146)
(1.141)
ただし,
(10.21)
(10.22)
(10.23)
- 22. 例:一変数ガウス分布 (2)
分解した変分近似による事後分布の推定
推定事後分布を以下の積の形に分解して考える
𝑞 𝜇, 𝜏 = 𝑞 𝜇 𝜇 𝑞 𝜏 𝜏
(10.9)式から𝑞 𝜇 𝜇 の最適解𝑞 𝜇
∗
𝜇 は
ln 𝑞 𝜇
∗
𝜇 &= 𝐸𝜏 ln 𝑝 𝐷, 𝜇, 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 𝑝 𝜇|𝜏 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + ln 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 −
𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
−
𝜆0 𝜏
2
𝜇 − 𝜇0
2
+ 𝑐𝑜𝑛𝑠𝑡
&= −
𝐸𝜏 𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
+ 𝜆0 𝜇 − 𝜇0
2
+ 𝑐𝑜𝑛𝑠𝑡 (10.25)
(10.24)
- 23. 例:一変数ガウス分布 (3)
分解した変分近似による事後分布の推定(続き)
𝜇に関して平方完成すると,𝑞 𝜇
∗
𝜇 は以下の様なガウス分布になる
𝑞 𝜇
∗
𝜇 = 𝑁 𝜇|𝜇 𝑁, 𝜆 𝑁
−1
𝜇 𝑁 =
𝜆0 𝜇0 + 𝑁𝑥
𝜆0 + 𝑁
𝜆 𝑁 = 𝜆0 + 𝑁 𝐸𝜏 𝜏
同様にして, 𝑞 𝜏 𝜏 の最適解𝑞 𝜏
∗
𝜏 は
ln 𝑞 𝜏
∗
𝜏 &= 𝐸𝜇 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + ln 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜇 −
𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
−
𝜆0 𝜏
2
𝜇 − 𝜇0
2
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+
𝑁
2
ln 𝜏 +
1
2
ln 𝜏 + 𝑎0 − 1 ln 𝜏 − 𝑏0 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝑎0 +
𝑁 + 1
2
− 1 ln 𝜏 − 𝑏0 +
1
2
𝐸𝜇 ⋯ 𝜏 + 𝑐𝑜𝑛𝑠𝑡
(10.26)
(10.27)
(10.28)
- 24. 例:一変数ガウス分布 (4)
分解した変分近似による事後分布の推定(続き)
したがって,
𝑞 𝜏
∗
𝜏 ∝ 𝜏
𝑎0+
𝑁+1
2
−1
exp − 𝑏0 +
1
2
𝐸𝜇 ⋯ 𝜏
Γ分布
𝐺𝑎𝑚 𝜏|𝑎, 𝑏 =
1
Γ 𝑎
𝑏 𝑎
𝜏 𝑎−1
exp −𝑏𝜏
と比較すると,これがΓ分布となることがわかる
𝑞 𝜏
∗
𝜏 = 𝐺𝑎𝑚 𝜏|𝑎 𝑁, 𝑏 𝑁
𝑎 𝑁 = 𝑎0 +
𝑁 + 1
2
𝑏 𝑁 = 𝑏0 +
1
2
𝐸𝜇 𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
+ 𝜆0 𝜇 − 𝜇0
2
(10.26)(10.27)および(10.29)(10.30)を交互に繰り返して計算することに
より,事後分布𝑝 𝜇, 𝜏|𝐷 の変分近似を求めることができる
(10.29)
(10.30)
- 26. 例:変分混合ガウス分布 (1)
目的
混合ガウス分布に変分推論法を適用する
データの表現
各観測値𝑥 𝑛に対応する潜在変数を𝑧 𝑛とする(1-of-K表現の二値ベクトル:
K個の要素𝑧 𝑛𝑘 𝑘 − 1, ⋯ , 𝐾 の中に1が一つだけある二値ベクトル)
観測データ:𝑿 = 𝒙1, ⋯ , 𝒙 𝑁
潜在変数: 𝒁 = 𝒛1, ⋯ , 𝒛 𝑁
混合比𝝅が与えられた時の𝒁の条件付き分布
𝑝 𝒁|𝝅 = 𝜋 𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
潜在変数と混合要素のパラメータが与えられた時の観測データベクトルの
条件付き分布
𝑝 𝑿|𝒁, 𝝁, 𝚲 = 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1 𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
(10.37)
(10.38)
- 27. 例:変分混合ガウス分布 (2)
共役事前分布
パラメータ𝝁, 𝚲, 𝝅の共役事前分布を導入(2.3.6節参照)
混合要素𝝅に対してディリクレ分布
𝑝 𝝅 = 𝐷𝑖𝑟 𝜋|𝛼0 = 𝐶 𝛼0 𝜋 𝑘
𝛼0−1
𝐾
𝑘=1
(要素の対称性から各混合要素について同じハイパーパラメータ𝛼0を用いる)
混合要素のもつガウス分布の平均𝝁と精度𝚲(共分散行列の逆行列)に対し
てガウス-ウィシャート事前分布
𝑝 𝝁, 𝚲 = 𝑝 𝝁|𝚲 𝑝 𝚲 = 𝑁 𝝁 𝑘|𝒎0, 𝛽0 𝚲 𝑘
−1
𝑊 𝚲 𝑘|𝑾0, 𝝂0
𝐾
𝑘=1
(対称性から𝒎0 = 𝟎とおく)
(10.39)
(10.40)
- 28. 例:変分混合ガウス分布 (3)
同時分布
𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 = 𝑝 𝑿|𝒁, 𝝁, 𝚲 𝑝 𝒁|𝝅 𝑝 𝝅 𝑝 𝝁|𝚲 𝑝 𝚲
分解した変分近似
推定事後分布を以下の積の形に分解して考える
𝑞 𝒁, 𝝅, 𝝁, 𝚲 = 𝑞 𝒁 𝑞 𝝅, 𝝁, 𝚲
分解した変分近似による事後分布の推定
(10.9)式から𝑞 𝒁 の最適解𝑞∗
𝒁 は
ln 𝑞∗
𝒁 &= 𝐸 𝝅,𝝁,𝚲 ln 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝝅 ln 𝑝 𝒁|𝝅 + 𝐸 𝝁,𝚲 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝝅 ln 𝜋 𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝐸 𝝁,𝚲 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1 𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
&= 𝑧 𝑛𝑘 𝐸 𝝅 ln 𝜋 𝑘
𝐾
𝑘=1
𝑁
𝑛=1
&&&&&&&&&&&&&&&&&+ 𝑧 𝑛𝑘 𝐸 𝝁,𝚲
1
2
ln 𝚲 𝑘 −
𝐷
2
ln 2𝜋 &−
1
2
𝒙 𝑛 − 𝝁 𝑘
𝑇
𝚲 𝑘 𝒙 𝑛 − 𝝁 𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
(10.41)
(10.42)
(10.43)
(10.44)
- 29. 例:変分混合ガウス分布 (4)
分解した変分近似による事後分布の推定(続き)
したがって,
ln 𝑞∗
𝒁 &= 𝑧 𝑛𝑘 ln 𝜌 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
ただし,
ln 𝜌 𝑛𝑘 = 𝐸 𝝅 𝒌
ln 𝜋 𝑘 +
1
2
𝐸 𝝁 𝒌,𝚲 𝐤
ln 𝚲 𝑘 −
𝐷
2
ln 2𝜋 &−
1
2
𝐸 𝝁 𝐤,𝚲 𝐤
𝒙 𝑛 − 𝝁 𝑘
𝑇
𝚲 𝑘 𝒙 𝑛 − 𝝁 𝑘
両辺の指数をとって
𝑞∗
𝒁 ∝ 𝜌 𝑛𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
全ての𝑍に対して和をとると1になるので,
𝑞∗
𝒁 = 𝑟𝑛𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
ただし,
𝑟𝑛𝑘 =
𝜌 𝑛𝑘
𝜌 𝑛𝑗𝑗=1
𝐸 𝑧 𝑛𝑘 = 𝑟𝑛𝑘より
𝑟𝑛𝑘は負担率を表す
(10.45)
(10.46)
(10.47)
(10.48), (10.49)
(10.50)
- 30. 例:変分混合ガウス分布 (5)
ln 𝑞∗
𝝅, 𝝁, 𝜦 を求める前に,負担率から計算できる3つの統計量を定義しておく
𝑁𝑘 = 𝑟𝑛𝑘
𝑁
𝑛=1
𝒙 𝑘 =
1
𝑁𝑘
𝑟𝑛𝑘 𝒙 𝑛
𝑁
𝑛=1
𝑺 𝑘 =
1
𝑁𝑘
𝑟𝑛𝑘 𝒙 𝑛 − 𝒙 𝑘 𝒙 𝑛 − 𝒙 𝑘
𝑇
𝑁
𝑛=1
次に, ln 𝑞∗
𝝅, 𝝁, 𝜦 を求める
ln 𝑞∗
𝝅, 𝝁, 𝜦 &= 𝐸 𝒁 ln 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 𝑝 𝒁|𝝅 𝑝 𝝅 𝑝 𝝁|𝚲 𝑝 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 + 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + ln 𝑝 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝐸 𝒁 ln 𝑝 𝒁|𝝅
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+ ln 𝑝 𝝅 + ln 𝑝 𝝁 𝒌, 𝚲 𝒌
𝐾
𝑘=1
+ 𝑐𝑜𝑛𝑠𝑡
(10.51)
(10.52)
(10.53)
(10.54)
- 31. 例:変分混合ガウス分布 (6)
したがって,
ln 𝑞∗
𝝅, 𝝁, 𝜦 = ln 𝑞∗
𝝅 + ln 𝑞∗
𝝁 𝒌, 𝚲 𝒌
𝐾
𝑘=1
𝑞∗
𝝅, 𝝁, 𝜦 = 𝑞∗
𝝅 𝑞∗
𝝁 𝒌, 𝚲 𝒌
𝐾
𝑘=1
ただし,
ln 𝑞∗
𝝅 = 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + 𝑐𝑜𝑛𝑠𝑡
ln 𝑞∗
𝝁 𝒌, 𝚲 𝒌 = ln 𝑝 𝝁 𝒌, 𝚲 𝒌 + 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
とおいた.(10.55)式は変分事後分布𝑞∗
𝝅, 𝝁, 𝜦 が,変分近似でおいた仮定以
上にさらに分解されることを意味する.→&導出された分解(10.2.5節)
(10.55)
- 32. 例:変分混合ガウス分布 (7)
ln 𝑞∗
𝝅 &= 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 ln 𝜋 𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ ln 𝐶 𝛼0 𝜋 𝑘
𝛼0−1
𝐾
𝑘=1
+ 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝑍 𝑧 𝑛𝑘 ln 𝜋 𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝛼0 − 1 ln 𝜋 𝑘
𝐾
𝑘=1
+ 𝑐𝑜𝑛𝑠𝑡
&= 𝑁𝑘 + 𝛼0 − 1 ln 𝜋 𝑘
𝐾
𝑘=1
+ 𝑐𝑜𝑛𝑠𝑡
&= ln 𝜋 𝑘
𝑁 𝑘+𝛼0−1
𝐾
𝑘=1
+ 𝑐𝑜𝑛𝑠𝑡
したがって,𝑞∗
𝝅 はディリクレ分布となる
𝑞∗
𝝅 = 𝐷𝑖𝑟 𝝅|𝜶
𝛼 𝑘 = 𝑁𝑘 + 𝛼0
(10.56)
(10.57)
(10.58)
- 33. 例:変分混合ガウス分布 (8)
ln 𝑞∗
𝝁 𝒌, 𝚲 𝒌 &= ln 𝑝 𝝁 𝒌, 𝚲 𝒌 + 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
&= ln 𝑁 𝝁 𝑘|𝒎0, 𝛽0 𝚲 𝑘
−1
𝑊 𝚲 𝑘|𝑾0, 𝜈0
&+ 𝑟𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
&(導出は演習10.13の解答:サポートページからダウンロードできる)
&= ln 𝑁 𝝁 𝑘|𝒎 𝑘, 𝛽 𝑘 𝚲 𝑘
−1
𝑊 𝚲 𝑘|𝑾 𝑘, 𝜈 𝑘
したがって,𝑞∗
𝝁 𝒌, 𝚲 𝒌 はガウス-ウィシャート分布となる
𝛽 𝑘 = 𝛽0 + 𝑁𝑘
𝒎 𝑘 =
1
𝛽 𝑘
𝛽0 𝒎0 + 𝑁𝑘 𝒙 𝑘
𝑾 𝑘
−1
= 𝑾0
−1
+ 𝑁𝑘 𝑺 𝑘 +
𝛽0 𝑁𝑘
𝛽0 + 𝑁𝑘
𝒙 𝑘 − 𝒎0 𝒙 𝑘 − 𝒎0
𝑇
𝜈 𝑘 = 𝜈0 + 𝑁𝑘
(10.60)
|
(10.63)
(10.59)
- 34. 例:変分混合ガウス分布 (9)
変分混合ガウス分布の求め方のまとめ
(1) 負担率 𝑟𝑛𝑘を初期化する
(2) (10.51)-(10.53)で𝑁𝑘, 𝒙 𝑘, 𝑺 𝑘を求める
(3) [Mステップ] (10.57)で𝑞∗
𝝅 を,(10.59)で𝑞∗
𝝁 𝑘, 𝚲 𝑘 &(𝑘 = 1 ⋯ 𝐾)を求
める
(4) [Eステップ] (10.64)-(10.66)および(10.46)-(10.49)で負担率を計算
する ((10.64)-(10.66)は載せてないので本を参照のこと)
(5) (2)に戻って収束するまで繰り返し更新する