変分推論法（変分ベイズ法）(PRML第10章)

変分推論法（変分ベイズ法）
「第10章近似推論法」，
C.M.ビショップ，
パターン認識と学習（下），
シュプリンガー・ジャパン，2007.
2013/12/04 上智大学山中高夫
10.1 変分推論
10.2 例：変分混合ガウス分布
(10.3-10.7は別の機会に）

近似推論法(1)
 やりたいこと
観測データ𝑿が与えられた時に，
(1) 潜在変数𝒁の事後分布𝑝 𝒁|𝑿
(2) この事後分布を使った期待値
を求めたい．
例えば，混合ガウス分布の場合
潜在変数
𝐾次元の2値確率変数1-of-K表現
（どれか一つだけ1，残りが0）
事後分布𝑝 𝒁|𝑿
各データ𝑿が特定のガウス分布か
ら生成される確率
混合ガウス分布
潜在変数
𝑝 𝒛 = 𝜋 𝑘
𝑧 𝑘
𝐾
𝑘=1
条件付き分布
𝑝 𝒙|𝒛 = 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
𝐾
𝑘=1
同時分布
𝑝 𝒙, 𝒛 = 𝜋 𝑘 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
𝐾
𝑘=1
周辺分布（混合ガウスモデル）
𝑝 𝒙 = 𝜋 𝑘 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘
𝐾
𝑘=1

近似推論法(2)
 やりたいこと（続き）
一般の確率モデルの場合
• 事後分布を解析的に導出できない場合も多い
• 潜在変数の次元が高すぎて，直接その空間全体を扱えないこ
とがある
→ 近似法を用いる
 近似推論法
• 確率的な近似推論（11章）
サンプリング法を用いて数値的に計算を行う方法で，大規
模な課題を取り扱うときに計算量が多くなる問題がある
• 決定的な近似推論 ← 10章ではこちらを扱う
事後分布を解析的に近似する方法で，大規模な課題にも適
用できる

変分推論法（変分ベイズ法）(1)
 前準備
• モデルのパラメータ（混合ガウス分布の場合：𝜋 𝑘, 𝜇 𝑘, Σ 𝑘）を
確率変数と考え，潜在変数に含める．
• 全てのパラメータに対して事前分布が与えられたベイズ的な
モデルを考える．
観測データ：𝑿 = 𝑥1, ⋯ , 𝑥 𝑁
潜在変数： 𝒁 = 𝑧1, ⋯ , 𝑧 𝑁
 目的
確率モデルによって同時分布𝑝 𝑿, 𝒁 が定められた時，事後分
布𝑝 𝒁|𝑿 および周辺尤度（モデルエビデンス） 𝑝 𝑿 の近似を
変分推論法（変分ベイズ法）で求める

 周辺対数尤度の分解
𝒁に関する分布𝑞 𝒁 を使って，周辺対数尤度ln 𝑝 𝑿 を分解する
ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝
ただし，
ℒ 𝑞 = 𝑞 𝒁 ln
𝑝 𝑿, 𝒁
𝑞 𝒁
𝑑𝒁
𝐾𝐿 𝑞||𝑝 = − 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
(10.2)
(10.3)
(10.4)

 周辺対数尤度の分解の導出
ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝 &= 𝑞 𝒁 ln
𝑝 𝑿, 𝒁
𝑞 𝒁
𝑑𝒁 − 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln
𝑝 𝒁|𝑿 𝑝 𝑿
𝑞 𝒁
𝑑𝒁 − 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
+ ln 𝑝 𝑿 − ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln 𝑝 𝑿 𝑑𝒁
&= ln 𝑝 𝑿 𝑞 𝒁 𝑑𝒁
&= ln 𝑝 𝑿

ただし，
ℒ 𝑞 = 𝑞 𝒁 ln
𝑝 𝑿, 𝒁
𝑞 𝒁
𝑑𝒁
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
𝑝 𝒁|𝑿 と𝑞 𝒁 のKullback-
Leiblerダイバージェンス
ln 𝑝 𝑿 の下界
確率密度関数𝑞 𝒁 を入力と
した汎関数
(10.2)
(10.3)
(10.4)

 汎関数
関数：変数の値を入力としてとり，出力として関数の値を返す
写像
汎関数：入力として関数をとり，出力として汎関数の値を返す
写像
例）エントロピー𝐻 𝑝 は確率分布𝑝 𝑥 を入力とし，量
𝐻 𝑝 = 𝑝 𝑥 ln 𝑝 𝑥 𝑑𝑥
を返す汎関数である
(10.1)

• KLダイバージェンスは必ず0以上なので，ℒ 𝑞 はln 𝑝 𝑿 の下
界である
• ℒ 𝑞 を最大にする𝑞 𝒁 を求めるためには， 𝐾𝐿 𝑞||𝑝 を最小
にする𝑞 𝒁 を求めればよい
𝑝 𝒁|𝑿 と𝑞 𝒁 のKullback-
Leiblerダイバージェンス
ln 𝑝 𝑿 の下界
確率密度関数𝑞 𝒁 を入力と
した汎関数

 KLダイバージェンスの最小化による近似
• KLダイバージェンス
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
は𝑞 𝒁 = 𝑝 𝒁|𝑿 のとき，最小になるが，真の分布𝑝 𝒁|𝑿 は
求めることができないと仮定する
• ある制限したクラスの𝑞 𝒁 を考え，その中でKLダイバー
ジェンスを最小にするものを探す
• 求まった𝑞 𝒁 が，真の分布𝑝 𝒁|𝑿 の近似となる

 分布𝑞 𝒁 のクラスの制限
• 𝒁の要素をいくつかの排反なグループに分割する
𝒁𝑖&(𝑖 = 1, ⋯ , 𝑀)
• 分布𝑞 𝒁 がこれらのグループに関して分解できると仮定する
𝑞 𝒁 = 𝑞𝑖 𝒁𝑖
𝑀
𝑖=1
• この式で表される𝑞 𝒁 の中で，ℒ 𝑞 を最大にするものを探す
• この分解は，物理学の平均場近似に対応している
(10.5)

 ℒ 𝑞 の変形
制限された形の𝑞 𝒁 に対して， ℒ 𝑞 を最大にするものを求め
るために，グループに分解された分布𝑞 𝒁 の式をℒ 𝑞 の式に代
入して変形する
ℒ 𝑞 &= 𝑞 𝒁 ln
𝑝 𝑿, 𝒁
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 − ln 𝑞 𝒁 𝑑𝒁
&= 𝑞𝑖 𝒁𝒊
𝑖
ln 𝑝 𝑿, 𝒁 − ln 𝑞𝑖 𝒁𝒊
𝑖
𝑑𝒁
&= 𝑞𝑖
𝑖
ln 𝑝 𝑿, 𝒁 𝑑𝒁 − 𝑞𝑖 𝒁𝒊
𝑖
ln 𝑞𝑖
𝑖
𝑑𝒁
𝑞𝑖

 ℒ 𝑞 の変形（続き）
𝑞𝑗に関わる項だけ抜き出す
ℒ 𝑞 &= 𝑞𝑖
𝑖
ln 𝑝 𝑿, 𝒁 𝑑𝒁 − 𝑞𝑖
𝑖
ln 𝑞𝑖
𝑖
𝑑𝒁
&= 𝑞𝑗 𝑞𝑖
𝑖≠𝑗
ln 𝑝 𝑿, 𝒁 𝑑𝒁𝒊 𝑑𝒁𝒋 − 𝑞𝑖
𝑖
ln 𝑞𝑗 + ln 𝑞𝑖
𝑖≠𝑗
𝑑𝒁
&= 𝑞𝑗 ln 𝑝 𝑿, 𝒁 𝑞𝑖
𝑖≠𝑗
𝑑𝒁𝒊 𝑑𝒁𝒋
− 𝑞𝑖
𝑖
ln 𝑞𝑗 𝑑𝒁 − 𝑞𝑖
𝑖≠𝑗
ln 𝑞𝑖
𝑖≠𝑗
𝑞𝑗 𝑑𝒁𝑗 𝑑𝒁𝒊
&= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 − 𝑐𝑜𝑛𝑠𝑡 𝑑𝒁𝒋 − 𝑞𝑗 ln 𝑞𝑗 𝑑𝒁𝒋 − 𝑞𝑖
𝑖≠𝑗
ln 𝑞𝑖
𝑖≠𝑗
𝑑𝒁𝒊
const

 ℒ 𝑞 の変形（続き）
ℒ 𝑞 &= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 𝑑𝒁𝒋 − 𝑞𝑗 ln 𝑞𝑗 𝑑𝒁𝒋 + 𝑐𝑜𝑛𝑠𝑡
&= 𝑞𝑗 ln
𝑝 𝑿, 𝒁𝑗
𝑞𝑗
𝑑𝒁𝒋 + 𝑐𝑜𝑛𝑠𝑡
𝑞𝑗(𝒁𝒋)と𝑝 𝑿, 𝒁𝑗 の負の
Kullback-Leiblerダイ
バージェンス
ただし，
ln 𝑝 𝑿, 𝒁𝑗 = ln 𝑝 𝑿, 𝒁 𝑞𝑖
𝑖≠𝑗
𝑑𝒁𝒊 + 𝑐𝑜𝑛𝑠𝑡 = 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + 𝑐𝑜𝑛𝑠𝑡
𝑖 ≠ 𝑗である全ての𝑧𝑖によ
る分布𝑞での期待値
したがって，ℒ 𝑞 を最大にする
𝑞𝑗
∗
𝑍𝑗 は
𝑞𝑗
∗
𝑍𝑗 = 𝑝 𝑿, 𝒁𝑗
(10.7), (10.8)
(10.6)

 変分推論法における最適解
以上の結果より
ln 𝑞𝑗
∗
𝑍𝑗 = 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + 𝑐𝑜𝑛𝑠𝑡
定数項は分布𝑞𝑗
∗
𝑍𝑗 を正規化することで得られ，
𝑞𝑗
∗
𝑍𝑗 =
exp 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁
exp 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 𝑑𝒁𝑗
(10.9)

分解による近似の特性 (1)
 分解による近似の例
相関のある2変数𝒛 = 𝑧1, 𝑧2 に関するガウス分布
𝑝 𝒛 = 𝑁 𝒛|𝝁, 𝜦−1
を考える．ただし，
𝝁 = 𝜇1, 𝜇2
𝑇
, &𝜦 =
𝛬11 𝛬12
𝛬21& 𝛬22
この分布を分解したガウス分布
𝑞 𝒛 = 𝑞1 𝑧1 𝑞2 𝑧2
で近似する．𝑞 𝒛 の最適解は(10.9)式から
𝑙𝑛 𝑞1
∗
𝑧1 = 𝐸𝑧2
𝑙𝑛 𝑝 𝒛 + 𝑐𝑜𝑛𝑠𝑡
𝑧1に関する項以外は定数項に含まれるので， 𝑧1に関する項だけを集めて
𝑙𝑛 𝑞1
∗
𝑧1 = 𝐸𝑧2
−
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
(10.10)

 分解による近似の例（続き）
𝑙𝑛 𝑞1
∗
𝑧1 &= 𝐸𝑧2
−
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
&= 𝑞2 𝑧2 −
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 𝑑𝑧2 + 𝑐𝑜𝑛𝑠𝑡
&= −
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1Λ12 𝑞2 𝑧2 𝑧2 𝑑𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
&= −
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1Λ12 𝐸𝑧2
𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
この式は𝑧1に関する２次式になっているので，𝑞1
∗
𝑧1 はガウス分布となる．
平方完成して，
𝑞1
∗
𝑧1 = 𝑁 𝑧1|𝑚1, Λ11
−1
𝑚1 = 𝜇1 − Λ11
−1
Λ12 𝐸𝑧2
𝑧2 − 𝜇2
𝑧2についても同様に導出できる
(10.11)

 分解による近似の例（続き）
以上から求まった𝑞 𝒛 = 𝑞1 𝑧1 𝑞2 𝑧2 の最適解は
𝑞1
∗
𝑧1 = 𝑁 𝑧1|𝑚1, Λ11
−1
𝑞2
∗
𝑧2 = 𝑁 𝑧2|𝑚2, Λ22
−1
𝑚1 = 𝜇1 − Λ11
−1
Λ12 𝐸𝑧2
𝑧2 − 𝜇2
𝑚2 = 𝜇2 − Λ22
−1
Λ12 𝐸𝑧1
𝑧1 − 𝜇1
これらの解は相互に依存関係がある
• 𝑞1
∗
𝑧1 は，𝑞2
∗
𝑧2 を使って計算される期待値𝐸𝑧2
𝑧2 に依存する
• 𝑞2
∗
𝑧2 は，𝑞1
∗
𝑧1 を使って計算される期待値𝐸𝑧1
𝑧1 に依存する
したがって，収束条件が満たされるまで交互に更新して解を求める
(10.12)-(10.15)

𝐾𝐿 𝑞||𝑝 を最小化して求めた𝑞 𝒛
→ 変分推論（変分ベイズ）
𝐾𝐿 𝑝||𝑞 を最小化して求めた𝑞 𝒛
→ EP法 (10.7節)

𝐾𝐿 𝑞||𝑝 を最小化して求めた𝑞 𝒛
→ 変分推論（変分ベイズ）
𝐾𝐿 𝑝||𝑞 を最小化し
て求めた𝑞 𝒛
→ EP法 (10.7節)
 多峰性分布の近似

例：一変数ガウス分布 (1)
 目的
ガウス分布から独立に発生したと仮定する観測値𝑥のデータ集合𝐷 =
𝑥1, ⋯ , 𝑥 𝑁 が与えられた時，もともとのガウス分布の平均𝜇と標準偏差𝜏の事
後分布を求める
 尤度関数
𝑝 𝐷|𝜇, 𝜏 =
𝜏
2𝜋
𝑁
2
exp −
𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
 共役事前分布
パラメータ𝜇と𝜏を確率変数と考え，共役事前分布を導入（2.3.6節参照）
𝑝 𝜇|𝜏 = 𝑁 𝜇|𝜇0, 𝜆0 𝜏 −1
𝑝 𝜏 = 𝐺𝑎𝑚 𝜏|𝑎0, 𝑏0
𝐺𝑎𝑚 𝜏|𝑎, 𝑏 =
1
Γ 𝑎
𝑏 𝑎
𝜏 𝑎−1
exp −𝑏𝜏
Γ 𝑥 = 𝑢 𝑥−1
∞
0
𝑒−𝑢
𝑑𝑢
(2.146)
(1.141)
ただし，
(10.21)
(10.22)
(10.23)

 分解した変分近似による事後分布の推定
推定事後分布を以下の積の形に分解して考える
𝑞 𝜇, 𝜏 = 𝑞 𝜇 𝜇 𝑞 𝜏 𝜏
(10.9)式から𝑞 𝜇 𝜇 の最適解𝑞 𝜇
∗
𝜇 は
ln 𝑞 𝜇
∗
𝜇 &= 𝐸𝜏 ln 𝑝 𝐷, 𝜇, 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 𝑝 𝜇|𝜏 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + ln 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 −
𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
−
𝜆0 𝜏
2
𝜇 − 𝜇0
2
+ 𝑐𝑜𝑛𝑠𝑡
&= −
𝐸𝜏 𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
+ 𝜆0 𝜇 − 𝜇0
2
+ 𝑐𝑜𝑛𝑠𝑡 (10.25)
(10.24)

 分解した変分近似による事後分布の推定（続き）
𝜇に関して平方完成すると，𝑞 𝜇
∗
𝜇 は以下の様なガウス分布になる
𝑞 𝜇
∗
𝜇 = 𝑁 𝜇|𝜇 𝑁, 𝜆 𝑁
−1
𝜇 𝑁 =
𝜆0 𝜇0 + 𝑁𝑥
𝜆0 + 𝑁
𝜆 𝑁 = 𝜆0 + 𝑁 𝐸𝜏 𝜏
同様にして， 𝑞 𝜏 𝜏 の最適解𝑞 𝜏
∗
𝜏 は
ln 𝑞 𝜏
∗
𝜏 &= 𝐸𝜇 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + ln 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜇 −
𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
−
𝜆0 𝜏
2
𝜇 − 𝜇0
2
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+
𝑁
2
ln 𝜏 +
1
2
ln 𝜏 + 𝑎0 − 1 ln 𝜏 − 𝑏0 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝑎0 +
𝑁 + 1
2
− 1 ln 𝜏 − 𝑏0 +
1
2
𝐸𝜇 ⋯ 𝜏 + 𝑐𝑜𝑛𝑠𝑡
(10.26)
(10.27)
(10.28)

したがって，
𝑞 𝜏
∗
𝜏 ∝ 𝜏
𝑎0+
𝑁+1
2
−1
exp − 𝑏0 +
1
2
𝐸𝜇 ⋯ 𝜏
Γ分布
𝐺𝑎𝑚 𝜏|𝑎, 𝑏 =
1
Γ 𝑎
𝑏 𝑎
𝜏 𝑎−1
exp −𝑏𝜏
と比較すると，これがΓ分布となることがわかる
𝑞 𝜏
∗
𝜏 = 𝐺𝑎𝑚 𝜏|𝑎 𝑁, 𝑏 𝑁
𝑎 𝑁 = 𝑎0 +
𝑁 + 1
2
𝑏 𝑁 = 𝑏0 +
1
2
𝐸𝜇 𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
+ 𝜆0 𝜇 − 𝜇0
2
(10.26)(10.27)および(10.29)(10.30)を交互に繰り返して計算することに
より，事後分布𝑝 𝜇, 𝜏|𝐷 の変分近似を求めることができる
(10.29)
(10.30)

例：変分混合ガウス分布 (1)
 目的
混合ガウス分布に変分推論法を適用する
 データの表現
各観測値𝑥 𝑛に対応する潜在変数を𝑧 𝑛とする（1-of-K表現の二値ベクトル：
K個の要素𝑧 𝑛𝑘 𝑘 − 1, ⋯ , 𝐾 の中に1が一つだけある二値ベクトル）
観測データ：𝑿 = 𝒙1, ⋯ , 𝒙 𝑁
潜在変数： 𝒁 = 𝒛1, ⋯ , 𝒛 𝑁
混合比𝝅が与えられた時の𝒁の条件付き分布
𝑝 𝒁|𝝅 = 𝜋 𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
潜在変数と混合要素のパラメータが与えられた時の観測データベクトルの
条件付き分布
𝑝 𝑿|𝒁, 𝝁, 𝚲 = 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1 𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
(10.37)
(10.38)

 共役事前分布
パラメータ𝝁, 𝚲, 𝝅の共役事前分布を導入（2.3.6節参照）
混合要素𝝅に対してディリクレ分布
𝑝 𝝅 = 𝐷𝑖𝑟 𝜋|𝛼0 = 𝐶 𝛼0 𝜋 𝑘
𝛼0−1
𝐾
𝑘=1
(要素の対称性から各混合要素について同じハイパーパラメータ𝛼0を用いる）
混合要素のもつガウス分布の平均𝝁と精度𝚲（共分散行列の逆行列）に対し
てガウス-ウィシャート事前分布
𝑝 𝝁, 𝚲 = 𝑝 𝝁|𝚲 𝑝 𝚲 = 𝑁 𝝁 𝑘|𝒎0, 𝛽0 𝚲 𝑘
−1
𝑊 𝚲 𝑘|𝑾0, 𝝂0
𝐾
𝑘=1
(対称性から𝒎0 = 𝟎とおく）
(10.39)
(10.40)

 同時分布
𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 = 𝑝 𝑿|𝒁, 𝝁, 𝚲 𝑝 𝒁|𝝅 𝑝 𝝅 𝑝 𝝁|𝚲 𝑝 𝚲
 分解した変分近似
推定事後分布を以下の積の形に分解して考える
𝑞 𝒁, 𝝅, 𝝁, 𝚲 = 𝑞 𝒁 𝑞 𝝅, 𝝁, 𝚲
 分解した変分近似による事後分布の推定
(10.9)式から𝑞 𝒁 の最適解𝑞∗
𝒁 は
ln 𝑞∗
𝒁 &= 𝐸 𝝅,𝝁,𝚲 ln 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝝅 ln 𝑝 𝒁|𝝅 + 𝐸 𝝁,𝚲 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝝅 ln 𝜋 𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝐸 𝝁,𝚲 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1 𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
&= 𝑧 𝑛𝑘 𝐸 𝝅 ln 𝜋 𝑘
𝐾
𝑘=1
𝑁
𝑛=1
&&&&&&&&&&&&&&&&&+ 𝑧 𝑛𝑘 𝐸 𝝁,𝚲
1
2
ln 𝚲 𝑘 −
𝐷
2
ln 2𝜋 &−
1
2
𝒙 𝑛 − 𝝁 𝑘
𝑇
𝚲 𝑘 𝒙 𝑛 − 𝝁 𝑘
𝐾
𝑘=1
𝑁
𝑛=1
(10.41)
(10.42)
(10.43)
(10.44)

したがって，
ln 𝑞∗
𝒁 &= 𝑧 𝑛𝑘 ln 𝜌 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
ただし，
ln 𝜌 𝑛𝑘 = 𝐸 𝝅 𝒌
ln 𝜋 𝑘 +
1
2
𝐸 𝝁 𝒌,𝚲 𝐤
ln 𝚲 𝑘 −
𝐷
2
ln 2𝜋 &−
1
2
𝐸 𝝁 𝐤,𝚲 𝐤
𝒙 𝑛 − 𝝁 𝑘
𝑇
𝚲 𝑘 𝒙 𝑛 − 𝝁 𝑘
両辺の指数をとって
𝑞∗
𝒁 ∝ 𝜌 𝑛𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
全ての𝑍に対して和をとると1になるので，
𝑞∗
𝒁 = 𝑟𝑛𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
ただし，
𝑟𝑛𝑘 =
𝜌 𝑛𝑘
𝜌 𝑛𝑗𝑗=1
𝐸 𝑧 𝑛𝑘 = 𝑟𝑛𝑘より
𝑟𝑛𝑘は負担率を表す
(10.45)
(10.46)
(10.47)
(10.48), (10.49)
(10.50)

ln 𝑞∗
𝝅, 𝝁, 𝜦 を求める前に，負担率から計算できる3つの統計量を定義しておく
𝑁𝑘 = 𝑟𝑛𝑘
𝑁
𝑛=1
𝒙 𝑘 =
1
𝑁𝑘
𝑟𝑛𝑘 𝒙 𝑛
𝑁
𝑛=1
𝑺 𝑘 =
1
𝑁𝑘
𝑟𝑛𝑘 𝒙 𝑛 − 𝒙 𝑘 𝒙 𝑛 − 𝒙 𝑘
𝑇
𝑁
𝑛=1
次に， ln 𝑞∗
𝝅, 𝝁, 𝜦 を求める
ln 𝑞∗
𝝅, 𝝁, 𝜦 &= 𝐸 𝒁 ln 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 𝑝 𝒁|𝝅 𝑝 𝝅 𝑝 𝝁|𝚲 𝑝 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 + 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + ln 𝑝 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝐸 𝒁 ln 𝑝 𝒁|𝝅
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+ ln 𝑝 𝝅 + ln 𝑝 𝝁 𝒌, 𝚲 𝒌
𝐾
𝑘=1
(10.51)
(10.52)
(10.53)
(10.54)

したがって，
ln 𝑞∗
𝝅, 𝝁, 𝜦 = ln 𝑞∗
𝝅 + ln 𝑞∗
𝝁 𝒌, 𝚲 𝒌
𝐾
𝑘=1
𝑞∗
𝝅, 𝝁, 𝜦 = 𝑞∗
𝝅 𝑞∗
𝝁 𝒌, 𝚲 𝒌
𝐾
𝑘=1
ただし，
ln 𝑞∗
𝝅 = 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + 𝑐𝑜𝑛𝑠𝑡
ln 𝑞∗
𝝁 𝒌, 𝚲 𝒌 = ln 𝑝 𝝁 𝒌, 𝚲 𝒌 + 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝑁
𝑛=1
とおいた．(10.55)式は変分事後分布𝑞∗
𝝅, 𝝁, 𝜦 が，変分近似でおいた仮定以
上にさらに分解されることを意味する．→&導出された分解（10.2.5節）
(10.55)

ln 𝑞∗
𝝅 &= 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 ln 𝜋 𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ ln 𝐶 𝛼0 𝜋 𝑘
𝛼0−1
𝐾
𝑘=1
&= 𝐸 𝑍 𝑧 𝑛𝑘 ln 𝜋 𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝛼0 − 1 ln 𝜋 𝑘
𝐾
𝑘=1
&= 𝑁𝑘 + 𝛼0 − 1 ln 𝜋 𝑘
𝐾
𝑘=1
&= ln 𝜋 𝑘
𝑁 𝑘+𝛼0−1
𝐾
𝑘=1
したがって，𝑞∗
𝝅 はディリクレ分布となる
𝑞∗
𝝅 = 𝐷𝑖𝑟 𝝅|𝜶
𝛼 𝑘 = 𝑁𝑘 + 𝛼0
(10.56)
(10.57)
(10.58)

ln 𝑞∗
𝝁 𝒌, 𝚲 𝒌 &= ln 𝑝 𝝁 𝒌, 𝚲 𝒌 + 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝑁
𝑛=1
&= ln 𝑁 𝝁 𝑘|𝒎0, 𝛽0 𝚲 𝑘
−1
𝑊 𝚲 𝑘|𝑾0, 𝜈0
&+ 𝑟𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝑁
𝑛=1
&(導出は演習10.13の解答：サポートページからダウンロードできる）
&= ln 𝑁 𝝁 𝑘|𝒎 𝑘, 𝛽 𝑘 𝚲 𝑘
−1
𝑊 𝚲 𝑘|𝑾 𝑘, 𝜈 𝑘
したがって，𝑞∗
𝝁 𝒌, 𝚲 𝒌 はガウス-ウィシャート分布となる
𝛽 𝑘 = 𝛽0 + 𝑁𝑘
𝒎 𝑘 =
1
𝛽 𝑘
𝛽0 𝒎0 + 𝑁𝑘 𝒙 𝑘
𝑾 𝑘
−1
= 𝑾0
−1
+ 𝑁𝑘 𝑺 𝑘 +
𝛽0 𝑁𝑘
𝛽0 + 𝑁𝑘
𝒙 𝑘 − 𝒎0 𝒙 𝑘 − 𝒎0
𝑇
𝜈 𝑘 = 𝜈0 + 𝑁𝑘
(10.60)
|
(10.63)
(10.59)

 変分混合ガウス分布の求め方のまとめ
(1) 負担率 𝑟𝑛𝑘を初期化する
(2) (10.51)-(10.53)で𝑁𝑘, 𝒙 𝑘, 𝑺 𝑘を求める
(3) [Mステップ] (10.57)で𝑞∗
𝝅 を，(10.59)で𝑞∗
𝝁 𝑘, 𝚲 𝑘 &(𝑘 = 1 ⋯ 𝐾)を求
める
(4) [Eステップ] (10.64)-(10.66)および(10.46)-(10.49)で負担率を計算
する（(10.64)-(10.66)は載せてないので本を参照のこと）
(5) (2)に戻って収束するまで繰り返し更新する

変分推論法（変分ベイズ法）(PRML第10章)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (10)

Similar to 変分推論法（変分ベイズ法）(PRML第10章)

Similar to 変分推論法（変分ベイズ法）(PRML第10章) (20)

変分推論法（変分ベイズ法）(PRML第10章)