SlideShare a Scribd company logo
1 of 11
第4回
トピックモデルによる統計的潜在意味解析
読書会
3.4 逐次ベイズ学習―変分近似法の場合―
@MOTOGRILL
2015.07.30
LDAの確率的変分ベイズ法
KL情報量を最小にする近似事後分布q(z, θ, Φ)を求める
変分下限Fを最大にする近似事後分布q(z, θ, Φ)を求める
𝑞 𝜙 𝑘 = 𝐷𝑖𝑟 𝜙 𝑘 𝜉 𝑘
𝜙
𝑞 𝜃 𝑑 = 𝐷𝑖𝑟 𝜃 𝑑 𝜉 𝑑
𝜃
𝑞 𝑧 𝑑,𝑖 = 𝑘
勾配降下法により𝜉 𝑘
𝜙
を求める
確率的勾配降下法により𝜉 𝑘
𝜙
を求める
同義(メリット:目的関数の結合分布化)
変分法
オンライン化
ドキュメントd毎に推計全ドキュメントに対して推計
𝛼 𝜃 𝑑
𝛽 𝜙 𝑘
ドキュメント 𝑑 = 1,2, … , 𝑀
トピック 𝑘 = 1,2, … , 𝐾
データ i= 1,2, … , 𝑛 𝑑
𝑧 𝑑,𝑖 𝑤 𝑑,𝑖
𝜋?
𝐷𝑖𝑟
𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖
𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾
𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉
(3.99)(3.90)(3.96)
勾配降下法
最適化問題 𝑥∗
= argmin
𝑥
𝑓 𝑥 (3.132)
数値解
𝑥(𝑠)
= 𝑥(𝑠−1)
− 𝜈(𝑠−1)
𝛻𝑥 𝑓 𝑥(𝑠−1) (3.133)
ステップサイズ 勾配
𝛻𝑥 = 𝜕 𝜕𝑥 =
𝜕 𝜕𝑥1
𝜕 𝜕𝑥2
⋮
しかし、目的関数が 𝑓 𝑥 =
𝑖=1
𝑛
𝑓𝑖 𝑥 で n が大きいと
勾配の計算にかかるコストが大きい
𝑓 𝜉 =
𝑑=1
𝑀
𝑖=1
𝑛 𝑑
𝑓 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 𝜉観測データ 𝑤 𝑑,𝑖 , 𝑧 𝑑,𝑖 目的関数
確率的勾配降下法
𝑓 𝑥 =
𝑖=1
𝑛
𝑓𝑖 𝑥 = 𝑛
𝑖=1
𝑛
1
𝑛
𝑓𝑖 𝑥
𝑝 𝑖 = 1 𝑛
𝑛𝔼 𝑝 𝑖 𝑓𝑖 𝑥
𝑖~𝑝 𝑖 = 1 𝑛
サンプリング近似
𝑛𝑓𝑖 𝑥
(確率的)勾配
𝑛𝛻𝑥 𝑓𝑖 𝑥𝑥(𝑠) = 𝑥(𝑠−1) − 𝜈(𝑠−1) 𝑛𝛻𝑥 𝑓𝑖 𝑥(𝑠−1)
確率的勾配降下法
真の勾配と確率的勾配との差:𝜈 𝑠−1
𝛻𝑥 𝑓𝑖 𝑥 𝑠−1
− 𝛻𝑥 𝔼 𝑝 𝑖 𝑓𝑖 𝑥 𝑠−1
𝜈 𝑠
に対する制約:
(局所)最適解を得るために
𝑠=1
∞
𝜈 𝑠
= ∞,
𝑠=1
∞
𝜈 𝑠 2
< ∞
よく用いられる :𝜈 𝑠
𝜈 𝑠 =
𝑎
𝑏 + 𝑠 𝜅
𝑎 > 0, 𝑏 > 0, 𝜅 ∈ (0.5,1
(3.137)
(3.138)
(3.136)
http://qiita.com/kenmatsu4/items/d282054ddedbd68fecb0
統計的学習と確率的勾配降下法
統計的学習
𝜙∗ = argmax
𝜙
1
𝑛
𝑖=1
𝑛
log 𝑝 𝑥𝑖 𝜙 (3.8)
KL情報量の最小化
最適化問題:
確率的最適化: 𝜙(𝑠)
= 𝜙(𝑠−1)
− 𝜈(𝑠−1)
𝑛𝛻 𝜙 log 𝑝 𝑥𝑖 𝜙 𝑠−1
自然勾配法
勾配を最適化問題の解として定義
argmax
𝛿𝜃: 𝛿𝜃 2≤𝜖
𝛻𝜃 𝑓 𝜃 ⊺
𝛿𝜃 =
𝜖
𝛻𝜃 𝑓 𝜃 2
𝛻𝜃 𝑓 𝜃 = 𝜈𝛻𝜃 𝑓 𝜃
𝜈
ベクトルの内積
制約条件
𝛻𝜃 𝑓 𝜃𝛿𝜃∗ は の定数倍
𝛻𝜃 𝑓 𝜃
𝛿𝜃
𝛿𝜃 2
= 𝜖
𝛿𝜃に対する制約をKL情報量を用いて確率分布間の距離で与える
統計モデルの最適化に応用
argmax
𝛿𝜃:𝐾𝐿 𝑝 𝑥 𝜃 ∥𝑝 𝑥 𝜃 + 𝛿𝜃 ≤𝜖
𝛻𝜃 𝑓 𝜃 ⊺
𝛿𝜃勾配: (3.142)
(3.140) (3.141)
フィッシャーの情報行列
𝐺 𝜃 = − 𝑝 𝑥 𝜃 𝛻𝜃
2
log 𝑝 𝑥 𝜃 𝑑𝑥
𝐺𝑗,𝑖 𝜃 = − 𝑝 𝑥 𝜃
𝜕2
𝜕𝜃𝑗 𝜕𝜃𝑖
log 𝑝 𝑥 𝜃 𝑑𝑥 = 𝑝 𝑥 𝜃
𝜕
𝜕𝜃𝑗
log 𝑝 𝑥 𝜃
𝜕
𝜕𝜃𝑖
log 𝑝 𝑥 𝜃 ⊺ 𝑑𝑥
(3.143)
(3.144) (3.146)
KL情報量をフィッシャーの情報行列𝐺 𝜃 を用いて近似
𝐾𝐿 𝑝 𝑥 𝜃 ∥ 𝑝 𝑥 𝜃 + 𝛿𝜃 ≈
1
2
𝛿𝜃⊺
𝐺 𝜃 𝛿𝜃
近似した最適化問題の解としての自然勾配
(3.147)
argmax
𝛿𝜃:
1
2
𝛿𝜃⊺ 𝐺 𝜃 𝛿𝜃≤𝜖
𝛻𝜃 𝑓 𝜃 ⊺
𝛿𝜃 = 𝜈𝐺 𝜃 −1
𝛻𝜃 𝑓 𝜃
(3.150)
θの更新式: 𝜃 𝑠 = 𝜃 𝑠−1 + 𝜈 𝑠−1 𝐺 𝜃 𝑠−1 −1
𝛻𝜃 𝑓 𝑝 𝑥 𝜃 𝑠−1
(3.151)
LDAに対する自然勾配法
𝑞 𝜙 𝑘 𝜉 𝑘
𝜙
= 𝐷𝑖𝑟 𝜙 𝑘 𝜉 𝑘
𝜙
=
Γ 𝑣=1
𝑉
𝜉 𝑘,𝑣
𝜙
𝑣=1
𝑉
Γ 𝜉 𝑘,𝑣
𝜙
𝑣=1
𝑉
𝜙 𝑘,𝑣
𝜉 𝑘,𝑣
𝜙
−1
𝛼 𝜃 𝑑
𝛽 𝜙 𝑘
ドキュメント 𝑑 = 1,2, … , 𝑀
トピック 𝑘 = 1,2, … , 𝐾
データ i= 1,2, … , 𝑛 𝑑
𝑧 𝑑,𝑖 𝑤 𝑑,𝑖
𝜋?
𝐷𝑖𝑟
𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖
𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾
𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉
(3.96)
𝐺 𝜉 = − 𝑞 𝜙 𝑘 𝜉 𝑘
𝜙
𝛻2
𝜉 𝑘
𝜙 log 𝑞 𝜙 𝑘 𝜉 𝑘
𝜙
𝑑𝜙 𝑘
argmax
𝛿𝜉:
1
2 𝛿𝜉⊺ 𝐺 𝜉 𝛿𝜉≤𝜖
𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉
⊺
𝛿𝜉 = 𝜈𝐺 𝜉 −1
𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉
𝜉 𝑘
(𝑠+1)
= 𝜉 𝑘
(𝑠)
+ 𝜈 𝑠
𝐺 𝜉 𝑘
−1
𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘
𝑠
(3.156)
𝜈 𝑠 𝔼 𝑞 𝑧 𝑛 𝑘 + 𝛽 − 𝜉 𝑘
(𝑠)
(3.155)
(3.152)~(3.154), (3.104)
LDAの確率的最適化
𝔼 𝑞 𝑧 𝑛 𝑘 + 𝛽 − 𝜉 𝑘
(𝑠)
LDAの勾配:
全ドキュメントに対する平均
𝛼 𝜃 𝑑
𝛽 𝜙 𝑘
ドキュメント 𝑑 = 1,2, … , 𝑀
トピック 𝑘 = 1,2, … , 𝐾
データ i= 1,2, … , 𝑛 𝑑
𝑧 𝑑,𝑖 𝑤 𝑑,𝑖
𝜋?
𝐷𝑖𝑟
𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖
𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾
𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉
サンプリングされたドキュメントの値から近似
𝑀𝔼 𝑞 𝑧 𝑛 𝑑,𝑘 + 𝛽 − 𝜉 𝑘
(𝑠)
𝑣成分ごとに𝜉の更新式を書き下すと
𝜉 𝑘,𝑣
(𝑠+1)
= 𝜉 𝑘,𝑣
(𝑠)
+ 𝜈 𝑠
𝑀𝔼 𝑞 𝑧 𝑛 𝑑,𝑘,𝑣 + 𝛽𝑣 − 𝜉 𝑘,𝑣
(𝑠)
(3.159)
おまけ
LDAの自然勾配の𝑣成分が式(3.155)になることの確認
𝐺 𝜉 𝑘 ∙ 𝐺 𝜉 𝑘
−1 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘 =
𝜕
𝜕𝜉 𝑘
𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘
勾配
𝜕
𝜕𝜉 𝑘,𝑣
𝔼 𝑞 𝜙 𝑘 𝜉 𝑘
log 𝜙 𝑘,𝑣′
𝑋 𝑣′𝐺𝑣,𝑣′
両辺の𝑣成分
(左辺)
𝑣′=1
𝑉
𝑋 𝑣′ ∙
𝜕
𝜕𝜉 𝑘,𝑣
𝔼 𝑞 𝜙 𝑘 𝜉 𝑘
log 𝜙 𝑘,𝑣′
(3.154)
(右辺)
𝑣′=1
𝑉
𝔼 𝑞 𝑧 𝑛 𝑘,𝑣′ + 𝛽𝑣′ − 𝜉 𝑘,𝑣′ ∙
𝜕
𝜕𝜉 𝑘,𝑣
𝔼 𝑞 𝜙 𝑘 𝜉 𝑘
log 𝜙 𝑘,𝑣′ (3.104)

More Related Content

What's hot

変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
koba cky
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Wataru Kishimoto
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)
Yoichi Shirasawa
 

What's hot (20)

読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
 
北大クラスタリング・セミナー6
北大クラスタリング・セミナー6北大クラスタリング・セミナー6
北大クラスタリング・セミナー6
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章
 
PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
 
20170408cvsaisentan6 2 4.3-4.5
20170408cvsaisentan6 2 4.3-4.520170408cvsaisentan6 2 4.3-4.5
20170408cvsaisentan6 2 4.3-4.5
 
Warshall froyd
Warshall froydWarshall froyd
Warshall froyd
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)
 
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
 
Introduction to Persistence Theory
Introduction to Persistence TheoryIntroduction to Persistence Theory
Introduction to Persistence Theory
 
Packing
PackingPacking
Packing
 
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
 
劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節
 

Similar to 20150730 トピ本第4回 3.4節

static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて
正志 坪坂
 

Similar to 20150730 トピ本第4回 3.4節 (20)

GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
PRML6.4
PRML6.4PRML6.4
PRML6.4
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
 
Dive into XGBoost.pdf
Dive into XGBoost.pdfDive into XGBoost.pdf
Dive into XGBoost.pdf
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
Long short-term memory (LSTM)
Long short-term memory (LSTM)Long short-term memory (LSTM)
Long short-term memory (LSTM)
 
第4回
第4回第4回
第4回
 
差分プライバシーによる時系列データの扱い方
差分プライバシーによる時系列データの扱い方差分プライバシーによる時系列データの扱い方
差分プライバシーによる時系列データの扱い方
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matrices
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
 
Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~ Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~
 

20150730 トピ本第4回 3.4節

  • 2. LDAの確率的変分ベイズ法 KL情報量を最小にする近似事後分布q(z, θ, Φ)を求める 変分下限Fを最大にする近似事後分布q(z, θ, Φ)を求める 𝑞 𝜙 𝑘 = 𝐷𝑖𝑟 𝜙 𝑘 𝜉 𝑘 𝜙 𝑞 𝜃 𝑑 = 𝐷𝑖𝑟 𝜃 𝑑 𝜉 𝑑 𝜃 𝑞 𝑧 𝑑,𝑖 = 𝑘 勾配降下法により𝜉 𝑘 𝜙 を求める 確率的勾配降下法により𝜉 𝑘 𝜙 を求める 同義(メリット:目的関数の結合分布化) 変分法 オンライン化 ドキュメントd毎に推計全ドキュメントに対して推計 𝛼 𝜃 𝑑 𝛽 𝜙 𝑘 ドキュメント 𝑑 = 1,2, … , 𝑀 トピック 𝑘 = 1,2, … , 𝐾 データ i= 1,2, … , 𝑛 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖 𝜋? 𝐷𝑖𝑟 𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖 𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾 𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉 (3.99)(3.90)(3.96)
  • 3. 勾配降下法 最適化問題 𝑥∗ = argmin 𝑥 𝑓 𝑥 (3.132) 数値解 𝑥(𝑠) = 𝑥(𝑠−1) − 𝜈(𝑠−1) 𝛻𝑥 𝑓 𝑥(𝑠−1) (3.133) ステップサイズ 勾配 𝛻𝑥 = 𝜕 𝜕𝑥 = 𝜕 𝜕𝑥1 𝜕 𝜕𝑥2 ⋮ しかし、目的関数が 𝑓 𝑥 = 𝑖=1 𝑛 𝑓𝑖 𝑥 で n が大きいと 勾配の計算にかかるコストが大きい 𝑓 𝜉 = 𝑑=1 𝑀 𝑖=1 𝑛 𝑑 𝑓 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 𝜉観測データ 𝑤 𝑑,𝑖 , 𝑧 𝑑,𝑖 目的関数
  • 4. 確率的勾配降下法 𝑓 𝑥 = 𝑖=1 𝑛 𝑓𝑖 𝑥 = 𝑛 𝑖=1 𝑛 1 𝑛 𝑓𝑖 𝑥 𝑝 𝑖 = 1 𝑛 𝑛𝔼 𝑝 𝑖 𝑓𝑖 𝑥 𝑖~𝑝 𝑖 = 1 𝑛 サンプリング近似 𝑛𝑓𝑖 𝑥 (確率的)勾配 𝑛𝛻𝑥 𝑓𝑖 𝑥𝑥(𝑠) = 𝑥(𝑠−1) − 𝜈(𝑠−1) 𝑛𝛻𝑥 𝑓𝑖 𝑥(𝑠−1) 確率的勾配降下法 真の勾配と確率的勾配との差:𝜈 𝑠−1 𝛻𝑥 𝑓𝑖 𝑥 𝑠−1 − 𝛻𝑥 𝔼 𝑝 𝑖 𝑓𝑖 𝑥 𝑠−1 𝜈 𝑠 に対する制約: (局所)最適解を得るために 𝑠=1 ∞ 𝜈 𝑠 = ∞, 𝑠=1 ∞ 𝜈 𝑠 2 < ∞ よく用いられる :𝜈 𝑠 𝜈 𝑠 = 𝑎 𝑏 + 𝑠 𝜅 𝑎 > 0, 𝑏 > 0, 𝜅 ∈ (0.5,1 (3.137) (3.138) (3.136)
  • 6. 統計的学習と確率的勾配降下法 統計的学習 𝜙∗ = argmax 𝜙 1 𝑛 𝑖=1 𝑛 log 𝑝 𝑥𝑖 𝜙 (3.8) KL情報量の最小化 最適化問題: 確率的最適化: 𝜙(𝑠) = 𝜙(𝑠−1) − 𝜈(𝑠−1) 𝑛𝛻 𝜙 log 𝑝 𝑥𝑖 𝜙 𝑠−1
  • 7. 自然勾配法 勾配を最適化問題の解として定義 argmax 𝛿𝜃: 𝛿𝜃 2≤𝜖 𝛻𝜃 𝑓 𝜃 ⊺ 𝛿𝜃 = 𝜖 𝛻𝜃 𝑓 𝜃 2 𝛻𝜃 𝑓 𝜃 = 𝜈𝛻𝜃 𝑓 𝜃 𝜈 ベクトルの内積 制約条件 𝛻𝜃 𝑓 𝜃𝛿𝜃∗ は の定数倍 𝛻𝜃 𝑓 𝜃 𝛿𝜃 𝛿𝜃 2 = 𝜖 𝛿𝜃に対する制約をKL情報量を用いて確率分布間の距離で与える 統計モデルの最適化に応用 argmax 𝛿𝜃:𝐾𝐿 𝑝 𝑥 𝜃 ∥𝑝 𝑥 𝜃 + 𝛿𝜃 ≤𝜖 𝛻𝜃 𝑓 𝜃 ⊺ 𝛿𝜃勾配: (3.142) (3.140) (3.141)
  • 8. フィッシャーの情報行列 𝐺 𝜃 = − 𝑝 𝑥 𝜃 𝛻𝜃 2 log 𝑝 𝑥 𝜃 𝑑𝑥 𝐺𝑗,𝑖 𝜃 = − 𝑝 𝑥 𝜃 𝜕2 𝜕𝜃𝑗 𝜕𝜃𝑖 log 𝑝 𝑥 𝜃 𝑑𝑥 = 𝑝 𝑥 𝜃 𝜕 𝜕𝜃𝑗 log 𝑝 𝑥 𝜃 𝜕 𝜕𝜃𝑖 log 𝑝 𝑥 𝜃 ⊺ 𝑑𝑥 (3.143) (3.144) (3.146) KL情報量をフィッシャーの情報行列𝐺 𝜃 を用いて近似 𝐾𝐿 𝑝 𝑥 𝜃 ∥ 𝑝 𝑥 𝜃 + 𝛿𝜃 ≈ 1 2 𝛿𝜃⊺ 𝐺 𝜃 𝛿𝜃 近似した最適化問題の解としての自然勾配 (3.147) argmax 𝛿𝜃: 1 2 𝛿𝜃⊺ 𝐺 𝜃 𝛿𝜃≤𝜖 𝛻𝜃 𝑓 𝜃 ⊺ 𝛿𝜃 = 𝜈𝐺 𝜃 −1 𝛻𝜃 𝑓 𝜃 (3.150) θの更新式: 𝜃 𝑠 = 𝜃 𝑠−1 + 𝜈 𝑠−1 𝐺 𝜃 𝑠−1 −1 𝛻𝜃 𝑓 𝑝 𝑥 𝜃 𝑠−1 (3.151)
  • 9. LDAに対する自然勾配法 𝑞 𝜙 𝑘 𝜉 𝑘 𝜙 = 𝐷𝑖𝑟 𝜙 𝑘 𝜉 𝑘 𝜙 = Γ 𝑣=1 𝑉 𝜉 𝑘,𝑣 𝜙 𝑣=1 𝑉 Γ 𝜉 𝑘,𝑣 𝜙 𝑣=1 𝑉 𝜙 𝑘,𝑣 𝜉 𝑘,𝑣 𝜙 −1 𝛼 𝜃 𝑑 𝛽 𝜙 𝑘 ドキュメント 𝑑 = 1,2, … , 𝑀 トピック 𝑘 = 1,2, … , 𝐾 データ i= 1,2, … , 𝑛 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖 𝜋? 𝐷𝑖𝑟 𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖 𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾 𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉 (3.96) 𝐺 𝜉 = − 𝑞 𝜙 𝑘 𝜉 𝑘 𝜙 𝛻2 𝜉 𝑘 𝜙 log 𝑞 𝜙 𝑘 𝜉 𝑘 𝜙 𝑑𝜙 𝑘 argmax 𝛿𝜉: 1 2 𝛿𝜉⊺ 𝐺 𝜉 𝛿𝜉≤𝜖 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 ⊺ 𝛿𝜉 = 𝜈𝐺 𝜉 −1 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝜉 𝑘 (𝑠+1) = 𝜉 𝑘 (𝑠) + 𝜈 𝑠 𝐺 𝜉 𝑘 −1 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘 𝑠 (3.156) 𝜈 𝑠 𝔼 𝑞 𝑧 𝑛 𝑘 + 𝛽 − 𝜉 𝑘 (𝑠) (3.155) (3.152)~(3.154), (3.104)
  • 10. LDAの確率的最適化 𝔼 𝑞 𝑧 𝑛 𝑘 + 𝛽 − 𝜉 𝑘 (𝑠) LDAの勾配: 全ドキュメントに対する平均 𝛼 𝜃 𝑑 𝛽 𝜙 𝑘 ドキュメント 𝑑 = 1,2, … , 𝑀 トピック 𝑘 = 1,2, … , 𝐾 データ i= 1,2, … , 𝑛 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖 𝜋? 𝐷𝑖𝑟 𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖 𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾 𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉 サンプリングされたドキュメントの値から近似 𝑀𝔼 𝑞 𝑧 𝑛 𝑑,𝑘 + 𝛽 − 𝜉 𝑘 (𝑠) 𝑣成分ごとに𝜉の更新式を書き下すと 𝜉 𝑘,𝑣 (𝑠+1) = 𝜉 𝑘,𝑣 (𝑠) + 𝜈 𝑠 𝑀𝔼 𝑞 𝑧 𝑛 𝑑,𝑘,𝑣 + 𝛽𝑣 − 𝜉 𝑘,𝑣 (𝑠) (3.159)
  • 11. おまけ LDAの自然勾配の𝑣成分が式(3.155)になることの確認 𝐺 𝜉 𝑘 ∙ 𝐺 𝜉 𝑘 −1 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘 = 𝜕 𝜕𝜉 𝑘 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘 勾配 𝜕 𝜕𝜉 𝑘,𝑣 𝔼 𝑞 𝜙 𝑘 𝜉 𝑘 log 𝜙 𝑘,𝑣′ 𝑋 𝑣′𝐺𝑣,𝑣′ 両辺の𝑣成分 (左辺) 𝑣′=1 𝑉 𝑋 𝑣′ ∙ 𝜕 𝜕𝜉 𝑘,𝑣 𝔼 𝑞 𝜙 𝑘 𝜉 𝑘 log 𝜙 𝑘,𝑣′ (3.154) (右辺) 𝑣′=1 𝑉 𝔼 𝑞 𝑧 𝑛 𝑘,𝑣′ + 𝛽𝑣′ − 𝜉 𝑘,𝑣′ ∙ 𝜕 𝜕𝜉 𝑘,𝑣 𝔼 𝑞 𝜙 𝑘 𝜉 𝑘 log 𝜙 𝑘,𝑣′ (3.104)