201709ibisml

特異Bayes情報量規準による混
合正規分布のモデル選択におけ
る変分Bayes法の実験的考察
林直輝* (東京工業大学数理･計算科学系)
中村文士 (ボッシュ株式会社)
12017/9/15 IBISML30th

目次
• １．背景
• ２．理論 –sBICについて
• ３．実験
• ４．結論
2017/9/15 IBISML30th 2

１．背景
2017/9/15 IBISML30th 3

背景/GMM
• 混合正規分布(Gaussian Mixture Model, GMM)
はデータから構造を知るための統計モデルとし
て広く応用されている
• クラスタリング，パターン認識（識別），……
2017/9/15 IBISML30th 4

背景/GMM
• GMMは構造発見のためのモデルとして重要
• GMMは特異統計モデル
– パラメータ→確率分布が1対1ではない
– 尤度・事後分布は正規分布で近似できない
– AICやBICは使用できない
– 推定性能：最尤法＜Bayes法
• GMMの最尤推定量は存在しない[J. Hartigan,1985]
– EMアルゴリズムでは局所最尤推定量しか計算できない
– EMアルゴリズムではしばしば解が発散する
2017/9/15 IBISML30th 5

背景/Bayes学習と特異モデル
• 一般のBayes学習における定理[渡辺,2001]
– n個の独立確率変数（学習データ）
– ある学習モデルでBayes学習を行った際
自由エネルギー𝐹𝒏は次の挙動を持つ:
𝑭 𝒏 = 𝒏𝑺 𝒏 + 𝝀 𝐥𝐨𝐠 𝒏 − 𝒎 − 𝟏 𝐥𝐨𝐠 𝐥𝐨𝐠 𝒏 + 𝑶 𝒑 𝟏
– Snは経験エントロピー
– λは学習係数あるいは実対数閾値と呼ばれる定数
– mは多重度と呼ばれる定数
– 非特異モデルの場合(d:パラメータ次元)
𝝀 =
𝒅
𝟐
, 𝒎 = 𝟏
2017/9/15 IBISML30th 6

背景/sBIC
• 実対数閾値と多重度を用いたモデル選択指標
sBICがDrtonら(2017)により提案されている
– BICの拡張の一つ、特異モデルに適用可能
– BIC=最大尤度-(d/2)log(n)≒対数周辺尤度
→一般に、最大尤度-罰則項(n)≒対数周辺尤度
→罰則項を先の理論式に基づき計算したものがsBIC
– 最大尤度=尤度（最尤推定量）
– ↑sBICは最尤推定量を用いる
– GMMではEM法による局所最尤推定量を用いるしかない
2017/9/15 IBISML30th 7

背景/変分Bayes法
一方で、
• 変分Bayes法がGMMのパラメータ推定に有効で
あることが知られている
• 変分Bayes法では平均場近似により事後分布と
自由エネルギーを近似し，パラメータの事後平
均を推定量とする
• EMと異なりGMMでも推定量は発散しない
2017/9/15 IBISML30th 8

背景/目的
• GMMのモデル選択に用いるsBICに変分Bayes
法による推定量(VBE)を代入する
• EM法による局所最尤推定量(LMLE)を代入した
場合と比較する
• GMMの分散共分散を固定する場合とこれも推定
する場合それぞれで比較する
2017/9/15 IBISML30th 9

２．理論
2017/9/15 IBISML30th 10

理論/GMM
中心をμkとし分散共分散行列をΣkとするN次元正
規分布をfとし，これらK個の混合分布を考える。
混合比は和が1となる非負値akで，学習モデルは
𝒑 𝒙 𝒘 =
𝒌=𝟏
𝑲
𝒂 𝒌 𝒇 𝒙 𝝁 𝒌, 𝚺 𝒌
パラメータ次元は
𝒅 =
𝑲 − 𝟏 + 𝑲𝑵 分散固定
𝑲 − 𝟏 + 𝑲𝑵 +
𝟏
𝟐
𝑲𝑵 𝑵 + 𝟏 分散推定
2017/9/15 IBISML30th 11

理論/ゼータ函数
一般に，平均誤差函数をK，事前分布をφとすると
き，学習理論のゼータ函数は次で定義される：
ζ(z)=∫K(w)zφ(w)dw
この一変数複素関数はRe(z)>0の範囲で正則であ
るが，複素数平面全体に有理型函数として一意に
解析接続することができる
その極はすべて負の有理数．そのなかで最も原点
に近いものの絶対値を実対数閾値と，その極の位
数を多重度と呼ぶ
2017/9/15 IBISML30th 12

理論/GMMのゼータ函数
真の分布q(x)は真の中心と分散共分散行列を持つ
K0個の成分からなる混合正規分布であるとする：
𝒒 𝒙 =
𝒌=𝟏
𝑲 𝟎
𝒂 𝒌
∗
𝒇 𝒙|𝝁 𝒌
∗
, 𝚺 𝒌
∗
平均誤差関数は
𝑲 𝒘 = 𝒒(𝒙) 𝐥𝐨𝐠
𝒒 𝒙
𝒑 𝒙 𝒘
𝒅𝒙
2017/9/15 IBISML30th 13

GMMの実対数閾値は先の平均誤差函数から定まる
ゼータ函数の最大極から定義される：
ζ(z)=∫K(w)zφ(w)dw
定義（GMMのゼータ函数と実対数閾値）
上のζをGMMのゼータ函数と呼び，その最大極(-λ)
の絶対値λをGMMの実対数閾値と呼ぶ
2017/9/15 IBISML30th 14

定理(GMMの実対数閾値の上界)[山崎&渡辺,2003]
0<φ<∞のとき，GMMの実対数閾値λは次を満たす:
𝝀 ≤
𝟏
𝟐
𝑲 + 𝑲 𝟎 − 𝟏 𝒊𝒇 𝑴 = 𝟏
𝟏
𝟐
𝑴 𝑲 𝟎 + 𝟏 + 𝟐𝑲 − 𝑲 𝟎 − 𝟑 𝒐𝒕𝒉𝒆𝒓𝒘𝒊𝒔𝒆
• Mはコンポーネントのパラメータ数:
𝑴 =
𝑵 分散固定
𝑵 +
𝟏
𝟐
𝑵 𝑵 + 𝟏 分散推定
2017/9/15 IBISML30th 15

理論/sBIC
sBIC[Drton&Plummer,2017]はBICの拡張の一つ
特異統計モデルに適用可能な情報量規準であり，
対数周辺尤度を近似する
𝒔𝑩𝑰𝑪 =
𝒊=𝟏
𝒏
log 𝒑 𝑿𝒊 𝒘 𝑴𝑳𝑬 − 𝒑𝒆𝒏𝒂𝒍𝒕𝒚
罰則項は実対数閾値と多重度の理論値を用いて繰
り返し法から計算される
𝒑𝒆𝒏𝒂𝒍𝒕𝒚 ≈ 𝝀 𝐥𝐨𝐠 𝒏 − 𝒎 − 𝟏 𝐥𝐨𝐠 𝐥𝐨𝐠 𝒏
2017/9/15 IBISML30th 16

理論/sBIC
• 実対数閾値らはモデルと真の分布から定まる
• 実現可能性を仮定すると真の分布⊂モデル
• 真の分布のサイズ（GMMの真の混合数など）が
K0であるとき，モデルのサイズごとにすなわち
K- K0+1個の実対数閾値が定まる
• K0が不明なのでこれを1～Kの中で探す
• K0=1,…としたときそれぞれの実対数閾値は計算
できる
2017/9/15 IBISML30th 17

理論/sBIC
例: GMMの実対数閾値の上界(M=2,K=4)
K0=1,…,4ととりうるので実対数閾値の上界は次の
行列の成分となる：
𝚲 =
𝟏
𝟐 𝟐. 𝟓
𝟑 𝟑. 𝟓 𝟒
𝟒 𝟒. 𝟓 𝟓 𝟓. 𝟓
𝚲𝐢𝐣:=(K=i,K0=jのときの実対数閾値の上界)
多重度も同様に計算する(この例ではすべて1)
2017/9/15 IBISML30th 18
K=1
K=2
K=3
K=4
K0=1 K0=2 K0=3 K0=4

理論/sBIC
• sBICはモデルのサイズごとに計算される
• 先のように実対数閾値と多重度の行列を用意し
ておく
• 次のアルゴリズムに従いsBICをモデルのサイズ
（制御変数）ごとに計算する
2017/9/15 IBISML30th 19

理論/sBICのアルゴリズム
2017/9/15 IBISML30th 20
I：制御変数の(半)順序集合
・周辺尤度の近似値の近似
値としてL’ijを先の行列から
計算する
・周辺尤度の近似値列Lが満
たす連立方程式
𝒋≤𝒊
𝑳 𝒊 − 𝑳𝒊𝒋
′
𝑳 𝒋 𝝋 𝒘𝒋 = 𝟎
を左の繰り返しで解く
・その対数値がsBIC

３．実験
2017/9/15 IBISML30th 21

実験/方法
• GMMのモデル選択を人工データについて実行
• 情報量規準sBICを用いてモデル選択
• 分散固定と推定で場合分け
• サンプルサイズを5種用意
• EMアルゴリズム/変分Bayes法による推定量を
sBICの尤度項に代入
• 変分Bayesではﾊｲﾊﾟｰﾊﾟﾗﾒｰﾀ2種用意
• データセットを複数用意し各々でモデル選択
2017/9/15 IBISML30th 22

実験/方法・条件
次元と計算回数について
• データはN=2次元
• 真の混合数を3として人工データを用意
• モデルの混合数は1～7とした
• サンプルサイズはn=20,100,200,500,1000用意
• それぞれのnごとに100のデータセットを用意
• EM，変分Bayesともに500回計算した中での尤
度の最大化元・変分自由エネルギの最小化元を
推定量として採択
2017/9/15 IBISML30th 23

実験/方法・条件
パラメータについて
• 変分Bayesについて，混合比の事前分布として
Dirichlet分布を使用
– ﾊｲﾊﾟｰﾊﾟﾗﾒｰﾀはすべて0.1かすべて10
• 分散共分散行列について，固定する場合は2次単
位行列，推定する場合はGauss-Wishart分布を
事前分布として用いた
– ﾊｲﾊﾟｰﾊﾟﾗﾒｰﾀの詳細は本研究の論文参照
2017/9/15 IBISML30th 24

実験/方法
• 100個のデータセットを各n，分散推定の有無，
手法･ﾊｲﾊﾟｰﾊﾟﾗﾒｰﾀごとに5*2*3=30通り用意
• データセットごとにモデル選択を行い，選択さ
れたモデルについてヒストグラムを作成
• 真の分布を選択した回数/100を正解率として各
条件ごとに表に記載
2017/9/15 IBISML30th 25

実験/方法/条件まとめ
• 条件(1): 分散共分散を固定する場合
– EMアルゴリズムによる推定量を利用
– 変分Bayes法による推定量(φ=0.1)を利用
– 変分Bayes法による推定量(φ=10)を利用
• 条件(2): 分散共分散を推定する場合
– EMアルゴリズムによる推定量を利用
– 変分Bayes法による推定量(φ=0.1)を利用
– 変分Bayes法による推定量(φ=10)を利用
• φ：Dirichlet分布のハイパーパラメータ
• それぞれでn=20,100,200,500,1000
2017/9/15 IBISML30th 26

実験/結果
• 条件(1), n=20
• ヒストグラム
2017/9/15 IBISML30th 27
EM VB(0.1) VB(10)

実験/結果
• 条件(1), n=100
2017/9/15 IBISML30th 28
EM VB(0.1) VB(10)

実験/結果
• 条件(1), n=200
2017/9/15 IBISML30th 29
EM VB(0.1) VB(10)

実験/結果
• 条件(1), n=500
2017/9/15 IBISML30th 30
EM VB(0.1) VB(10)

実験/結果
• 条件(1), n=1000
2017/9/15 IBISML30th 31
EM VB(0.1) VB(10)

実験/結果
• 条件(1)
• 正解率の表
2017/9/15 IBISML30th 32

実験/結果
• 条件(2), n=20
2017/9/15 IBISML30th 33
EM VB(0.1) VB(10)

実験/結果
• 条件(2), n=100
2017/9/15 IBISML30th 34
EM VB(0.1) VB(10)

実験/結果
• 条件(2), n=200
2017/9/15 IBISML30th 35
EM VB(0.1) VB(10)

実験/結果
• 条件(2), n=500
2017/9/15 IBISML30th 36
EM VB(0.1) VB(10)

実験/結果
• 条件(2), n=1000
2017/9/15 IBISML30th 37
EM VB(0.1) VB(10)

実験/結果
• 条件(2)
• 正解率の表
2017/9/15 IBISML30th 38

実験/結果/まとめ
• 分散共分散は固定するとき：
– EMアルゴリズム：
高確率で真の分布が選択できた．
– 変分Bayes：
低n数においてEMより高確率，特にφ=0.1で有意．
• 分散共分散も推定するとき：
– EMアルゴリズム：
高n数でも真の分布より大きなモデルを選択，不安定．
– 変分Bayes：
低n数であっても高確率で真の分布を選択．
特にφ=0.1で有意．
2017/9/15 IBISML30th 39

実験/考察
• 分散共分散を固定しても推定しても，VBEを用
いるとLMLEよりも正確にモデル選択が可能で
あった
VBEはコンポーネントの変化に鋭敏であること
が考えられる
↑それゆえEM法によるLMLEを代入するよりも
尤度が経験エントロピーに近いすなわちsBICが
対数周辺尤度の良い近似になっていた
2017/9/15 IBISML30th 40

実験/考察
• 分散共分散を固定する場合
EMアルゴリズムによる局所最尤推定量を用いて
もsBICを使えば正確なモデル選択が可能
それでも特に低n数ではVBEが正確性で勝る
↑前述したようにVBEを代入した尤度は経験エン
トロピーをより正確に近似することが所以と考
えられる
2017/9/15 IBISML30th 41

実験/考察
• 分散共分散を推定する場合
分散共分散行列のぶんだけ各コンポーネントの
パラメータ数は加速度的に増加
• EM法では正解率がほとんど0であった
・500回計算したなかでの良い局所解を利用
→パラメータ次元の上昇により良い局所最尤推
定量が見つからなくなったと考えられる
・分散共分散行列のぶんだけ特異性が増加
→変分Bayesと最尤推定の性能差が増加したと
考えられる
2017/9/15 IBISML30th 42

実験/考察
・Dirichlet分布は非有界または零点を持つ事前分
布←今回用いた実対数閾値の仮定を満たさない
2017/9/15 IBISML30th 43
φ=10 φ=0.1

実験/考察
・Dirichlet分布は非有界または零点を持つ事前分
布←今回用いた実対数閾値の仮定を満たさない
・Dirichlet分布を用いる場合は，分散共分散行列
を推定しない場合について実対数閾値の上界が得
られている[S. Watanabe, 2009]
・変分Bayes法の場合の実対数閾値の上界も
Dirichlet分布を仮定するが分散共分散行列を推定
しない場合である[K. Watanabe, 2007]
→実対数閾値の改善によりEMでもモデル選択可能？
2017/9/15 IBISML30th 44

実験/考察
• 分散共分散行列を固定しても推定しても，変分
Bayes法についてはDirichlet分布のﾊｲﾊﾟｰﾊﾟﾗﾒｰﾀ
を10とするより0.1とするほうが正確であった
2017/9/15 IBISML30th 45
φ=10 φ=0.1

実験/考察
• 分散共分散行列を固定しても推定しても，変分
Bayes法についてはDirichlet分布のﾊｲﾊﾟｰﾊﾟﾗﾒｰﾀ
を10とするより0.1とするほうが正確であった
• GMMの相転移点はφ＝(M+1)/2=1.5, 3
• 相転移点より小さい方が局所解が少ないことが
実験的に知られており，その影響で0.1で特に有
意な結果が得られたと考えられる
2017/9/15 IBISML30th 46

４．結論
2017/9/15 IBISML30th 47

結論/総括
• sBICによるGMMのモデル選択に用いる推定量に
ついて実験的な考察を行い，次の結果を得た
• 分散共分散を固定しても推定しても，
変分Bayes法による推定量を用いるとEM法によ
る推定量より正確にモデル選択が可能であった
• 分散共分散を推定する場合，
EM法による推定量を用いると正確なモデル選択
ができなかった
2017/9/15 IBISML30th 48

結論/展望
• 変分Bayes法そのものによる自由エネルギーの
近似との比較
– 変分自由エネルギーv.s.負のsBIC(VBE)
• より高次元の問題に対する実験
– 学習理論の研究ではデータ抽出に対する平均操作が要
• 事前分布がDirichlet分布でありかつ分散共分散
を推定する場合の実対数閾値の解明
– 実験結果はsBICが悪いというより用いた実対数閾値が
原因かもしれない
2017/9/15 IBISML30th 49

201709ibisml

Recommended

Recommended

More Related Content

More from Naoki Hayashi

More from Naoki Hayashi (14)

201709ibisml