SlideShare a Scribd company logo
1 of 50
Download to read offline
特異Bayes情報量規準による混
合正規分布のモデル選択におけ
る変分Bayes法の実験的考察
林 直輝* (東京工業大学 数理・計算科学系)
中村 文士 (ボッシュ株式会社)
12017/9/15 IBISML30th
目次
• 1.背景
• 2.理論 –sBICについて
• 3.実験
• 4.結論
2017/9/15 IBISML30th 2
1.背景
2017/9/15 IBISML30th 3
背景/GMM
• 混合正規分布(Gaussian Mixture Model, GMM)
はデータから構造を知るための統計モデルとし
て広く応用されている
• クラスタリング,パターン認識(識別),……
2017/9/15 IBISML30th 4
背景/GMM
• GMMは構造発見のためのモデルとして重要
• GMMは特異統計モデル
– パラメータ→確率分布が1対1ではない
– 尤度・事後分布は正規分布で近似できない
– AICやBICは使用できない
– 推定性能:最尤法<Bayes法
• GMMの最尤推定量は存在しない[J. Hartigan,1985]
– EMアルゴリズムでは局所最尤推定量しか計算できない
– EMアルゴリズムではしばしば解が発散する
2017/9/15 IBISML30th 5
背景/Bayes学習と特異モデル
• 一般のBayes学習における定理[渡辺,2001]
– n個の独立確率変数(学習データ)
– ある学習モデルでBayes学習を行った際
自由エネルギー𝐹𝒏は次の挙動を持つ:
𝑭 𝒏 = 𝒏𝑺 𝒏 + 𝝀 𝐥𝐨𝐠 𝒏 − 𝒎 − 𝟏 𝐥𝐨𝐠 𝐥𝐨𝐠 𝒏 + 𝑶 𝒑 𝟏
– Snは経験エントロピー
– λは学習係数あるいは実対数閾値と呼ばれる定数
– mは多重度と呼ばれる定数
– 非特異モデルの場合(d:パラメータ次元)
𝝀 =
𝒅
𝟐
, 𝒎 = 𝟏
2017/9/15 IBISML30th 6
背景/sBIC
• 実対数閾値と多重度を用いたモデル選択指標
sBICがDrtonら(2017)により提案されている
– BICの拡張の一つ、特異モデルに適用可能
– BIC=最大尤度-(d/2)log(n)≒対数周辺尤度
→一般に、最大尤度-罰則項(n)≒対数周辺尤度
→罰則項を先の理論式に基づき計算したものがsBIC
– 最大尤度=尤度(最尤推定量)
– ↑sBICは最尤推定量を用いる
– GMMではEM法による局所最尤推定量を用いるしかない
2017/9/15 IBISML30th 7
背景/変分Bayes法
一方で、
• 変分Bayes法がGMMのパラメータ推定に有効で
あることが知られている
• 変分Bayes法では平均場近似により事後分布と
自由エネルギーを近似し,パラメータの事後平
均を推定量とする
• EMと異なりGMMでも推定量は発散しない
2017/9/15 IBISML30th 8
背景/目的
• GMMのモデル選択に用いるsBICに変分Bayes
法による推定量(VBE)を代入する
• EM法による局所最尤推定量(LMLE)を代入した
場合と比較する
• GMMの分散共分散を固定する場合とこれも推定
する場合それぞれで比較する
2017/9/15 IBISML30th 9
2.理論
2017/9/15 IBISML30th 10
理論/GMM
中心をμkとし分散共分散行列をΣkとするN次元正
規分布をfとし,これらK個の混合分布を考える。
混合比は和が1となる非負値akで,学習モデルは
𝒑 𝒙 𝒘 =
𝒌=𝟏
𝑲
𝒂 𝒌 𝒇 𝒙 𝝁 𝒌, 𝚺 𝒌
パラメータ次元は
𝒅 =
𝑲 − 𝟏 + 𝑲𝑵 分散固定
𝑲 − 𝟏 + 𝑲𝑵 +
𝟏
𝟐
𝑲𝑵 𝑵 + 𝟏 分散推定
2017/9/15 IBISML30th 11
理論/ゼータ函数
一般に,平均誤差函数をK,事前分布をφとすると
き,学習理論のゼータ函数は次で定義される:
ζ(z)=∫K(w)zφ(w)dw
この一変数複素関数はRe(z)>0の範囲で正則であ
るが,複素数平面全体に有理型函数として一意に
解析接続することができる
その極はすべて負の有理数.そのなかで最も原点
に近いものの絶対値を実対数閾値と,その極の位
数を多重度と呼ぶ
2017/9/15 IBISML30th 12
理論/GMMのゼータ函数
真の分布q(x)は真の中心と分散共分散行列を持つ
K0個の成分からなる混合正規分布であるとする:
𝒒 𝒙 =
𝒌=𝟏
𝑲 𝟎
𝒂 𝒌
∗
𝒇 𝒙|𝝁 𝒌
∗
, 𝚺 𝒌
∗
平均誤差関数は
𝑲 𝒘 = 𝒒(𝒙) 𝐥𝐨𝐠
𝒒 𝒙
𝒑 𝒙 𝒘
𝒅𝒙
2017/9/15 IBISML30th 13
理論/GMMのゼータ函数
GMMの実対数閾値は先の平均誤差函数から定まる
ゼータ函数の最大極から定義される:
ζ(z)=∫K(w)zφ(w)dw
定義(GMMのゼータ函数と実対数閾値)
上のζをGMMのゼータ函数と呼び,その最大極(-λ)
の絶対値λをGMMの実対数閾値と呼ぶ
2017/9/15 IBISML30th 14
理論/GMMのゼータ函数
定理(GMMの実対数閾値の上界)[山崎&渡辺,2003]
0<φ<∞のとき,GMMの実対数閾値λは次を満たす:
𝝀 ≤
𝟏
𝟐
𝑲 + 𝑲 𝟎 − 𝟏 𝒊𝒇 𝑴 = 𝟏
𝟏
𝟐
𝑴 𝑲 𝟎 + 𝟏 + 𝟐𝑲 − 𝑲 𝟎 − 𝟑 𝒐𝒕𝒉𝒆𝒓𝒘𝒊𝒔𝒆
• Mはコンポーネントのパラメータ数:
𝑴 =
𝑵 分散固定
𝑵 +
𝟏
𝟐
𝑵 𝑵 + 𝟏 分散推定
2017/9/15 IBISML30th 15
理論/sBIC
sBIC[Drton&Plummer,2017]はBICの拡張の一つ
特異統計モデルに適用可能な情報量規準であり,
対数周辺尤度を近似する
𝒔𝑩𝑰𝑪 =
𝒊=𝟏
𝒏
log 𝒑 𝑿𝒊 𝒘 𝑴𝑳𝑬 − 𝒑𝒆𝒏𝒂𝒍𝒕𝒚
罰則項は実対数閾値と多重度の理論値を用いて繰
り返し法から計算される
𝒑𝒆𝒏𝒂𝒍𝒕𝒚 ≈ 𝝀 𝐥𝐨𝐠 𝒏 − 𝒎 − 𝟏 𝐥𝐨𝐠 𝐥𝐨𝐠 𝒏
2017/9/15 IBISML30th 16
理論/sBIC
• 実対数閾値らはモデルと真の分布から定まる
• 実現可能性を仮定すると真の分布⊂モデル
• 真の分布のサイズ(GMMの真の混合数など)が
K0であるとき,モデルのサイズごとにすなわち
K- K0+1個の実対数閾値が定まる
• K0が不明なのでこれを1~Kの中で探す
• K0=1,…としたときそれぞれの実対数閾値は計算
できる
2017/9/15 IBISML30th 17
理論/sBIC
例: GMMの実対数閾値の上界(M=2,K=4)
K0=1,…,4ととりうるので実対数閾値の上界は次の
行列の成分となる:
𝚲 =
𝟏
𝟐 𝟐. 𝟓
𝟑 𝟑. 𝟓 𝟒
𝟒 𝟒. 𝟓 𝟓 𝟓. 𝟓
𝚲𝐢𝐣:=(K=i,K0=jのときの実対数閾値の上界)
多重度も同様に計算する(この例ではすべて1)
2017/9/15 IBISML30th 18
K=1
K=2
K=3
K=4
K0=1 K0=2 K0=3 K0=4
理論/sBIC
• sBICはモデルのサイズごとに計算される
• 先のように実対数閾値と多重度の行列を用意し
ておく
• 次のアルゴリズムに従いsBICをモデルのサイズ
(制御変数)ごとに計算する
2017/9/15 IBISML30th 19
理論/sBICのアルゴリズム
2017/9/15 IBISML30th 20
I:制御変数の(半)順序集合
・周辺尤度の近似値の近似
値としてL’ijを先の行列から
計算する
・周辺尤度の近似値列Lが満
たす連立方程式
𝒋≤𝒊
𝑳 𝒊 − 𝑳𝒊𝒋
′
𝑳 𝒋 𝝋 𝒘𝒋 = 𝟎
を左の繰り返しで解く
・その対数値がsBIC
3.実験
2017/9/15 IBISML30th 21
実験/方法
• GMMのモデル選択を人工データについて実行
• 情報量規準sBICを用いてモデル選択
• 分散固定と推定で場合分け
• サンプルサイズを5種用意
• EMアルゴリズム/変分Bayes法による推定量を
sBICの尤度項に代入
• 変分Bayesではハイパーパラメータ2種用意
• データセットを複数用意し各々でモデル選択
2017/9/15 IBISML30th 22
実験/方法・条件
次元と計算回数について
• データはN=2次元
• 真の混合数を3として人工データを用意
• モデルの混合数は1~7とした
• サンプルサイズはn=20,100,200,500,1000用意
• それぞれのnごとに100のデータセットを用意
• EM,変分Bayesともに500回計算した中での尤
度の最大化元・変分自由エネルギの最小化元を
推定量として採択
2017/9/15 IBISML30th 23
実験/方法・条件
パラメータについて
• 変分Bayesについて,混合比の事前分布として
Dirichlet分布を使用
– ハイパーパラメータはすべて0.1かすべて10
• 分散共分散行列について,固定する場合は2次単
位行列,推定する場合はGauss-Wishart分布を
事前分布として用いた
– ハイパーパラメータの詳細は本研究の論文参照
2017/9/15 IBISML30th 24
実験/方法
• 100個のデータセットを各n,分散推定の有無,
手法・ハイパーパラメータごとに5*2*3=30通り用意
• データセットごとにモデル選択を行い,選択さ
れたモデルについてヒストグラムを作成
• 真の分布を選択した回数/100を正解率として各
条件ごとに表に記載
2017/9/15 IBISML30th 25
実験/方法/条件まとめ
• 条件(1): 分散共分散を固定する場合
– EMアルゴリズムによる推定量を利用
– 変分Bayes法による推定量(φ=0.1)を利用
– 変分Bayes法による推定量(φ=10)を利用
• 条件(2): 分散共分散を推定する場合
– EMアルゴリズムによる推定量を利用
– 変分Bayes法による推定量(φ=0.1)を利用
– 変分Bayes法による推定量(φ=10)を利用
• φ:Dirichlet分布のハイパーパラメータ
• それぞれでn=20,100,200,500,1000
2017/9/15 IBISML30th 26
実験/結果
• 条件(1), n=20
• ヒストグラム
2017/9/15 IBISML30th 27
EM VB(0.1) VB(10)
実験/結果
• 条件(1), n=100
• ヒストグラム
2017/9/15 IBISML30th 28
EM VB(0.1) VB(10)
実験/結果
• 条件(1), n=200
• ヒストグラム
2017/9/15 IBISML30th 29
EM VB(0.1) VB(10)
実験/結果
• 条件(1), n=500
• ヒストグラム
2017/9/15 IBISML30th 30
EM VB(0.1) VB(10)
実験/結果
• 条件(1), n=1000
• ヒストグラム
2017/9/15 IBISML30th 31
EM VB(0.1) VB(10)
実験/結果
• 条件(1)
• 正解率の表
2017/9/15 IBISML30th 32
実験/結果
• 条件(2), n=20
• ヒストグラム
2017/9/15 IBISML30th 33
EM VB(0.1) VB(10)
実験/結果
• 条件(2), n=100
• ヒストグラム
2017/9/15 IBISML30th 34
EM VB(0.1) VB(10)
実験/結果
• 条件(2), n=200
• ヒストグラム
2017/9/15 IBISML30th 35
EM VB(0.1) VB(10)
実験/結果
• 条件(2), n=500
• ヒストグラム
2017/9/15 IBISML30th 36
EM VB(0.1) VB(10)
実験/結果
• 条件(2), n=1000
• ヒストグラム
2017/9/15 IBISML30th 37
EM VB(0.1) VB(10)
実験/結果
• 条件(2)
• 正解率の表
2017/9/15 IBISML30th 38
実験/結果/まとめ
• 分散共分散は固定するとき:
– EMアルゴリズム:
高確率で真の分布が選択できた.
– 変分Bayes:
低n数においてEMより高確率,特にφ=0.1で有意.
• 分散共分散も推定するとき:
– EMアルゴリズム:
高n数でも真の分布より大きなモデルを選択,不安定.
– 変分Bayes:
低n数であっても高確率で真の分布を選択.
特にφ=0.1で有意.
2017/9/15 IBISML30th 39
実験/考察
• 分散共分散を固定しても推定しても,VBEを用
いるとLMLEよりも正確にモデル選択が可能で
あった
VBEはコンポーネントの変化に鋭敏であること
が考えられる
↑それゆえEM法によるLMLEを代入するよりも
尤度が経験エントロピーに近いすなわちsBICが
対数周辺尤度の良い近似になっていた
2017/9/15 IBISML30th 40
実験/考察
• 分散共分散を固定する場合
EMアルゴリズムによる局所最尤推定量を用いて
もsBICを使えば正確なモデル選択が可能
それでも特に低n数ではVBEが正確性で勝る
↑前述したようにVBEを代入した尤度は経験エン
トロピーをより正確に近似することが所以と考
えられる
2017/9/15 IBISML30th 41
実験/考察
• 分散共分散を推定する場合
分散共分散行列のぶんだけ各コンポーネントの
パラメータ数は加速度的に増加
• EM法では正解率がほとんど0であった
・500回計算したなかでの良い局所解を利用
→パラメータ次元の上昇により良い局所最尤推
定量が見つからなくなったと考えられる
・分散共分散行列のぶんだけ特異性が増加
→変分Bayesと最尤推定の性能差が増加したと
考えられる
2017/9/15 IBISML30th 42
実験/考察
• EM法では正解率がほとんど0であった
・Dirichlet分布は非有界または零点を持つ事前分
布←今回用いた実対数閾値の仮定を満たさない
2017/9/15 IBISML30th 43
φ=10 φ=0.1
実験/考察
• EM法では正解率がほとんど0であった
・Dirichlet分布は非有界または零点を持つ事前分
布←今回用いた実対数閾値の仮定を満たさない
・Dirichlet分布を用いる場合は,分散共分散行列
を推定しない場合について実対数閾値の上界が得
られている[S. Watanabe, 2009]
・変分Bayes法の場合の実対数閾値の上界も
Dirichlet分布を仮定するが分散共分散行列を推定
しない場合である[K. Watanabe, 2007]
→実対数閾値の改善によりEMでもモデル選択可能?
2017/9/15 IBISML30th 44
実験/考察
• 分散共分散行列を固定しても推定しても,変分
Bayes法についてはDirichlet分布のハイパーパラメータ
を10とするより0.1とするほうが正確であった
2017/9/15 IBISML30th 45
φ=10 φ=0.1
実験/考察
• 分散共分散行列を固定しても推定しても,変分
Bayes法についてはDirichlet分布のハイパーパラメータ
を10とするより0.1とするほうが正確であった
• GMMの相転移点はφ=(M+1)/2=1.5, 3
• 相転移点より小さい方が局所解が少ないことが
実験的に知られており,その影響で0.1で特に有
意な結果が得られたと考えられる
2017/9/15 IBISML30th 46
4.結論
2017/9/15 IBISML30th 47
結論/総括
• sBICによるGMMのモデル選択に用いる推定量に
ついて実験的な考察を行い,次の結果を得た
• 分散共分散を固定しても推定しても,
変分Bayes法による推定量を用いるとEM法によ
る推定量より正確にモデル選択が可能であった
• 分散共分散を推定する場合,
EM法による推定量を用いると正確なモデル選択
ができなかった
2017/9/15 IBISML30th 48
結論/展望
• 変分Bayes法そのものによる自由エネルギーの
近似との比較
– 変分自由エネルギーv.s.負のsBIC(VBE)
• より高次元の問題に対する実験
– 学習理論の研究ではデータ抽出に対する平均操作が要
• 事前分布がDirichlet分布でありかつ分散共分散
を推定する場合の実対数閾値の解明
– 実験結果はsBICが悪いというより用いた実対数閾値が
原因かもしれない
2017/9/15 IBISML30th 49
2017/9/15 IBISML30th 50

More Related Content

More from Naoki Hayashi

諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.Naoki Hayashi
 
IEEESSCI2017-FOCI4-1039
IEEESSCI2017-FOCI4-1039IEEESSCI2017-FOCI4-1039
IEEESSCI2017-FOCI4-1039Naoki Hayashi
 
すずかけはいいぞ
すずかけはいいぞすずかけはいいぞ
すずかけはいいぞNaoki Hayashi
 
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)Naoki Hayashi
 
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)RPG世界の形状及び距離の幾何学的考察(rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)Naoki Hayashi
 
Rogyゼミ7thスライドpublic
Rogyゼミ7thスライドpublicRogyゼミ7thスライドpublic
Rogyゼミ7thスライドpublicNaoki Hayashi
 
Rogyゼミスライド6th
Rogyゼミスライド6thRogyゼミスライド6th
Rogyゼミスライド6thNaoki Hayashi
 
Rogy目覚まし(仮)+おまけ
Rogy目覚まし(仮)+おまけRogy目覚まし(仮)+おまけ
Rogy目覚まし(仮)+おまけNaoki Hayashi
 
ぼくのつくったこうだいさいてんじぶつ
ぼくのつくったこうだいさいてんじぶつぼくのつくったこうだいさいてんじぶつ
ぼくのつくったこうだいさいてんじぶつNaoki Hayashi
 
情報統計力学のすすめ
情報統計力学のすすめ情報統計力学のすすめ
情報統計力学のすすめNaoki Hayashi
 

More from Naoki Hayashi (14)

諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
 
201803NC
201803NC201803NC
201803NC
 
201703NC
201703NC201703NC
201703NC
 
IEEESSCI2017-FOCI4-1039
IEEESSCI2017-FOCI4-1039IEEESSCI2017-FOCI4-1039
IEEESSCI2017-FOCI4-1039
 
すずかけはいいぞ
すずかけはいいぞすずかけはいいぞ
すずかけはいいぞ
 
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
 
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)RPG世界の形状及び距離の幾何学的考察(rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
 
Rogyゼミ7thスライドpublic
Rogyゼミ7thスライドpublicRogyゼミ7thスライドpublic
Rogyゼミ7thスライドpublic
 
Rogyゼミスライド6th
Rogyゼミスライド6thRogyゼミスライド6th
Rogyゼミスライド6th
 
Rogy目覚まし(仮)+おまけ
Rogy目覚まし(仮)+おまけRogy目覚まし(仮)+おまけ
Rogy目覚まし(仮)+おまけ
 
ぼくのつくったこうだいさいてんじぶつ
ぼくのつくったこうだいさいてんじぶつぼくのつくったこうだいさいてんじぶつ
ぼくのつくったこうだいさいてんじぶつ
 
情報統計力学のすすめ
情報統計力学のすすめ情報統計力学のすすめ
情報統計力学のすすめ
 
Rogyゼミ2014 10
Rogyゼミ2014 10Rogyゼミ2014 10
Rogyゼミ2014 10
 
Rogyzemi
RogyzemiRogyzemi
Rogyzemi
 

201709ibisml