Submit Search
Upload
201709ibisml
•
2 likes
•
561 views
Naoki Hayashi
Follow
研究室OBである中村文士博士との共同研究.情報量規準sBICについて変分ベイズの観点から実験的考察.2017年9月のIBISML研究会にて発表.in Japanese
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 50
Download now
Download to read offline
Recommended
卒論発表
卒論発表
Akira Ozawa
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
Naoki Hayashi
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
Naoki Hayashi
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
Naoki Hayashi
Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...
Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...
Naoki Hayashi
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
Naoki Hayashi
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
Naoki Hayashi
Recommended
卒論発表
卒論発表
Akira Ozawa
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
Naoki Hayashi
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
Naoki Hayashi
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
Naoki Hayashi
Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...
Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...
Naoki Hayashi
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
Naoki Hayashi
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
Naoki Hayashi
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
Naoki Hayashi
201803NC
201803NC
Naoki Hayashi
201703NC
201703NC
Naoki Hayashi
IEEESSCI2017-FOCI4-1039
IEEESSCI2017-FOCI4-1039
Naoki Hayashi
すずかけはいいぞ
すずかけはいいぞ
Naoki Hayashi
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
Naoki Hayashi
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
Naoki Hayashi
Rogyゼミ7thスライドpublic
Rogyゼミ7thスライドpublic
Naoki Hayashi
Rogyゼミスライド6th
Rogyゼミスライド6th
Naoki Hayashi
Rogy目覚まし(仮)+おまけ
Rogy目覚まし(仮)+おまけ
Naoki Hayashi
ぼくのつくったこうだいさいてんじぶつ
ぼくのつくったこうだいさいてんじぶつ
Naoki Hayashi
情報統計力学のすすめ
情報統計力学のすすめ
Naoki Hayashi
Rogyゼミ2014 10
Rogyゼミ2014 10
Naoki Hayashi
Rogyzemi
Rogyzemi
Naoki Hayashi
More Related Content
More from Naoki Hayashi
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
Naoki Hayashi
201803NC
201803NC
Naoki Hayashi
201703NC
201703NC
Naoki Hayashi
IEEESSCI2017-FOCI4-1039
IEEESSCI2017-FOCI4-1039
Naoki Hayashi
すずかけはいいぞ
すずかけはいいぞ
Naoki Hayashi
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
Naoki Hayashi
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
Naoki Hayashi
Rogyゼミ7thスライドpublic
Rogyゼミ7thスライドpublic
Naoki Hayashi
Rogyゼミスライド6th
Rogyゼミスライド6th
Naoki Hayashi
Rogy目覚まし(仮)+おまけ
Rogy目覚まし(仮)+おまけ
Naoki Hayashi
ぼくのつくったこうだいさいてんじぶつ
ぼくのつくったこうだいさいてんじぶつ
Naoki Hayashi
情報統計力学のすすめ
情報統計力学のすすめ
Naoki Hayashi
Rogyゼミ2014 10
Rogyゼミ2014 10
Naoki Hayashi
Rogyzemi
Rogyzemi
Naoki Hayashi
More from Naoki Hayashi
(14)
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
201803NC
201803NC
201703NC
201703NC
IEEESSCI2017-FOCI4-1039
IEEESSCI2017-FOCI4-1039
すずかけはいいぞ
すずかけはいいぞ
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
Rogyゼミ7thスライドpublic
Rogyゼミ7thスライドpublic
Rogyゼミスライド6th
Rogyゼミスライド6th
Rogy目覚まし(仮)+おまけ
Rogy目覚まし(仮)+おまけ
ぼくのつくったこうだいさいてんじぶつ
ぼくのつくったこうだいさいてんじぶつ
情報統計力学のすすめ
情報統計力学のすすめ
Rogyゼミ2014 10
Rogyゼミ2014 10
Rogyzemi
Rogyzemi
201709ibisml
1.
特異Bayes情報量規準による混 合正規分布のモデル選択におけ る変分Bayes法の実験的考察 林 直輝* (東京工業大学
数理・計算科学系) 中村 文士 (ボッシュ株式会社) 12017/9/15 IBISML30th
2.
目次 • 1.背景 • 2.理論
–sBICについて • 3.実験 • 4.結論 2017/9/15 IBISML30th 2
3.
1.背景 2017/9/15 IBISML30th 3
4.
背景/GMM • 混合正規分布(Gaussian Mixture
Model, GMM) はデータから構造を知るための統計モデルとし て広く応用されている • クラスタリング,パターン認識(識別),…… 2017/9/15 IBISML30th 4
5.
背景/GMM • GMMは構造発見のためのモデルとして重要 • GMMは特異統計モデル –
パラメータ→確率分布が1対1ではない – 尤度・事後分布は正規分布で近似できない – AICやBICは使用できない – 推定性能:最尤法<Bayes法 • GMMの最尤推定量は存在しない[J. Hartigan,1985] – EMアルゴリズムでは局所最尤推定量しか計算できない – EMアルゴリズムではしばしば解が発散する 2017/9/15 IBISML30th 5
6.
背景/Bayes学習と特異モデル • 一般のBayes学習における定理[渡辺,2001] – n個の独立確率変数(学習データ) –
ある学習モデルでBayes学習を行った際 自由エネルギー𝐹𝒏は次の挙動を持つ: 𝑭 𝒏 = 𝒏𝑺 𝒏 + 𝝀 𝐥𝐨𝐠 𝒏 − 𝒎 − 𝟏 𝐥𝐨𝐠 𝐥𝐨𝐠 𝒏 + 𝑶 𝒑 𝟏 – Snは経験エントロピー – λは学習係数あるいは実対数閾値と呼ばれる定数 – mは多重度と呼ばれる定数 – 非特異モデルの場合(d:パラメータ次元) 𝝀 = 𝒅 𝟐 , 𝒎 = 𝟏 2017/9/15 IBISML30th 6
7.
背景/sBIC • 実対数閾値と多重度を用いたモデル選択指標 sBICがDrtonら(2017)により提案されている – BICの拡張の一つ、特異モデルに適用可能 –
BIC=最大尤度-(d/2)log(n)≒対数周辺尤度 →一般に、最大尤度-罰則項(n)≒対数周辺尤度 →罰則項を先の理論式に基づき計算したものがsBIC – 最大尤度=尤度(最尤推定量) – ↑sBICは最尤推定量を用いる – GMMではEM法による局所最尤推定量を用いるしかない 2017/9/15 IBISML30th 7
8.
背景/変分Bayes法 一方で、 • 変分Bayes法がGMMのパラメータ推定に有効で あることが知られている • 変分Bayes法では平均場近似により事後分布と 自由エネルギーを近似し,パラメータの事後平 均を推定量とする •
EMと異なりGMMでも推定量は発散しない 2017/9/15 IBISML30th 8
9.
背景/目的 • GMMのモデル選択に用いるsBICに変分Bayes 法による推定量(VBE)を代入する • EM法による局所最尤推定量(LMLE)を代入した 場合と比較する •
GMMの分散共分散を固定する場合とこれも推定 する場合それぞれで比較する 2017/9/15 IBISML30th 9
10.
2.理論 2017/9/15 IBISML30th 10
11.
理論/GMM 中心をμkとし分散共分散行列をΣkとするN次元正 規分布をfとし,これらK個の混合分布を考える。 混合比は和が1となる非負値akで,学習モデルは 𝒑 𝒙 𝒘
= 𝒌=𝟏 𝑲 𝒂 𝒌 𝒇 𝒙 𝝁 𝒌, 𝚺 𝒌 パラメータ次元は 𝒅 = 𝑲 − 𝟏 + 𝑲𝑵 分散固定 𝑲 − 𝟏 + 𝑲𝑵 + 𝟏 𝟐 𝑲𝑵 𝑵 + 𝟏 分散推定 2017/9/15 IBISML30th 11
12.
理論/ゼータ函数 一般に,平均誤差函数をK,事前分布をφとすると き,学習理論のゼータ函数は次で定義される: ζ(z)=∫K(w)zφ(w)dw この一変数複素関数はRe(z)>0の範囲で正則であ るが,複素数平面全体に有理型函数として一意に 解析接続することができる その極はすべて負の有理数.そのなかで最も原点 に近いものの絶対値を実対数閾値と,その極の位 数を多重度と呼ぶ 2017/9/15 IBISML30th 12
13.
理論/GMMのゼータ函数 真の分布q(x)は真の中心と分散共分散行列を持つ K0個の成分からなる混合正規分布であるとする: 𝒒 𝒙 = 𝒌=𝟏 𝑲
𝟎 𝒂 𝒌 ∗ 𝒇 𝒙|𝝁 𝒌 ∗ , 𝚺 𝒌 ∗ 平均誤差関数は 𝑲 𝒘 = 𝒒(𝒙) 𝐥𝐨𝐠 𝒒 𝒙 𝒑 𝒙 𝒘 𝒅𝒙 2017/9/15 IBISML30th 13
14.
理論/GMMのゼータ函数 GMMの実対数閾値は先の平均誤差函数から定まる ゼータ函数の最大極から定義される: ζ(z)=∫K(w)zφ(w)dw 定義(GMMのゼータ函数と実対数閾値) 上のζをGMMのゼータ函数と呼び,その最大極(-λ) の絶対値λをGMMの実対数閾値と呼ぶ 2017/9/15 IBISML30th 14
15.
理論/GMMのゼータ函数 定理(GMMの実対数閾値の上界)[山崎&渡辺,2003] 0<φ<∞のとき,GMMの実対数閾値λは次を満たす: 𝝀 ≤ 𝟏 𝟐 𝑲 +
𝑲 𝟎 − 𝟏 𝒊𝒇 𝑴 = 𝟏 𝟏 𝟐 𝑴 𝑲 𝟎 + 𝟏 + 𝟐𝑲 − 𝑲 𝟎 − 𝟑 𝒐𝒕𝒉𝒆𝒓𝒘𝒊𝒔𝒆 • Mはコンポーネントのパラメータ数: 𝑴 = 𝑵 分散固定 𝑵 + 𝟏 𝟐 𝑵 𝑵 + 𝟏 分散推定 2017/9/15 IBISML30th 15
16.
理論/sBIC sBIC[Drton&Plummer,2017]はBICの拡張の一つ 特異統計モデルに適用可能な情報量規準であり, 対数周辺尤度を近似する 𝒔𝑩𝑰𝑪 = 𝒊=𝟏 𝒏 log 𝒑
𝑿𝒊 𝒘 𝑴𝑳𝑬 − 𝒑𝒆𝒏𝒂𝒍𝒕𝒚 罰則項は実対数閾値と多重度の理論値を用いて繰 り返し法から計算される 𝒑𝒆𝒏𝒂𝒍𝒕𝒚 ≈ 𝝀 𝐥𝐨𝐠 𝒏 − 𝒎 − 𝟏 𝐥𝐨𝐠 𝐥𝐨𝐠 𝒏 2017/9/15 IBISML30th 16
17.
理論/sBIC • 実対数閾値らはモデルと真の分布から定まる • 実現可能性を仮定すると真の分布⊂モデル •
真の分布のサイズ(GMMの真の混合数など)が K0であるとき,モデルのサイズごとにすなわち K- K0+1個の実対数閾値が定まる • K0が不明なのでこれを1~Kの中で探す • K0=1,…としたときそれぞれの実対数閾値は計算 できる 2017/9/15 IBISML30th 17
18.
理論/sBIC 例: GMMの実対数閾値の上界(M=2,K=4) K0=1,…,4ととりうるので実対数閾値の上界は次の 行列の成分となる: 𝚲 = 𝟏 𝟐
𝟐. 𝟓 𝟑 𝟑. 𝟓 𝟒 𝟒 𝟒. 𝟓 𝟓 𝟓. 𝟓 𝚲𝐢𝐣:=(K=i,K0=jのときの実対数閾値の上界) 多重度も同様に計算する(この例ではすべて1) 2017/9/15 IBISML30th 18 K=1 K=2 K=3 K=4 K0=1 K0=2 K0=3 K0=4
19.
理論/sBIC • sBICはモデルのサイズごとに計算される • 先のように実対数閾値と多重度の行列を用意し ておく •
次のアルゴリズムに従いsBICをモデルのサイズ (制御変数)ごとに計算する 2017/9/15 IBISML30th 19
20.
理論/sBICのアルゴリズム 2017/9/15 IBISML30th 20 I:制御変数の(半)順序集合 ・周辺尤度の近似値の近似 値としてL’ijを先の行列から 計算する ・周辺尤度の近似値列Lが満 たす連立方程式 𝒋≤𝒊 𝑳
𝒊 − 𝑳𝒊𝒋 ′ 𝑳 𝒋 𝝋 𝒘𝒋 = 𝟎 を左の繰り返しで解く ・その対数値がsBIC
21.
3.実験 2017/9/15 IBISML30th 21
22.
実験/方法 • GMMのモデル選択を人工データについて実行 • 情報量規準sBICを用いてモデル選択 •
分散固定と推定で場合分け • サンプルサイズを5種用意 • EMアルゴリズム/変分Bayes法による推定量を sBICの尤度項に代入 • 変分Bayesではハイパーパラメータ2種用意 • データセットを複数用意し各々でモデル選択 2017/9/15 IBISML30th 22
23.
実験/方法・条件 次元と計算回数について • データはN=2次元 • 真の混合数を3として人工データを用意 •
モデルの混合数は1~7とした • サンプルサイズはn=20,100,200,500,1000用意 • それぞれのnごとに100のデータセットを用意 • EM,変分Bayesともに500回計算した中での尤 度の最大化元・変分自由エネルギの最小化元を 推定量として採択 2017/9/15 IBISML30th 23
24.
実験/方法・条件 パラメータについて • 変分Bayesについて,混合比の事前分布として Dirichlet分布を使用 – ハイパーパラメータはすべて0.1かすべて10 •
分散共分散行列について,固定する場合は2次単 位行列,推定する場合はGauss-Wishart分布を 事前分布として用いた – ハイパーパラメータの詳細は本研究の論文参照 2017/9/15 IBISML30th 24
25.
実験/方法 • 100個のデータセットを各n,分散推定の有無, 手法・ハイパーパラメータごとに5*2*3=30通り用意 • データセットごとにモデル選択を行い,選択さ れたモデルについてヒストグラムを作成 •
真の分布を選択した回数/100を正解率として各 条件ごとに表に記載 2017/9/15 IBISML30th 25
26.
実験/方法/条件まとめ • 条件(1): 分散共分散を固定する場合 –
EMアルゴリズムによる推定量を利用 – 変分Bayes法による推定量(φ=0.1)を利用 – 変分Bayes法による推定量(φ=10)を利用 • 条件(2): 分散共分散を推定する場合 – EMアルゴリズムによる推定量を利用 – 変分Bayes法による推定量(φ=0.1)を利用 – 変分Bayes法による推定量(φ=10)を利用 • φ:Dirichlet分布のハイパーパラメータ • それぞれでn=20,100,200,500,1000 2017/9/15 IBISML30th 26
27.
実験/結果 • 条件(1), n=20 •
ヒストグラム 2017/9/15 IBISML30th 27 EM VB(0.1) VB(10)
28.
実験/結果 • 条件(1), n=100 •
ヒストグラム 2017/9/15 IBISML30th 28 EM VB(0.1) VB(10)
29.
実験/結果 • 条件(1), n=200 •
ヒストグラム 2017/9/15 IBISML30th 29 EM VB(0.1) VB(10)
30.
実験/結果 • 条件(1), n=500 •
ヒストグラム 2017/9/15 IBISML30th 30 EM VB(0.1) VB(10)
31.
実験/結果 • 条件(1), n=1000 •
ヒストグラム 2017/9/15 IBISML30th 31 EM VB(0.1) VB(10)
32.
実験/結果 • 条件(1) • 正解率の表 2017/9/15
IBISML30th 32
33.
実験/結果 • 条件(2), n=20 •
ヒストグラム 2017/9/15 IBISML30th 33 EM VB(0.1) VB(10)
34.
実験/結果 • 条件(2), n=100 •
ヒストグラム 2017/9/15 IBISML30th 34 EM VB(0.1) VB(10)
35.
実験/結果 • 条件(2), n=200 •
ヒストグラム 2017/9/15 IBISML30th 35 EM VB(0.1) VB(10)
36.
実験/結果 • 条件(2), n=500 •
ヒストグラム 2017/9/15 IBISML30th 36 EM VB(0.1) VB(10)
37.
実験/結果 • 条件(2), n=1000 •
ヒストグラム 2017/9/15 IBISML30th 37 EM VB(0.1) VB(10)
38.
実験/結果 • 条件(2) • 正解率の表 2017/9/15
IBISML30th 38
39.
実験/結果/まとめ • 分散共分散は固定するとき: – EMアルゴリズム: 高確率で真の分布が選択できた. –
変分Bayes: 低n数においてEMより高確率,特にφ=0.1で有意. • 分散共分散も推定するとき: – EMアルゴリズム: 高n数でも真の分布より大きなモデルを選択,不安定. – 変分Bayes: 低n数であっても高確率で真の分布を選択. 特にφ=0.1で有意. 2017/9/15 IBISML30th 39
40.
実験/考察 • 分散共分散を固定しても推定しても,VBEを用 いるとLMLEよりも正確にモデル選択が可能で あった VBEはコンポーネントの変化に鋭敏であること が考えられる ↑それゆえEM法によるLMLEを代入するよりも 尤度が経験エントロピーに近いすなわちsBICが 対数周辺尤度の良い近似になっていた 2017/9/15 IBISML30th
40
41.
実験/考察 • 分散共分散を固定する場合 EMアルゴリズムによる局所最尤推定量を用いて もsBICを使えば正確なモデル選択が可能 それでも特に低n数ではVBEが正確性で勝る ↑前述したようにVBEを代入した尤度は経験エン トロピーをより正確に近似することが所以と考 えられる 2017/9/15 IBISML30th
41
42.
実験/考察 • 分散共分散を推定する場合 分散共分散行列のぶんだけ各コンポーネントの パラメータ数は加速度的に増加 • EM法では正解率がほとんど0であった ・500回計算したなかでの良い局所解を利用 →パラメータ次元の上昇により良い局所最尤推 定量が見つからなくなったと考えられる ・分散共分散行列のぶんだけ特異性が増加 →変分Bayesと最尤推定の性能差が増加したと 考えられる 2017/9/15
IBISML30th 42
43.
実験/考察 • EM法では正解率がほとんど0であった ・Dirichlet分布は非有界または零点を持つ事前分 布←今回用いた実対数閾値の仮定を満たさない 2017/9/15 IBISML30th
43 φ=10 φ=0.1
44.
実験/考察 • EM法では正解率がほとんど0であった ・Dirichlet分布は非有界または零点を持つ事前分 布←今回用いた実対数閾値の仮定を満たさない ・Dirichlet分布を用いる場合は,分散共分散行列 を推定しない場合について実対数閾値の上界が得 られている[S. Watanabe,
2009] ・変分Bayes法の場合の実対数閾値の上界も Dirichlet分布を仮定するが分散共分散行列を推定 しない場合である[K. Watanabe, 2007] →実対数閾値の改善によりEMでもモデル選択可能? 2017/9/15 IBISML30th 44
45.
実験/考察 • 分散共分散行列を固定しても推定しても,変分 Bayes法についてはDirichlet分布のハイパーパラメータ を10とするより0.1とするほうが正確であった 2017/9/15 IBISML30th
45 φ=10 φ=0.1
46.
実験/考察 • 分散共分散行列を固定しても推定しても,変分 Bayes法についてはDirichlet分布のハイパーパラメータ を10とするより0.1とするほうが正確であった • GMMの相転移点はφ=(M+1)/2=1.5,
3 • 相転移点より小さい方が局所解が少ないことが 実験的に知られており,その影響で0.1で特に有 意な結果が得られたと考えられる 2017/9/15 IBISML30th 46
47.
4.結論 2017/9/15 IBISML30th 47
48.
結論/総括 • sBICによるGMMのモデル選択に用いる推定量に ついて実験的な考察を行い,次の結果を得た • 分散共分散を固定しても推定しても, 変分Bayes法による推定量を用いるとEM法によ る推定量より正確にモデル選択が可能であった •
分散共分散を推定する場合, EM法による推定量を用いると正確なモデル選択 ができなかった 2017/9/15 IBISML30th 48
49.
結論/展望 • 変分Bayes法そのものによる自由エネルギーの 近似との比較 – 変分自由エネルギーv.s.負のsBIC(VBE) •
より高次元の問題に対する実験 – 学習理論の研究ではデータ抽出に対する平均操作が要 • 事前分布がDirichlet分布でありかつ分散共分散 を推定する場合の実対数閾値の解明 – 実験結果はsBICが悪いというより用いた実対数閾値が 原因かもしれない 2017/9/15 IBISML30th 49
50.
2017/9/15 IBISML30th 50
Download now