SlideShare a Scribd company logo
1 of 62
StatsML Symposium’20
パラメータ制約付き行列分解の
ベイズ汎化誤差解析
本講演は松井孝太先生(名古屋大)にお世話になりました.
林 直輝 (1,2)
(1) 株式会社NTTデータ数理システム シミュレーション&マイニング部
(2) 東京工業大学 情報理工学院 数理・計算科学系
1
目次
1. 統計的学習
2. 特異モデルのベイズ汎化誤差解析
3. パラメータ制約
4. 非負値行列分解
5. 潜在ディリクレ配分
6. 結び
5
1.統計的学習
統計的学習とは何か
未知なる𝑞 𝑥 をデータとモデルから学習する
6
デ―タ 𝑋 𝑛
真の分布(未知)
𝑞 𝑥
i.i.d.~
モデル 𝑝 𝑥 𝑤
事前分布 𝜑 𝑤
1.統計的学習
統計的学習とは何か
統計的学習: 学習結果を用いてデータの発生源を推測すること
7
デ―タ 𝑋 𝑛
真の分布(未知)
𝑞 𝑥
i.i.d.~
予測分布
𝑝∗
𝑥 ≔ 𝑝 𝑥 𝑤 𝜓 𝑤 𝑋 𝑛
d𝑤
𝜓 𝑤 𝑋 𝑛
: 事後分布: 推定されたパラメータ分布
モデル 𝑝 𝑥 𝑤
事前分布 𝜑 𝑤
ベイズ学習: 真の分布はベイズ予測分布ではないか? と推測すること
1.統計的学習
統計的学習とは何か
統計的学習: 学習結果を用いてデータの発生源を推測すること
8
デ―タ 𝑋 𝑛
真の分布(未知)
𝑞 𝑥
i.i.d.~
予測分布
𝑝∗
𝑥 ≔ 𝑝 𝑥 𝑤 𝜓 𝑤 𝑋 𝑛
d𝑤
𝜓 𝑤 𝑋 𝑛
: 事後分布: 推定されたパラメータ分布
モデル 𝑝 𝑥 𝑤
事前分布 𝜑 𝑤モデルは未知データをどれだけ良く予測するか?
モデルはデータ生成過程のどれだけ良い説明を与えているか?
ベイズ学習: 真の分布はベイズ予測分布ではないか? と推測すること
1.統計的学習
ベイズ学習の重要な確率変数(推定精度)
汎化誤差 𝐺 𝑛 と 周辺尤度 𝑍 𝑛 = 𝑍 𝑋 𝑛 .
• 𝐺 𝑛 ≔ 𝑞 𝑥 log
𝑞 𝑥
𝑝∗ 𝑥
d𝑥.
‒ 新規データ生成過程の意味で,真の分布と予測分布の非類似度
• 𝑍 𝑛 ≔ 𝑖=1
𝑛
𝑝 𝑋𝑖 𝑤 𝜑 𝑤 d𝑤.
‒ データセット生成過程の意味で,真の分布とモデルの類似度
‒ 非類似度 𝐹𝑛 ≔ − log 𝑍 𝑛を自由エネルギーという
9
真の分布 予測分布
モデル
~
データ
自由エネルギー
汎化誤差
1.統計的学習
ベイズ学習の重要な確率変数(推定精度)
汎化誤差 𝐺 𝑛 と 周辺尤度 𝑍 𝑛 = 𝑍 𝑋 𝑛 .
• 𝐺 𝑛 ≔ 𝑞 𝑥 log
𝑞 𝑥
𝑝∗ 𝑥
d𝑥.
‒ 新規データ生成過程の意味で,真の分布と予測分布の非類似度
• 𝑍 𝑛 ≔ 𝑖=1
𝑛
𝑝 𝑋𝑖 𝑤 𝜑 𝑤 d𝑤.
‒ データセット生成過程の意味で,真の分布とモデルの類似度
‒ 非類似度 𝐹𝑛 ≔ − log 𝑍 𝑛を自由エネルギーという
10
真の分布 予測分布
モデル
~
データ
自由エネルギー
汎化誤差
と はどのような挙動だろうか?
目次
1. 統計的学習
2. 特異モデルのベイズ汎化誤差解析
3. パラメータ制約
4. 非負値行列分解
5. 潜在ディリクレ配分
6. 結び
11
2.特異モデルのベイズ汎化誤差解析
正則学習理論
• 正則: 事後分布が正規分布で近似可能な時, 以下が成立:
‒ 𝔼 𝐺 𝑛 =
𝑑
2𝑛
+ 𝑜
1
𝑛
,
‒ 𝐹𝑛 = 𝑛𝑆 𝑛 +
𝑑
2
log 𝑛 + 𝑂𝑝 1 ,
𝑑 はパラメータ次元,𝑆 𝑛 は経験エントロピー.
• 情報量規準AIC及びBICの基礎
‒ 最尤・MAP法でも同様の汎化誤差
12
2.特異モデルのベイズ汎化誤差解析
正則学習理論
• 正則: 事後分布が正規分布で近似可能な時, 以下が成立:
‒ 𝔼 𝐺 𝑛 =
𝑑
2𝑛
+ 𝑜
1
𝑛
,
‒ 𝐹𝑛 = 𝑛𝑆 𝑛 +
𝑑
2
log 𝑛 + 𝑂𝑝 1 ,
𝑑 はパラメータ次元,𝑆 𝑛 は経験エントロピー.
• 情報量規準AIC及びBICの基礎
‒ 最尤・MAP法でも同様の汎化誤差
13
非正則すなわち特異な場合は?
2.特異モデルのベイズ汎化誤差解析
特異学習理論
• 階層モデルや潜在変数モデルは特異
• どのような正規分布を以ってしても事後分布の妥当な近似が不可能
• 特異モデルの例:
‒ 神経回路網,混合分布,行列分解,LDA,……
14
特異な事後分布のイメージ 特異点集合のイメージ
2.特異モデルのベイズ汎化誤差解析
特異学習理論
• 特異学習理論:特異な場合の汎化誤差解析
• 事後分布が正規分布で近似できなくても、汎化誤差の平均値の
挙動が分かる:
𝔼 𝐺 𝑛 =
𝜆
𝑛
−
𝑚 − 1
𝑛 log 𝑛
+ 𝑜
1
𝑛 log 𝑛
.
• 係数𝜆を実対数閾値、 𝑚を多重度という.
‒ KL(q||p)の零点が作る代数多様体から定まる(双有理不変量).
• 自由エネルギー𝐹𝑛も 𝜆, 𝑚 が主要項となる:
𝐹𝑛 = 𝑛𝑆 𝑛 + 𝜆 log 𝑛 − 𝑚 − 1 log log 𝑛 + 𝑂𝑝 1 .
• 正則学習理論は特別な場合として包含される:
𝜆 = 𝑑/2, 𝑚 = 1.
15
[13] Watanabe. 2001
• Def. 下記の複素函数の最大極の絶対値とその位数をそれぞれ
K(w)(とb(w))の実対数閾値と多重度という:
𝜁 𝑧 = 𝐾 𝑤 z 𝑏 𝑤 d𝑤 ,
ここで K(w) と b(w) は非負値(区分的)解析函数である.
16
2.特異モデルのベイズ汎化誤差解析
双有理不変量: 実対数閾値
• Def. 下記の複素函数の最大極の絶対値とその位数をそれぞれ
K(w)(とb(w))の実対数閾値と多重度という:
𝜁 𝑧 = 𝐾 𝑤 z 𝑏 𝑤 d𝑤 ,
ここで K(w) と b(w) は非負値(区分的)解析函数である.
• Thm. 𝐾 𝑤 = KL 真||モデル 及び 𝑏 𝑤 = 事前密度とすると,そ
の実対数閾値と多重度は前述の主要項の係数 𝜆 と 𝑚 になる.
17
2.特異モデルのベイズ汎化誤差解析
双有理不変量: 実対数閾値
特異学習理論の主結果:
ベイズ汎化誤差がゼータ函数により特徴づけられる!
[7] Watanabe. 2001
18
パラメータ空間におけるK(w)の零点集合
☆は「最も深い」特異点
2.特異モデルのベイズ汎化誤差解析
双有理不変量: 実対数閾値
19
パラメータ空間におけるK(w)の零点集合
☆は「最も深い」特異点
2.特異モデルのベイズ汎化誤差解析
双有理不変量: 実対数閾値
「最も深い」:
ゼータ函数の最大極
に対応する
𝜁 𝑧 =
𝐶
𝑧 + 𝜆 𝑚
+ ⋯
𝐎𝐗 𝐗 𝐗
𝒛 = −𝝀
ℂ
2.特異モデルのベイズ汎化誤差解析
双有理不変量: 実対数閾値
• 実対数閾値𝜆の直感的意味:体積次元
𝜆 = lim
𝑡→+0
log 𝑉 𝑡
log 𝑡
, 𝑉 𝑡 =
𝐾 𝑤 <𝑡
𝜑 𝑤 d𝑤 .
‒ KL(q||p) = 𝐾 𝑤 の零点近傍の体積次元,常に有理数
20
𝐾 𝑤 < 𝑡の模式図
黒+:零点集合
赤//: 𝑉 𝑡 の積分領域
𝑡 → +0
2.特異モデルのベイズ汎化誤差解析
双有理不変量: 実対数閾値
• 実対数閾値𝜆の直感的意味:体積次元
𝜆 = lim
𝑡→+0
log 𝑉 𝑡
log 𝑡
, 𝑉 𝑡 =
𝐾 𝑤 <𝑡
𝜑 𝑤 d𝑤 .
‒ KL(q||p) = 𝐾 𝑤 の零点近傍の体積次元,常に有理数
• 似た概念:ミンコフスキー次元𝑑∗
𝑑∗ = 𝑑 − lim
𝑡→+0
log 𝒱 𝑡
log 𝑡
, 𝒱 𝑡 =
dist 𝑆,𝑤 <𝑡
d𝑤 .
‒ 部分空間 𝑆 ⊂ ℝ 𝑑 のフラクタル次元,無理数になりうる
21
2.特異モデルのベイズ汎化誤差解析
双有理不変量: 実対数閾値
• 実対数閾値𝜆の直感的意味:体積次元
𝜆 = lim
𝑡→+0
log 𝑉 𝑡
log 𝑡
, 𝑉 𝑡 =
𝐾 𝑤 <𝑡
𝜑 𝑤 d𝑤 .
‒ KL(q||p) = 𝐾 𝑤 の零点近傍の体積次元,常に有理数
• 似た概念:ミンコフスキー次元𝑑∗
𝑑∗ = 𝑑 − lim
𝑡→+0
log 𝒱 𝑡
log 𝑡
, 𝒱 𝑡 =
dist 𝑆,𝑤 <𝑡
d𝑤 .
‒ 部分空間 𝑆 ⊂ ℝ 𝑑 のフラクタル次元,無理数になりうる
22
実対数閾値:一般ケースのベイズ汎化誤差 [13]Watanabe. 2001
ミンコフスキー次元:あるクラスのDNNの近似・汎化誤差 [12]Nakada, et. al. 2020
参考1
2.特異モデルのベイズ汎化誤差解析
双有理不変量: 実対数閾値
• 実対数閾値𝜆の直感的意味:体積次元
𝜆 = lim
𝑡→+0
log 𝑉 𝑡
log 𝑡
, 𝑉 𝑡 =
𝐾 𝑤 <𝑡
𝜑 𝑤 d𝑤 .
‒ KL(q||p) = 𝐾 𝑤 の零点近傍の体積次元,常に有理数
• 似た概念:ミンコフスキー次元𝑑∗
𝑑∗ = 𝑑 − lim
𝑡→+0
log 𝒱 𝑡
log 𝑡
, 𝒱 𝑡 =
dist 𝑆,𝑤 <𝑡
d𝑤 .
‒ 部分空間 𝑆 ⊂ ℝ 𝑑 のフラクタル次元,無理数になりうる
23
“Deep Learning is Singular and That’s Good” https://arxiv.org/abs/2010.11560
DNNの理論解析を特異学習理論で行うアプローチと課題
参考2
実対数閾値:一般ケースのベイズ汎化誤差 [13]Watanabe. 2001
ミンコフスキー次元:あるクラスのDNNの近似・汎化誤差 [12]Nakada, et. al. 2020
参考1
2.特異モデルのベイズ汎化誤差解析
双有理不変量: 実対数閾値
• (𝜆, 𝑚) を求める多くの研究がある:
24
特異モデル 文献
混合正規分布 Yamazaki, et. al. in 2003 [15]
縮小ランク回帰=行列分解 Aoyagi, et. al. in 2005 [1]
マルコフモデル Zwiernik in 2011 [16]
非負値行列分解 今日の内容1
潜在ディリクレ配分 今日の内容2
…… ……
本研究の位置づけ:
特異モデルの汎化誤差解析の知識体系への貢献
2.特異モデルのベイズ汎化誤差解析
特異学習理論の応用
• 特異学習理論そのもの:
‒ 広く使える情報量規準 WAIC≒ベイズ汎化損失
 (LOOCV並みーー実験的には以上ーーに正確かつ低コスト)
‒ 広く使えるベイズ情報量規準 WBIC≒自由エネルギー
• 実対数閾値の解明:
‒ 特異ベイズ情報量規準 sBIC≒自由エネルギー
 (WBICより正確かつ低コスト)
‒ 交換モンテカルロ法の逆温度(交換確率を一定にする)
‒ MCMCによる事後分布の評価
 実対数閾値の一致推定量
25
“クリア特典”
By 渡辺澄夫先生
Ref. http://watanabe-
www.math.dis.titech.ac.jp/users/
swatanab/chap45_46.pdf
https://publicdomainq.net/treasure-box-0012726/
[8] Watanabe.
[2] Drton & et al.
[11] Nagata & et al.
[8] Imai.
目次
1. 統計的学習
2. 特異モデルのベイズ汎化誤差解析
3. パラメータ制約
4. 非負値行列分解
5. 潜在ディリクレ配分
6. 結び
26
3.パラメータ制約
モチベーション
• パラメータ領域に制約を付けてモデリングすることがしばしばある
‒ 解釈性の良い結果を得るために付けられる
1. 非負値制約
2. 単体制約 ……など
27
Coefficients Coefficients
Non-negative
restriction
Legend
・TVCM
・DM
・Rating
・Reviews
E.g. Logistic regression of purchase existence for a product.
[9] Kohjima. 2016
3.パラメータ制約
モチベーション
data{
int<lower=1> n; //number of sample
int<lower=1> M; //row dimension of input
int<lower=1> H; //hidden dimension
int<lower=1> N; //column dimension of input
int x[M,N,n]; //matrix to be decomposed by A and B
real<lower=0> alpha; //hyperparameter for gamma dist
real<lower=0> beta; //hyperparameter for gamma dist
}
parameters{
matrix<lower=0>[M, H] A; //non-neg constraint
matrix<lower=0>[H, N] B; //non-neg constraint
simplex[M] sA[H]; //simplex constraint
simplex[H] sB[N]; //simplex constraint
}
//modelは略
28
確率的プログラミング言語Stanを用いたパラメータ
制約の記述例:
型として や が表現できるため,
柔軟なモデリングが可能
3.パラメータ制約
モチベーション
data{
int<lower=1> n; //number of sample
int<lower=1> M; //row dimension of input
int<lower=1> H; //hidden dimension
int<lower=1> N; //column dimension of input
int x[M,N,n]; //matrix to be decomposed by A and B
real<lower=0> alpha; //hyperparameter for gamma dist
real<lower=0> beta; //hyperparameter for gamma dist
}
parameters{
matrix<lower=0>[M, H] A; //non-neg constraint
matrix<lower=0>[H, N] B; //non-neg constraint
simplex[M] sA[H]; //simplex constraint
simplex[H] sB[N]; //simplex constraint
}
//modelは略
29
確率的プログラミング言語Stanを用いたパラメータ
制約の記述例:
型として や が表現できるため,
柔軟なモデリングが可能
制約を付けてモデリングすると推定
精度はどうなるのだろうか?
30
パラメータ空間におけるK(w)の零点集合
☆は「最も深い」特異点
3.パラメータ制約
代数多様体の再考
「最も深い」:
ゼータ函数の最大極
に対応する
𝜁 𝑧 =
𝐶
𝑧 + 𝜆 𝑚
+ ⋯
3.パラメータ制約
代数多様体の再考
31
パラメータ領域に制約を設けると,
パラメータ空間におけるK(w)の零点集合
☆は「最も深い」特異点
3.パラメータ制約
代数多様体の再考
32
パラメータ領域に制約を設けると,
パラメータ空間におけるK(w)の零点集合
☆は「最も深い」特異点
「最も深い」特異点が変わる!
3.パラメータ制約
代数多様体の再考
33
パラメータ領域に制約を設けると,
パラメータ空間におけるK(w)の零点集合
☆は「最も深い」特異点
「最も深い」特異点が変わる!
実対数閾値と多重度が変わり,
推定精度も変化する
3.パラメータ制約
パラメータ制約付きモデルの汎化誤差解析
• パラメータ制約付き学習モデルは広く使われている
‒ 非負値行列分解(NMF), 潜在ディリクレ配分(LDA), ……
• パラメータ制約により汎化誤差の挙動がどう変わるかは非自明
‒ 一般論: 制約なし以上の値になる
 次元が落ちる場合も大きくなるのか?
 どの程度大きくなるのか? どんなときは等しいか?
‒ 特に制約を入れる前から特異なモデルについてはわかっていない
34
3.パラメータ制約
パラメータ制約付きモデルの汎化誤差解析
パラメータ制約付きモデルの代表例として行列分解型の次を解析:
• Non-negative matrix factorization (NMF)
‒ Based on our previous works:
https://doi.org/10.1016/j.neucom.2017.04.068 [3]
https://doi.org/10.1109/ssci.2017.8280811 [4]
https://doi.org/10.1016/j.neunet.2020.03.009 [6]
• Latent Dirichlet allocation (LDA)
‒ Based on our previous/going work:
https://doi.org/10.1007/s42979-020-0071-3 [5]
https://arxiv.org/abs/2008.01304 [7]
35
目次
1. 統計的学習
2. 特異モデルのベイズ汎化誤差解析
3. パラメータ制約
4. 非負値行列分解
5. 潜在ディリクレ配分
6. 結び
36
4.非負値行列分解
NMFは広く使われている
• NMFは,複合データを解析するために様々な分野で使われ
ている機械学習手法である
• 応用例
‒ 購買バスケットデータ → 購買解析
‒ 画像,音声,…… → 信号処理
‒ テキストデータ → テキストマイニング
‒ マイクロアレイデータ → バイオインフォマティクス
↑ 知識・構造の発見
NMF: data → knowledge
38
• NMF は階層構造を持つ統計モデル
• 尤度・事後分布は正規分布で
近似することができない
• 従来の正則学習理論は成立しない
39
AIC BIC
伝統的な統計学:
「正規分布でいつでも近似できる」
4.非負値行列分解
NMFは特異モデル
• NMF は階層構造を持つ統計モデル
• 尤度・事後分布は正規分布で
近似することができない
• 従来の正則学習理論は成立しない
階層構造による パラメータの識別不能性 :
𝑿𝒀 = 𝑿𝑷𝑷−𝟏
𝒀; 𝐟𝐨𝐫 ∃𝑷 ≠ 𝑰; 𝑿, 𝒀, 𝑿𝑷, 𝑷−𝟏
𝒀 ≥ 𝟎
𝟏 𝟑
𝟏 𝟑
𝟏 𝟒
𝟏 𝟏 𝟒
𝟓 𝟏 𝟒
=
1 3
1 3
1 4
2 −3
1 2
𝟐 −𝟑
𝟏 𝟐
−𝟏
𝟏 𝟏 𝟒
𝟓 𝟏 𝟒
=
𝟏
𝟕
5 3
5 3
6 5
𝟏𝟕 𝟓 𝟐𝟎
𝟗 𝟏 𝟒
=
𝟏𝟔 𝟒 𝟏𝟔
𝟏𝟔 𝟒 𝟏𝟔
𝟐𝟏 𝟓 𝟐𝟎
40
AIC BIC
伝統的な統計学:
「正規分布でいつでも近似できる」
4.非負値行列分解
NMFは特異モデル
• NMF は階層構造を持つ統計モデル
• 尤度・事後分布は正規分布で
近似することができない
• 従来の正則学習理論は成立しない
階層構造による パラメータの識別不能性 :
𝑿𝒀 = 𝑿𝑷𝑷−𝟏
𝒀; 𝐟𝐨𝐫 ∃𝑷 ≠ 𝑰; 𝑿, 𝒀, 𝑿𝑷, 𝑷−𝟏
𝒀 ≥ 𝟎
𝟏 𝟑
𝟏 𝟑
𝟏 𝟒
𝟏 𝟏 𝟒
𝟓 𝟏 𝟒
=
1 3
1 3
1 4
2 −3
1 2
𝟐 −𝟑
𝟏 𝟐
−𝟏
𝟏 𝟏 𝟒
𝟓 𝟏 𝟒
=
𝟏
𝟕
5 3
5 3
6 5
𝟏𝟕 𝟓 𝟐𝟎
𝟗 𝟏 𝟒
=
𝟏𝟔 𝟒 𝟏𝟔
𝟏𝟔 𝟒 𝟏𝟔
𝟐𝟏 𝟓 𝟐𝟎
41
AIC BIC
伝統的な統計学:
「正規分布でいつでも近似できる」
4.非負値行列分解
NMFは特異モデル
1つの非負値行列に
対して2つ以上の
分解が存在する
4.非負値行列分解
問題設定
• 統計モデルとしてのNMF: 複数の行列の分解を扱う
‒ データ: 𝑋 𝑛 = 𝑋 1 , … , 𝑋 𝑛 ; 𝑀 × 𝑁 × 𝑛
 各データ行列の(i,j)要素の真の分布 𝑞 𝑋𝑖𝑗 = Poi 𝑋𝑖𝑗| 𝑈0 𝑉0 𝑖𝑗 .
 𝑈0; 𝑀 × 𝐻0, 𝑉0; 𝐻0 × 𝑁
‒ モデルを 𝑝 𝑋𝑖𝑗|𝑈, 𝑉 = Poi 𝑋𝑖𝑗| 𝑈𝑉 𝑖𝑗 とし,
事前分布を 𝜑 𝑈, 𝑉 = Gam 𝑈𝑖𝑘|𝜙 𝑈, 𝜃 𝑈 Gam 𝑉𝑘𝑗|𝜙 𝑉, 𝜃 𝑉 とする.
 𝑈; 𝑀 × 𝐻, 𝑉; 𝐻 × 𝑁
42
n
X
U
V
𝑃 𝑋, 𝑈, 𝑉 = 𝑃 𝑋 𝑈, 𝑉 𝑃 𝑈 𝑃 𝑉
Poi 𝑥|𝑐 =
𝑐 𝑥
𝑒−𝑐
𝑥!
Gam 𝑎|𝜙, 𝜃 =
𝜃 𝜙
Γ 𝜃
𝑎 𝜙
𝑒−𝜃𝑎
[10] Kohjima. 2017.
4.非負値行列分解
問題設定
• 統計モデルとしてのNMF: 複数の行列の分解を扱う
‒ データ: 𝑋 𝑛 = 𝑋 1 , … , 𝑋 𝑛 ; 𝑀 × 𝑁 × 𝑛
 各データ行列の(i,j)要素の真の分布 𝑞 𝑋𝑖𝑗 = Poi 𝑋𝑖𝑗| 𝑈0 𝑉0 𝑖𝑗 .
 𝑈0; 𝑀 × 𝐻0, 𝑉0; 𝐻0 × 𝑁
‒ モデルを 𝑝 𝑋𝑖𝑗|𝑈, 𝑉 = Poi 𝑋𝑖𝑗| 𝑈𝑉 𝑖𝑗 とし,
事前分布を 𝜑 𝑈, 𝑉 = Gam 𝑈𝑖𝑘|𝜙 𝑈, 𝜃 𝑈 Gam 𝑉𝑘𝑗|𝜙 𝑉, 𝜃 𝑉 とする.
 𝑈; 𝑀 × 𝐻, 𝑉; 𝐻 × 𝑁
43
n
X
U
V
𝑃 𝑋, 𝑈, 𝑉 = 𝑃 𝑋 𝑈, 𝑉 𝑃 𝑈 𝑃 𝑉
Poi 𝑥|𝑐 =
𝑐 𝑥
𝑒−𝑐
𝑥!
Gam 𝑎|𝜙, 𝜃 =
𝜃 𝜙
Γ 𝜃
𝑎 𝜙
𝑒−𝜃𝑎
n
X
A
B
n
X
A
B
行列 X を積UV に分解する通常の
NMFを確率モデル化.
𝑿
𝑵 𝑯 𝑵
𝑴
𝑼 𝑽𝑯
[14] Kohjima. 2016
複数の行列の分解が必要な例:
・購買解析
・交通流解析
[10] Kohjima. 2017.
4.非負値行列分解
NMFの実対数閾値
• NMFの実対数閾値 𝝀 は以下の不等式を満たす:
𝝀 ≤
𝟏
𝟐
𝑯 − 𝑯 𝟎 𝐦𝐢𝐧 𝑴𝝓 𝑼, 𝑵𝝓 𝑽 + 𝑯 𝟎 𝑴 + 𝑵 − 𝟏 .
等号は 𝑯 = 𝑯 𝟎 = 𝟏 or 𝑯 𝟎 = 𝟎 のとき成立する.
‒ 𝐻0 = 0のときは制約なし行列分解より大きなλとなる.
• 𝝓 𝑼 = 𝝓 𝑽 = 𝟏のとき更にタイトなバウンドが
成立する.
44
[4] H. and Watanabe. 2017.
[3] H. and Watanabe. 2017.
[6] H. 2020.
4.非負値行列分解
NMFの実対数閾値
• NMFの実対数閾値 𝝀 は以下の不等式を満たす:
𝝀 ≤
𝟏
𝟐
𝑯 − 𝑯 𝟎 𝐦𝐢𝐧 𝑴𝝓 𝑼, 𝑵𝝓 𝑽 + 𝑯 𝟎 𝑴 + 𝑵 − 𝟏 .
等号は 𝑯 = 𝑯 𝟎 = 𝟏 or 𝑯 𝟎 = 𝟎 のとき成立する.
‒ 𝐻0 = 0のときは制約なし行列分解より大きなλとなる.
• 𝝓 𝑼 = 𝝓 𝑽 = 𝟏のとき更にタイトなバウンドが
成立する.
• 主結果と先行研究を合わせるとNMFの
変分近似誤差の下界も得られ,相転移の
違いも確認できる(右図).
45
[6] H. 2020.
[4] H. and Watanabe. 2017.
[3] H. and Watanabe. 2017.
[6] H. 2020.
https://arxiv.org/abs/1809.02963
[10] Kohjima. 2017.
目次
1. 統計的学習
2. 特異モデルのベイズ汎化誤差解析
3. パラメータ制約
4. 非負値行列分解
5. 潜在ディリクレ配分
6. 結び
46
5.潜在ディリクレ配分
LDAとは
• LDAの典型例: テキストマイニング
‒ LDAの対象: bag of words
‒ トピック: 各文書が持つ潜在的な単語「生成源」
47
MATH
NAME
…
Riemann,
Lebesgue,
Atiyah,
Hironaka,
… integral,
measure,
distribution,
singularity,
…
document
topic
word
word
5.潜在ディリクレ配分
LDAとは
• 文書 𝑧 𝑛 と単語 𝑥 𝑛 : 観測変数
• トピック 𝑦 𝑛 : 潜在変数
• 文書→単語の出現確率を推定するモデル
48
n
xyz
𝑥 𝑛
∼ 𝑞 𝑥 𝑧
𝑝 𝑥, 𝑦 𝑧, 𝑤
estimate
MATH
NAME
…
Riemann,
Lebesgue,
Atiyah,
Hironaka,
… integral,
measure,
distribution,
singularity,
…
document
topic
word
word
5.潜在ディリクレ配分
LDAとは
49
FOOD
Alice
sushi
NAME
MATH
Riemann
integral
NAME
・
・
・
・
・
・
FOOD pudding
・
・
・
NAME Lebesgue
LDAによるデータ(単語)の生成過程モデリング
Document 1
Document N
[5] H. and Watanabe. 2020.
5.潜在ディリクレ配分
LDAとは
50
FOOD
Alice
sushi
NAME
MATH
Riemann
integral
NAME
・
・
・
・
・
・
FOOD pudding
・
・
・
NAME Lebesgue
LDAによるデータ(単語)の生成過程モデリング
Document 1
Document N
文書jのトピック比率 𝑏𝑗 = 𝑏1𝑗, … , 𝑏 𝐻𝑗
トピックkの単語比率 𝑎 𝑘 = 𝑎1𝑘, … , 𝑎 𝑀𝑘
[5] H. and Watanabe. 2020.
5.潜在ディリクレ配分
LDAとは
• LDAの学習モデル:
𝑝 𝑥|𝑧, 𝑦, 𝐴, 𝐵 ≔
𝑗
𝑁
𝑘
𝐻
𝑏 𝑘𝑗Cat 𝑥 𝑎 𝑘
𝑦 𝑘
𝑧 𝑗
‒ 文書 𝑧, トピック 𝑦, 単語 𝑥,: それぞれ N,H,M 次元の onehot ベクトル.
‒ パラメータ 𝐴; 𝑀 × 𝐻, 𝐵; 𝐻 × 𝑁: 確率行列
𝑘 𝑎𝑖𝑘 = 1, 𝑗 𝑏 𝑘𝑗 = 1.
‒ 事前分布: 𝜑 𝐴, 𝐵 = 𝑘 Dir 𝑎 𝑘|𝜙 𝐴 𝑗 Dir 𝑏 𝑘|𝜙 𝐵 .
‒ トピックを周辺化すると, 𝑝 𝑥 𝑧, 𝐴, 𝐵 = 𝑘 𝑗
𝑁
𝑏 𝑘𝑗Cat 𝑥 𝑎 𝑘
𝑧 𝑗
.
51
0.3 0.1 0.5
0.3 0.1 0.1
0.4 0.8 0.4
確率行列の例
𝑃 𝑋, 𝑌, 𝐴, 𝐵|𝑍 = 𝑃 𝑋, 𝑌 𝑍, 𝐴, 𝐵 𝑃 𝐴 𝑃 𝐵 ; Dir 𝑐|𝜙 =
Γ 𝑘
𝐻
𝜙 𝑘
𝑘
𝐻
𝜙 𝑘
𝑘
𝐻
𝑐 𝑘
𝜙 𝑘−1
, 𝑘 𝑐 𝑘 = 1.
5.潜在ディリクレ配分
LDAも広く使われており,特異モデル
• LDAはテキストマイニング以外にも様々な領域で役に立つ
• 応用例:
‒ 画像データ→画像解析
‒ 市場データ→マーケットリサーチ
‒ 地層データ→地球科学
• NMF同様に特異モデル
‒ ある種の行列分解とみなせる(後述)
52
5.潜在ディリクレ配分
問題設定
• LDAの学習モデル:
𝑝 𝑥|𝑧, 𝑦, 𝐴, 𝐵 ≔ 𝑗
𝑁
𝑘
𝐻
𝑏 𝑘𝑗Cat 𝑥 𝑎 𝑘
𝑦 𝑘 𝑧 𝑗
.
• 真の分布:
𝑞 𝑥 𝑧 ≔ 𝑝 𝑥|𝑧, 𝐴0, 𝐵0 , トピック数はH0 (≦H).
• 事前分布:
𝐾 𝐴, 𝐵 ≔ KL 𝑞‖𝑝 の零点上で正かつ有界な分布.
53
5.潜在ディリクレ配分
確率行列分解(SMF)
• NMFにおいて非負値行列を確率行列に置き換えてみる.
‒ 各列が単体上にあるという制約→非負値制約より強い
• 置き換えた場合のモデルを確率行列分解(SMF)という.
54
5.潜在ディリクレ配分
確率行列分解(SMF)
• NMFにおいて非負値行列を確率行列に置き換えてみる.
‒ 各列が単体上にあるという制約→非負値制約より強い
• 置き換えた場合のモデルを確率行列分解(SMF)という.
• LDAとSMFは同じ実対数閾値を持つことが証明できる.
‒ LDAのKL情報量: 𝐾 𝑤 = 𝑧 𝑥 𝑞 𝑥 𝑧 𝑞 𝑧 log
𝑞 𝑥 𝑧
𝑝 𝑥 𝑧, 𝐴, 𝐵
‒ SMFの二乗誤差: 𝐻 𝑤 = 𝐴𝐵 − 𝐴 𝑜 𝐵𝑜
2
‒ ある定数𝑐1, 𝑐2に対して 𝑐1 𝐻 𝑤 ≤ 𝐾 𝑤 ≤ 𝑐2 𝐻 𝑤 の成立を証明できる.
55
[5] H. and Watanabe. 2020.
5.潜在ディリクレ配分
確率行列分解(SMF)
• NMFにおいて非負値行列を確率行列に置き換えてみる.
‒ 各列が単体上にあるという制約→非負値制約より強い
• 置き換えた場合のモデルを確率行列分解(SMF)という.
• LDAとSMFは同じ実対数閾値を持つことが証明できる.
‒ LDAのKL情報量: 𝐾 𝑤 = 𝑧 𝑥 𝑞 𝑥 𝑧 𝑞 𝑧 log
𝑞 𝑥 𝑧
𝑝 𝑥 𝑧, 𝐴, 𝐵
‒ SMFの二乗誤差: 𝐻 𝑤 = 𝐴𝐵 − 𝐴 𝑜 𝐵𝑜
2
‒ ある定数𝑐1, 𝑐2に対して 𝑐1 𝐻 𝑤 ≤ 𝐾 𝑤 ≤ 𝑐2 𝐻 𝑤 の成立を証明できる.
56
SMFの実対数閾値を求めればよい!
[5] H. and Watanabe. 2020.
5.潜在ディリクレ配分
LDA~SMFの実対数閾値
【本研究の主結果】
LDAの実対数閾値𝜆を明らかにした:
(1) ①N+H0≦M+H & ②M+H0≦N+H & ③H+H0≦M+Nのとき,
57
𝜆 =
1
8
2 𝐻 + 𝐻0 𝑀 + 𝑁 − 𝑀 − 𝑁 2
− 𝐻 + 𝐻0
2
− 𝛿,
𝛿 =
𝑁
2
, 𝑀 + 𝑁 + 𝐻 + 𝐻0: 偶数.
𝑁
2
−
1
8
, 𝑀 + 𝑁 + 𝐻 + 𝐻0: 奇数.
Thm. 3.1. in https://arxiv.org/abs/2008.01304
[7] H. 2020.
5.潜在ディリクレ配分
LDA~SMFの実対数閾値
【本研究の主結果】
LDAの実対数閾値𝜆を明らかにした:
(2) not ①, i.e. M+H<N+H0のとき,
58
𝜆 =
1
2
𝑀𝐻 + 𝑁𝐻0 − 𝐻𝐻0 − 𝑁 .
Thm. 3.1. in https://arxiv.org/abs/2008.01304
[7] H. 2020.
5.潜在ディリクレ配分
LDA~SMFの実対数閾値
【本研究の主結果】
LDAの実対数閾値𝜆を明らかにした:
(3) not ②, i.e. N+H<M+H0のとき,
59
𝜆 =
1
2
𝑁𝐻 + 𝑀𝐻0 − 𝐻𝐻0 − 𝑁 .
Thm. 3.1. in https://arxiv.org/abs/2008.01304
[7] H. 2020.
5.潜在ディリクレ配分
LDA~SMFの実対数閾値
【本研究の主結果】
LDAの実対数閾値𝜆を明らかにした:
(4) not ③, i.e. M+N<H+H0のとき,
多重度は(1)の奇数ケースで 𝑚 = 2,それ以外で 𝑚 = 1.
60
𝜆 =
1
2
𝑀𝑁 − 𝑁 .
Thm. 3.1. in https://arxiv.org/abs/2008.01304
[7] H. 2020.
5.潜在ディリクレ配分
LDA~SMFの実対数閾値
• 真を固定してトピック数を増やすとどうなるか?
61
実対数閾値lim
𝑛→∞
𝑛𝔼𝐺𝑛
正則モデルと大きく異なる挙動
• パラメータ次元/2(黄◆):
線型に増加して非有界
• LDAの実対数閾値(青●):
非線形かつ上に有界
𝑑
2
=
𝑀 − 1 𝐻 + 𝐻 − 1 𝑁
2
.
𝑑
2
𝜆
[7] H. 2020.
5.潜在ディリクレ配分
LDA~SMFの実対数閾値
• LDAの実対数閾値=SMFの実対数閾値
• 行列分解との関係
‒ LDAと行列分解の実対数閾値を𝜆 𝐿𝐷𝐴, 𝜆 𝑀𝐹とすると,
𝜆 𝐿𝐷𝐴 𝑀, 𝑁, 𝐻, 𝐻0
= 𝜆 𝑀𝐹 𝑀 − 1, 𝑁 − 1, 𝐻 − 1, 𝐻0 − 1 +
𝑀 − 1
2
… (1)
= 𝜆 𝑀𝐹 𝑀, 𝑁, 𝐻, 𝐻0 −
𝑁
2
… (2)
‒ (1): 主定理の証明は(1)の証明を介する.
‒ (2): (1)と𝜆 𝑀𝐹[1]から計算して導出する.
• LDAの自由度から自明に得られる式ではない
→単体制約がパラメータ空間を変え汎化誤差に影響
62
目次
1. 統計的学習
2. 特異モデルのベイズ汎化誤差解析
3. パラメータ制約
4. 非負値行列分解
5. 潜在ディリクレ配分
6. 結び
63
6.結び
• 特異学習理論:
‒ 事後分布が正規分布で近似できなくても汎化誤差を明らかにできる
‒ 学習モデルの固有次元=代数多様体の体積次元
• パラメータ制約:
‒ モデルのパラメータに制約を加えてモデリング
‒ 推定制度への制約による影響は非自明
• パラメータ制約下の特異学習理論
‒ 非負値行列分解: 境界上で非負値制約の影響大,相転移,変分近似誤差
‒ 潜在ディリクレ配分=単体制約付き行列分解: 実対数閾値の厳密値
64
References
[1] Aoyagi, M & Watanabe, S. Stochastic complexities of reduced rank regression in Bayesian estimation. Neural Netw.
2005;18(7):924–33.
[2] Drton, M & Plummer, M. A Bayesian information criterion for singular models. J R Stat Soc B. 2017;79:323–80 with discussion.
[3] H, N & Watanabe, S. Upper bound of Bayesian generalization error in non-negative matrix factorization. Neurocomputing.
2017;266C(29 November):21–8.
[4] H, N & Watanabe, S. Tighter upper bound of real log canonical threshold of non-negative matrix factorization and its application to
Bayesian inference. In IEEE symposium series on computational intelligence (IEEE SSCI). (2017). (pp. 718–725).
[5] H, N & Watanabe, S. Asymptotic Bayesian generalization error in latent Dirichlet allocation. SN Computer Science. 2020;1(69):1-22.
[6] H, N. Variational approximation error in non-negative matrix factorization. Neural Netw. 2020;126(June):65-75.
[7] H, N. The exact asymptotic form of Bayesian generalization error in latent Dirichlet allocation. https://arxiv.org/abs/2008.01304
[8] Imai, T. Estimating real log canonical threshold. https://arxiv.org/abs/1906.01341
[9] Kohjima M, Matsubayashi T, Sawada H. Multiple data analysis and non-negative matrix/tensor factorization [I]: multiple data
analysis and its advances. IEICE Transaction. 2016:99(6);543-550. In Japanese.
[10] Kohjima M., & Watanabe S. (2017). Phase transition structure of variational bayesian nonnegative matrix factorization. In
International conference on artificial neural networks (ICANN) (2017). (pp. 146–154).
[11] Nagata K, Watanabe S. Asymptotic behavior of exchange ratio in exchange monte carlo method. Neural Netw. 2008;21(7):980–8.
[12] Nakada, R & Imaizumi, M. Adaptive approximation and generalization of deep neural network with Intrinsic dimensionality. JMLR.
2020;21(174):1-38.
[13] Watanabe, S. Algebraic geometrical methods for hierarchical learning machines. Neural Netw. 2001;13(4):1049–60.
[14] Watanabe, S. Mathematical theory of Bayesian statistics. Florida: CR Press. 2018.
[15] Yamazaki, K & Watanabe, S. Singularities in mixture models and upper bounds of stochastic complexity. Neural Netw.
2003;16(7):1029–38.
[16] Zwiernik P. An asymptotic behaviour of the marginal likelihood for general Markov models. J Mach Learn Res.
2011;12(Nov):3283–310.
65
音声ソフトと利益相反(CoI)
【音声ソフト】
• 『VOICEROID2 琴葉 茜・葵』(株式会社AHS)
【CoI】
• 本発表は著者個人の研究活動に依る.
• 所属組織における業務は一切関係ない.
66

More Related Content

What's hot

Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデルKei Nakagawa
 
強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)HarukaKiyohara
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
深層学習と確率プログラミングを融合したEdwardについて
深層学習と確率プログラミングを融合したEdwardについて深層学習と確率プログラミングを融合したEdwardについて
深層学習と確率プログラミングを融合したEdwardについてryosuke-kojima
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019Deep Learning JP
 
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient DescentDeep Learning JP
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題joisino
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−Deep Learning JP
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱Ichigaku Takigawa
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 

What's hot (20)

Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
深層学習と確率プログラミングを融合したEdwardについて
深層学習と確率プログラミングを融合したEdwardについて深層学習と確率プログラミングを融合したEdwardについて
深層学習と確率プログラミングを融合したEdwardについて
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
 
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 

Similar to 【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】

【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】Naoki Hayashi
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」Naoki Hayashi
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCAAkisato Kimura
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章Masanori Takano
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化Shunsuke Ono
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalKCS Keio Computer Society
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析Akisato Kimura
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17horihorio
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)Akisato Kimura
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRMLKatsuya Ito
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析Kunihiro Hisatsune
 

Similar to 【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】 (20)

【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
 
Jokyokai
JokyokaiJokyokai
Jokyokai
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity natural
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
 

More from Naoki Hayashi

【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論Naoki Hayashi
 
Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...
Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...
Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...Naoki Hayashi
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldNaoki Hayashi
 
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.Naoki Hayashi
 
IEEESSCI2017-FOCI4-1039
IEEESSCI2017-FOCI4-1039IEEESSCI2017-FOCI4-1039
IEEESSCI2017-FOCI4-1039Naoki Hayashi
 
すずかけはいいぞ
すずかけはいいぞすずかけはいいぞ
すずかけはいいぞNaoki Hayashi
 
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)Naoki Hayashi
 
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)RPG世界の形状及び距離の幾何学的考察(rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)Naoki Hayashi
 
Rogyゼミ7thスライドpublic
Rogyゼミ7thスライドpublicRogyゼミ7thスライドpublic
Rogyゼミ7thスライドpublicNaoki Hayashi
 
Rogyゼミスライド6th
Rogyゼミスライド6thRogyゼミスライド6th
Rogyゼミスライド6thNaoki Hayashi
 
Rogy目覚まし(仮)+おまけ
Rogy目覚まし(仮)+おまけRogy目覚まし(仮)+おまけ
Rogy目覚まし(仮)+おまけNaoki Hayashi
 
ぼくのつくったこうだいさいてんじぶつ
ぼくのつくったこうだいさいてんじぶつぼくのつくったこうだいさいてんじぶつ
ぼくのつくったこうだいさいてんじぶつNaoki Hayashi
 
情報統計力学のすすめ
情報統計力学のすすめ情報統計力学のすすめ
情報統計力学のすすめNaoki Hayashi
 

More from Naoki Hayashi (19)

【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
 
Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...
Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...
Bayesian Generalization Error and Real Log Canonical Threshold in Non-negativ...
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
 
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
諸君,じゃんけんに負けたからといって落ち込むことはない.長津田にも飯はある.
 
201803NC
201803NC201803NC
201803NC
 
201703NC
201703NC201703NC
201703NC
 
IEEESSCI2017-FOCI4-1039
IEEESSCI2017-FOCI4-1039IEEESSCI2017-FOCI4-1039
IEEESSCI2017-FOCI4-1039
 
201709ibisml
201709ibisml201709ibisml
201709ibisml
 
すずかけはいいぞ
すずかけはいいぞすずかけはいいぞ
すずかけはいいぞ
 
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
RPG世界の形状及び距離の幾何学的考察(#rogyconf61)
 
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)RPG世界の形状及び距離の幾何学的考察(rogyconf61)
RPG世界の形状及び距離の幾何学的考察(rogyconf61)
 
Rogyゼミ7thスライドpublic
Rogyゼミ7thスライドpublicRogyゼミ7thスライドpublic
Rogyゼミ7thスライドpublic
 
Rogyゼミスライド6th
Rogyゼミスライド6thRogyゼミスライド6th
Rogyゼミスライド6th
 
Rogy目覚まし(仮)+おまけ
Rogy目覚まし(仮)+おまけRogy目覚まし(仮)+おまけ
Rogy目覚まし(仮)+おまけ
 
ぼくのつくったこうだいさいてんじぶつ
ぼくのつくったこうだいさいてんじぶつぼくのつくったこうだいさいてんじぶつ
ぼくのつくったこうだいさいてんじぶつ
 
情報統計力学のすすめ
情報統計力学のすすめ情報統計力学のすすめ
情報統計力学のすすめ
 
Rogyゼミ2014 10
Rogyゼミ2014 10Rogyゼミ2014 10
Rogyゼミ2014 10
 
Rogyzemi
RogyzemiRogyzemi
Rogyzemi
 

【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】

Editor's Notes

  1. Microarray data, which quantitatively detects DNA or protein corresponding to given them
  2. NMFを使っている人的にこの研究の有用性を問われた場合: NMFを統計モデルと考えると、内部次元の大きさを適切に選択することは有用であり、そのために理論研究を行っている。
  3. NMFを使っている人的にこの研究の有用性を問われた場合: NMFを統計モデルと考えると、内部次元の大きさを適切に選択することは有用であり、そのために理論研究を行っている。
  4. NMFを使っている人的にこの研究の有用性を問われた場合: NMFを統計モデルと考えると、内部次元の大きさを適切に選択することは有用であり、そのために理論研究を行っている。