SlideShare a Scribd company logo
1 of 20
Download to read offline
論論⽂文紹介
Semi-‐‑‒supervised  Learning  
with  Deep  Generative  Models
NIPS2014読み会  @  東⼤大,  2015/01/20
Preferred  Networks,  得居  誠也
@beam2d
l  ラベルありデータが少なくて,それだけでは分離離曲⾯面を決めづらい
l  ラベルなしデータを使って空間を補間して,いい感じに分離離曲⾯面を決めよう
→  半教師あり学習
半教師あり学習  (semi-‐‑‒supervised  learning)
2
猫
⽝犬
ラベルありデータ(少ない) ラベルなしデータ(多い)
従来⼿手法:⼤大きく  4  種類
3
⾃自⼰己教⽰示による学習
•  学習した予測器を使ってラベルなし
データをラベル付けする
•  ⼤大マージンの仮説を⼊入れることもあ
る(Transductive SVM)
グラフベースの⼿手法
•  データの類似度度グラフを作り,ラベ
ルを伝播させる
•  ⼤大概、グラフラプラシアンの固有値
問題に落落ちる
多様体学習による⼿手法
•  予測がデータ多様体に沿ってゆっ
くり変化する制約や正則化を使う
•  データ多様体の推定にラベルなし
データが使える
•  例例:Manifold Tangent Classifier
(MTC), AtlasRBF
⽣生成モデルを⽤用いた⼿手法
•  ⽣生成モデルを学習する
•  単に特徴学習に使うか,ラベルなし
データを不不完全データとして扱う
今⽇日はこれ
この論論⽂文の⼿手法を使うと
MNIST  をラベルありデータ  100  件で誤識識別率率率  3.33%  まで出せる
(ほかにも  SVHN  や  NORB  での実験あり)
4
単純な⽣生成モデル
5
x
z
p(x, z) = p(z)p(x|z)
これをニューラルネットで定義する
深い⽣生成モデル  M1(データが実ベクトルの場合)
6
Neural Net
(パラメータ      )
z N(z; 0, I)
(µ, )
ここは決定的
x N(x|µ, diag 2
)
深い⽣生成モデル  M1(データが⼆二値ベクトルの場合)
7
Neural Net
(パラメータ      )
z N(z; 0, I)
ここは決定的
x Bernoulli(x|µ)
µ
以降降は  Gaussian  の場合のみを考える(Bernoulli  でも同様)
ラベルを⼊入れた⽣生成モデル  M2(Gaussian  の場合)
8
Neural Net
(パラメータ      )
z N(z; 0, I)
(µ, )
y Cat(y| )
x N(x|µ, diag 2
)
推論論モデル:確率率率的な  AutoEncoder
l  有向モデル                                            は          から        を推論論しづらい
l  そこでこの推論論を別の  NN  で表す(この論論⽂文オリジナルではな
い)
9
p(z)p(x|z) x z
p(z)p(x|z) q(x)q(z|x)
z
x
NN(      ) NN(      )
⽣生成モデル   推論論モデル(認識識モデル)
(              は経験分布)q(x)
推論論モデルも  NN  で書く
10
l  M1(⼊入⼒力力データの⽣生成モデル)の場合,
l  M2(ラベルを⽤用いた⽣生成モデル)の場合,
q (z|x) = N(z|µ (x), diag 2
(x)).
NN
NN
q (z|y, x) = N(z|µ (y, x), diag 2
(y, x)),
q (y|x) = Cat(y| (x)).
M1  の⽬目的関数:変分下界(変分  AutoEncoder)
11
log p(x) Eq(z|x)[log p(x|z)] KL[q(z|x) p(z)]
  これを最⼤大化する
(                                                    のとき左辺と⼀一致)q(x, z) = p(x, z)
半教師あり学習に使う場合,                                          を特徴ベクトル
としてこれを使って識識別器を(半)教師あり学習する(例例えば  
TSVM  や  M2)                        
z q(z|x)
AutoEncoder           に関する正則化項z
M2  の⽬目的関数:変分下界+識識別学習
12
ラベルありデータに対しては
ラベルなしデータに対しては
これらとラベルありデータに対する損失を合わせて次の関数を最⼩小化する
log p(x, y) L(x, y) :=
Eq(z|x,y)[log p(x|y, z) + log p(y) + log p(z) log q(z|x, y)]
log p(x) U(x) :=
Eq(y,z|x)[log p(x|y, z) + log p(y) + log p(z) log q(y, z|x)]
(x,y):labeled
L(x, y) +
x:unlabaled
U(x)
(x,y):labeled
log q(y|x)
q(y|x)ここに                            の項が
⼊入ってない
勾配の計算法:SGVB  (SBP)
l  ⽬目的関数を略略記:
l  勾配を計算する上で                                  が厄介
l  これは  Gaussian  に関する期待値なので
と書き直せて、勾配をサンプリングで近似できる:
⽣生成・推論論モデルの変分下界の勾配を求めるこの⽅方法は  Stochastic  
Gradient  Variational  Bayes  や  Stochastic  BackProp  と呼ばれる
(それぞれ  ICLRʼ’14,  ICMLʼ’14  で独⽴立立に提案されたが,基本的には同じ⼿手
法をさす)
13
Eq(z|x,y)
Eq(z|x,y)[f(x, y, z)]
Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[f(x, y, µ(x) + (x) )]
Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[ f(x, y, µ(x) + (x) )]
学習⽅方法:SGVB(SBP)  +  勾配法
l  勾配が計算できたので,あとは確率率率的勾配法に投げれば  OK
l  論論⽂文では  AdaGrad  やモーメンタムつきの  RMSprop  を
使っている,とある
–  3.2  には前者を,4.4  には後者を使ったよと書いてありよくわ
からないが,4.4  の⽅方が詳しく書かれているのでおそらく後
者を使っているのではないかと思う
14
実験:2  種類、⽚片⽅方はその中でさらに  2  種類
l  半教師あり学習  (MNIST,  SVHN,  NORB)
l  条件つきデータ⽣生成:2  通りの実験
–  2  次元の          を使って学習し,ラベル        を固定して様々な          
から                          を⽣生成する  (MNIST)
–  テストデータ        から                を推論論し,それを使って様々なラ
ベル        で                            を再⽣生成する  (MNIST,  SVHN)
15
z zy
x|y, z
y x|y, z
x z|x
実験:半教師あり学習(値はすべて誤識識別率率率  %)
16
ラベルありデータ数
条件つきデータ⽣生成(ラベル固定)
17
2  次元の          にそって描画している.
        は筆跡・書き⽅方の癖  (style)  みたいなものをとらえている
z
z
条件つきデータ⽣生成(ラベルを取り替えて再⽣生成)
18
左端の列列が⼊入⼒力力データ,右の  10  列列が推論論された        と各ラベ
ルから再⽣生成された
z
x|y, z
まとめ・考察
l  ⽣生成・推論論モデルを使って深い⽣生成モデルを学習できる
(これ⾃自体は既存の結果)
l  これが半教師あり学習に素直に応⽤用できて,性能も⾼高い
l  ⽣生成モデルなのでアナロジーのような⾯面⽩白実験ができる
l  DBM  とくらべて推論論が簡単で,半教師ありへの応⽤用もわか
りやすい(分類器が普通の  NN  として得られる)
l  DBM  と違い,尤度度や勾配も不不偏推定できる
l  ⼤大規模データでうまく動くかは気になるところ
19
参考⽂文献
紹介した論論⽂文
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014).
Semi-supervised Learning with Deep Generative Models. In Advances in Neural Information
Processing Systems 27 (pp. 3581–3589).
Stochastic  Gradient  VB(変分  AutoEncoder)  の論論⽂文
Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes.International
Conference on Learning Representations.
Stochastic  BackProp  の論論⽂文
Rezende, D. J., Mohamed, S., & Wierstra, D. (2014).
Stochastic Backpropagation and Approximate Inference in Deep Generative Models. In
Proceedings of the 31st International Conference on Machine Learning (pp. 1278–1286).
20

More Related Content

What's hot

What's hot (20)

【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
ファクター投資と機械学習
ファクター投資と機械学習ファクター投資と機械学習
ファクター投資と機械学習
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 

Viewers also liked

NIPS読み会2013: One-shot learning by inverting a compositional causal process
NIPS読み会2013: One-shot learning by inverting  a compositional causal processNIPS読み会2013: One-shot learning by inverting  a compositional causal process
NIPS読み会2013: One-shot learning by inverting a compositional causal process
nozyh
 
半教師あり学習
半教師あり学習半教師あり学習
半教師あり学習
syou6162
 
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...
Yukino Ikegami
 

Viewers also liked (20)

深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 
NIPS読み会2013: One-shot learning by inverting a compositional causal process
NIPS読み会2013: One-shot learning by inverting  a compositional causal processNIPS読み会2013: One-shot learning by inverting  a compositional causal process
NIPS読み会2013: One-shot learning by inverting a compositional causal process
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
 
半教師あり学習
半教師あり学習半教師あり学習
半教師あり学習
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
Deep parking
Deep parkingDeep parking
Deep parking
 
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...
 
QGISプログラミング入門 2016Osaka編
QGISプログラミング入門 2016Osaka編QGISプログラミング入門 2016Osaka編
QGISプログラミング入門 2016Osaka編
 
Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察
Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察
Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察
 
ニューラルネットワーク入門
ニューラルネットワーク入門ニューラルネットワーク入門
ニューラルネットワーク入門
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
Long Short-term Memory
Long Short-term MemoryLong Short-term Memory
Long Short-term Memory
 
有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25
 
Ml説明資料
Ml説明資料Ml説明資料
Ml説明資料
 
crossnoteの機械学習で文章から作者を判別する
crossnoteの機械学習で文章から作者を判別するcrossnoteの機械学習で文章から作者を判別する
crossnoteの機械学習で文章から作者を判別する
 
crossnoteの機械学習でWikipediaの記事を分類する
crossnoteの機械学習でWikipediaの記事を分類するcrossnoteの機械学習でWikipediaの記事を分類する
crossnoteの機械学習でWikipediaの記事を分類する
 
crossnoteの機械学習でパブリックコメントを分類する
crossnoteの機械学習でパブリックコメントを分類するcrossnoteの機械学習でパブリックコメントを分類する
crossnoteの機械学習でパブリックコメントを分類する
 
機械学習とコンピュータビジョン入門
機械学習とコンピュータビジョン入門機械学習とコンピュータビジョン入門
機械学習とコンピュータビジョン入門
 

Similar to 論文紹介 Semi-supervised Learning with Deep Generative Models

パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
sleipnir002
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knn
sesejun
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
sesejun
 
130323 slide all
130323 slide all130323 slide all
130323 slide all
ikea0064
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013
Shuyo Nakatani
 

Similar to 論文紹介 Semi-supervised Learning with Deep Generative Models (20)

【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
 
数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツ数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツ
 
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative ModelsDL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
 
Machine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEEMachine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEE
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010
 
Contrastive learning 20200607
Contrastive learning 20200607Contrastive learning 20200607
Contrastive learning 20200607
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knn
 
データ解析5 単回帰分析
データ解析5 単回帰分析データ解析5 単回帰分析
データ解析5 単回帰分析
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
 
Deep learning入門
Deep learning入門Deep learning入門
Deep learning入門
 
130323 slide all
130323 slide all130323 slide all
130323 slide all
 
Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会
 
6 Info Theory
6 Info Theory6 Info Theory
6 Info Theory
 
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
GANの基本
GANの基本GANの基本
GANの基本
 

More from Seiya Tokui

More from Seiya Tokui (20)

Chainer/CuPy v5 and Future (Japanese)
Chainer/CuPy v5 and Future (Japanese)Chainer/CuPy v5 and Future (Japanese)
Chainer/CuPy v5 and Future (Japanese)
 
Chainer v3
Chainer v3Chainer v3
Chainer v3
 
Chainer v2 and future dev plan
Chainer v2 and future dev planChainer v2 and future dev plan
Chainer v2 and future dev plan
 
Chainer v2 alpha
Chainer v2 alphaChainer v2 alpha
Chainer v2 alpha
 
Learning stochastic neural networks with Chainer
Learning stochastic neural networks with ChainerLearning stochastic neural networks with Chainer
Learning stochastic neural networks with Chainer
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
 
Chainer Update v1.8.0 -> v1.10.0+
Chainer Update v1.8.0 -> v1.10.0+Chainer Update v1.8.0 -> v1.10.0+
Chainer Update v1.8.0 -> v1.10.0+
 
Differences of Deep Learning Frameworks
Differences of Deep Learning FrameworksDifferences of Deep Learning Frameworks
Differences of Deep Learning Frameworks
 
Overview of Chainer and Its Features
Overview of Chainer and Its FeaturesOverview of Chainer and Its Features
Overview of Chainer and Its Features
 
Chainer Development Plan 2015/12
Chainer Development Plan 2015/12Chainer Development Plan 2015/12
Chainer Development Plan 2015/12
 
Towards Chainer v1.5
Towards Chainer v1.5Towards Chainer v1.5
Towards Chainer v1.5
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
 
論文紹介 Compressing Neural Networks with the Hashing Trick
論文紹介 Compressing Neural Networks with the Hashing Trick論文紹介 Compressing Neural Networks with the Hashing Trick
論文紹介 Compressing Neural Networks with the Hashing Trick
 
深層学習フレームワークChainerの紹介とFPGAへの期待
深層学習フレームワークChainerの紹介とFPGAへの期待深層学習フレームワークChainerの紹介とFPGAへの期待
深層学習フレームワークChainerの紹介とFPGAへの期待
 
Introduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep LearningIntroduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep Learning
 
Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural Networks
 
Deep Learning技術の今
Deep Learning技術の今Deep Learning技術の今
Deep Learning技術の今
 

論文紹介 Semi-supervised Learning with Deep Generative Models