SlideShare a Scribd company logo
1 of 38
Semi-supervised learning
with Ladder Networks
NIPS読み会, 2016/1/20
Preferred Networks, 松元 叡一
@mattya1089
自己紹介
2
 松元 叡一 (@mattya1089)
 Preferred Networksリサーチャー
ロボット Chainer-gogh Chainer-DCGAN
アジェンダ
 半教師あり深層学習の最先端の手法を紹介します
 Deep Generative Models
– Semi-supervised learning with deep generative models (Kingma et al., 2014)
– Improving Semi-Supervised Learning with Auxiliary Deep Generative Models
(Maaloe et al., 2015)
 Virtual Adversarial Training
– Distributional smoothing with virtual adversarial training (Miyato et al., 2015)
 Ladder Networks (これをメインに)
– Semi-supervised learning with Ladder network (Rasmus et al., 2015)
– Deconstructing the ladder network architecture (Mohammad et al., 2016)
半教師あり学習(semi-supervised learning)
4
分離面をどこに引きますか?
半教師あり学習(semi-supervised learning)
5
分離面をどこに引きますか?
(わりとどうしようもない)
半教師あり学習(semi-supervised learning)
6
現実
テストデータたち
半教師あり学習(semi-supervised learning)
7
※青と黄色は50%ずつ存在するとする
ラベル無しデータ(白丸)があったら?
半教師あり学習(semi-supervised learning)
8
※青と黄色は50%ずつ存在するとする
ラベル無しデータ(白丸)があったら?
まあここらへんに引くよね
半教師あり学習(semi-supervised learning)
9
ラベル無しデータ(白丸)があったら?
パーフェクト!
半教師あり学習の問題設定
 x: データ、y: ラベル
 データセットにはラベルがついてないデータもある
 しばしばラベル有りデータ数 << ラベル無しデータ数
– ラベルを付けるのは大変なんだ
10
MNIST dataset
28 x 28 pixelの手書き数字データセット
0~9のどれかを当てるタスク
70000個の(画像, 正解)ペアがあるが、
100個のラベル有りデータ
59900個のラベル無しデータ
10000個のテスト用データ
と分割して半教師学習を行う。
なお、空間構造を使ってはいけない縛りのとき、
Permutation-invariant MNISTという。
半教師あり学習のアイデア
 類似したデータは同じラベルになりやすいとする
– 近傍グラフやクラスタリング
– 次元に呪われる
 きれいな中間表現に飛ばす
– 多様体学習
– 生成モデル
 分離面をデータから遠ざける
– 自己教示(ラベル無しデータに仮ラベルをふる)
– ノイズを入れる
11
半教師あり学習の手法
 Permutation-invariant MNISTのstate-of-the-art
12
100 labels 60000 (all)
Feed-forward NN 25.8% 1.18%
Deep generative model (M1+M2)
(Kingma et al., 2014)
3.33% 0.96%
Virtual adversarial training
(Miyato et al., 2015)
2.12% 0.64%
Ladder network (Original)
(Rasmus et al., 2015)
1.06% 0.61%
Ladder network (AMLP)
(Mohammad et al., 2016)
1.00% 0.57%
Auxiliary deep generative model
(Maaloe et al., 2015)
0.96% -
①
①
②
③
③
今日話す順番 (半教師手法は全教師でもつよい)
半教師あり学習の手法
 Permutation-invariant MNISTのstate-of-the-art
13
100 labels 60000 (all)
Feed-forward NN 25.8% 1.18%
Deep generative model (M1+M2)
(Kingma et al., 2014)
3.33% 0.96%
Virtual adversarial training
(Miyato et al., 2015)
2.12% 0.64%
Ladder network (Original)
(Rasmus et al., 2015)
1.06% 0.61%
Ladder network (AMLP)
(Mohammad et al., 2016)
1.00% 0.57%
Auxiliary deep generative model
(Maaloe et al., 2015)
0.96% -
☆
☆
半教師あり学習の手法 – Deep Generative Models
 Deep Generative Modelのアイデア (VAE, AAEなどなど)
データの分布
本当はもっと高次元で複雑
Inference
Generation
狙った形の分布に押し込める
(画像は二次元正規分布)
まだラベルデータは使ってない
http://www.informatik.uni-
bremen.de/~afabisch/files/tsne/tsne_mnist_all.png arXiv:1511.05644
Deep NN
半教師あり学習の手法 – Deep Generative Models
 Semi-supervised Deep Generative Modelのアイデア
データの分布
本当はもっと高次元で複雑
Inference
Generation
こんな感じの分布を狙っても良い。
ラベルがあるデータは、
どの羽根に行くかもlossに入れる
http://www.informatik.uni-
bremen.de/~afabisch/files/tsne/tsne_mnist_all.png arXiv:1511.05644
Deep NN
0 1
2
3
半教師あり学習の手法 – Deep Generative Models
 Deep Generative Model (M1+M2) (Kingma et al., 2014)
16
Gen.
Inf.
Gen. Inf.
http://approximateinference.org/accepted/MaaloeEtAl2015.pdf
矢印は全部
Deep NN
半教師あり学習の手法 – Deep Generative Models
 Auxiliary Deep Generative Model (ADGM) (Maaloe et al., 2015)
17
NIPS2015のワークショップ論文
100 label MNISTで0.97%のerror (現在最高記録)を主張している…
(まだあまり検証されていない)
http://approximateinference.org/accepted/MaaloeEtAl2015.pdf
半教師あり学習の手法
 Permutation-invariant MNISTのstate-of-the-art
18
100 labels 60000 (all)
Feed-forward NN 25.8% 1.18%
Deep generative model (M1+M2)
(Kingma et al., 2014)
3.33% 0.96%
Virtual adversarial training
(Miyato et al., 2015)
2.12% 0.64%
Ladder network (Original)
(Rasmus et al., 2015)
1.06% 0.61%
Ladder network (AMLP)
(Mohammad et al., 2016)
1.00% 0.57%
Auxiliary deep generative model
(Maaloe et al., 2015)
0.96% -
☆
半教師あり学習の手法 – Virtual Adversarial Training
 Virtual Adversarial Training (Miyato et al., 2015)
19
データ点の側に分離面が来ない
↔ データ点x近辺で f(x) が平ら
↔ f(x) と f(x+ε) の出力が十分近い
εがふつうのノイズだと、ただのdata augmentationだが、
「最も意地悪なε」が、実はback-propagationで求められる!
http://arxiv.org/abs/1507.00677
データがスカスカなところに
線を引くと正解になるような
データセットに強い
ε
半教師あり学習の手法 – Virtual Adversarial Training
 Virtual Adversarial Training (Miyato et al., 2015)
20
既存のNNに
たったこれだけの実装を
加えるだけ。
ハイパーパラメタも3つ
↓
実用上とても使いやすい
実用上とても使いやすい
半教師あり学習のアイデア
 類似したデータは同じラベルになりやすいとする
– 近傍グラフやクラスタリング
– 次元に呪われる
 きれいな中間表現に飛ばす
– 多様体学習
– 生成モデル
 分離面をデータから遠ざける
– 自己教示(ラベル無しデータに仮ラベルをふる)
– ノイズを入れる
21
Generative models
VAT
半教師あり学習の手法
 Permutation-invariant MNISTのstate-of-the-art
22
100 labels 60000 (all)
Feed-forward NN 25.8% 1.18%
Deep generative model (M1+M2)
(Kingma et al., 2014)
3.33% 0.96%
Virtual adversarial training
(Miyato et al., 2015)
2.12% 0.64%
Ladder network (Original)
(Rasmus et al., 2015)
1.06% 0.61%
Ladder network (AMLP)
(Mohammad et al., 2016)
1.00% 0.57%
Auxiliary deep generative model
(Maaloe et al., 2015)
0.96% -
☆
☆
半教師あり学習の手法 – Ladder Network
???
半教師あり学習の手法 – Ladder Network
1. 普通のNN
x
y
x’
y’
xラベル無しデータを使わない
とても過学習する
ラベル無しデータを使わない
Data augmentationの一種となる。
分離面はラベルデータからは遠ざかる
2. 入力にノイズ
t t
100 label: 25.8%
60000 : 1.18%
100 label: 23.0%
60000 : 0.82%
Noise
半教師あり学習の手法 – Ladder Network
3. Decoderをつける
x’
x
x~
y’
t
Encoder
Decoder
Reconstruction loss
Supervised loss
Noise
ラベル無しデータが使えるようになるので、100labelのときに改善が見られる。
通常のDAEとは違い、y (softmaxをとる手前)まで求めてから
Decodeするので、復元に必要な情報はほとんど落ちている。
100 label: 23.0 -> 16.4%
60000 : 0.82 -> 0.82%
・ラベル無しデータで起こること
ノイズ入り画像x’
→これは「3」かな?
→3といえばこんな形だよな
→ノイズ入れる前と比較
半教師あり学習の手法 – Ladder Network
4. Lateral connectionをつける
x’
x
x~
y’
t
Reconstruction loss
Supervised loss
入力の分布が、各クラスごとに中心が異なるガウシアンとかだとこれでOK
(x’が、推定したラベルに対応する中心に向かうようにdenoisingする)
Combination
(精度のデータ無し)
どのクラスかが推定できれば
どっち向きにdenoisingすれば
いいか分かる
半教師あり学習の手法 – Ladder Network
5. 中間層もつなぐ
x’
x
x~
y’
t
Reconstruction loss
Supervised loss
Reconstructionのための手がかりが、ラベルの推定結果だけでなく
途中の層からもやってくる。
Semi-supervisedの成績がこの時点で圧倒的に良くなる。
h1’
h2’
h1~
h2~
100 label: 16.4 -> 1.86%
60000 : 0.82 -> 0.73%
y~
半教師あり学習の手法 – Ladder Network
6. 中間層にもノイズを入れる
x’
x
x~
y’
t
Reconstruction loss
Supervised loss
ノイズに対してロバストな表現に向かうような圧力がかかる。
VATみたいに分離面をデータから遠ざける働きをすると思われる
h1’
h2’
h1~
h2~
100 label: 1.86 -> 1.69%
60000 : 0.73 -> 0.61%
Noise
Noise
Noise
Noise
y~
半教師あり学習の手法 – Ladder Network
7. 中間層にもReconstruction lossを入れる
Ladder Networkの完成!
x’
x
x~
y’
t
Reconstruction loss
Supervised loss
h1’
h2’
h1~
h2~
100 label: 1.69 -> 1.09%
60000 : 0.61 -> 0.61%
Noise
Noise
Noise
Noise
x
x
y
h1
h2
ノイズ無しEncoder
y~
最上位層のDecoderはPriorを
表現するようになる
上の方に行くほど、Lossは小さいweightで重み付けする
Fully-supervisedのときには実は寄与しない
半教師あり学習の手法 – Ladder Network
1. ただのFeed-forward NN
2. 入力にノイズ
3. Decoderで入力のReconstruction
4. Lateral connectionをつける
5. 各層にノイズ
6. 各層にReconstruction loss
100 labels
25.8%
23.0%
16.4%
1.86%
1.69%
1.09%
60000 labels
1.18%
0.82%
0.82%
0.73%
0.61%
0.61%
 (最近まで)最強のNNはこのようにして作られた!
まとめ・考察
 Generative models, VAT, Ladderが現在のdeep unsupervisedの3強
 比較的直感的な前者2つと比べると、Ladderは謎めいている
– Lateral connection、中間層へのノイズ、中間層のReconstruction、具体的にど
ういった働きをしているのか?
– Lateral connectionを持ったGenerative modelsとの対応関係
– MNISTよりももっと複雑なタスクだとどうなるんだろう
 とくに回帰問題にも適用できるのだろうか?
– The proposed model is simple and easy to implement with many existing
feedforward architectures
 パラメタも気を使わないといけない点も多すぎるよ…(´・ω・`)
おしまい
 文献
– Semi-supervised learning with Ladder network (Rasmus et al., 2015)
– Deconstructing the ladder network architecture (Mohammad et al., 2016)
– Semi-supervised learning with deep generative models (Kingma et al., 2014)
– Improving Semi-Supervised Learning with Auxiliary Deep Generative Models
(Maaloe et al., 2015)
– Distributional smoothing with virtual adversarial training (Miyato et al., 2015)
 ソースコード
– https://github.com/mattya/chainer-semi-supervised
– VATとLadder Network (1.4%までしか落ちない…1.1%まではいけるはずなのに)の
Chainer実装です。だれかLadderのどこがおかしいのか教えて…
 以下補足
半教師あり学習の手法 – Ladder Network
 実装上の詳細①:Encoderでノイズを入れるところ
– Batch Normalizationの、平均引いて標準偏差で割った直後に入れる
(そうしないとノイズ耐性がつくように大きなスケールの値を出すように学習される)
半教師あり学習の手法 – Ladder Network
 実装上の詳細②:Lateral connectionをDecoderに入れるところ
– Encoder側の、ノイズを入れた直後の値を、
– Decoder側の、平均引いて標準偏差で割った直後と混ぜる(混ぜ方は後述)
– ちなみにDecoder側にはBNでのscale, shiftは無い
半教師あり学習の手法 – Ladder Network
 実装上の詳細③:混ぜ方
– Encoder側からz~、Decoder側からuが来ている
– 各成分ごとに、小さなニューラルネットで混ぜる(CNNとかとは違って、パラメタは
全部異なる)
 Denoisingなので、基本はz~
iで、uiがその補正量
– ちなみにオリジナル論文は左のやつで、右ので少し精度が上がるらしい
半教師あり学習の手法 – Ladder Network
 実装上の詳細④:Reconstruction Loss
– 何も考えずにcleanなzと、reconstructしたzを比較すると、実はLateralから来たzを
そのままコピーするのが良い解になってしまう
・・・Batch normalizationは、minibatchのサイズの有限性から、ノイズが乗る
EncoderのClean側とNoisy側で、乗るノイズはよく似るはず
これを防ぐために、reconstructionしたzから、clean側のNormalizationに用いたμを引
いて、σで割った値と、clean側のzとを比較する
半教師あり学習の手法 – Ladder Network
 実装上の詳細⑤:さらにこまかいこと
– ラベル付きデータセットは、各クラスのデータが均等に入っているように作る
– Adamで学習。Learning rateはepoch100まで0.002で、150までで0におとす
– 入力データの値域は[0,1]
– ハイパーパラメタたちはひたすらグリッドサーチなどして求めたらしい
– Decoderのtopに入力するのは、softmax後
– LinearにBias項なし
– Clean encoder側にもBackpropする?(たぶんそう)
– Weight decayはいれる?(ないほうがよさそう)

More Related Content

What's hot

Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 ConvolutionsDeep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだYusuke Uchida
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphingDeep Learning JP
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-EncoderDeep Learning JP
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式Hiroshi Nakagawa
 
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...Deep Learning JP
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...Deep Learning JP
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 

What's hot (20)

Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
 
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 

Viewers also liked

論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
NIPS読み会2013: One-shot learning by inverting a compositional causal process
NIPS読み会2013: One-shot learning by inverting  a compositional causal processNIPS読み会2013: One-shot learning by inverting  a compositional causal process
NIPS読み会2013: One-shot learning by inverting a compositional causal processnozyh
 
半教師あり学習
半教師あり学習半教師あり学習
半教師あり学習syou6162
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)Takuma Yagi
 
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)Yusuke Iwasawa
 
ニューラルネットワークの数理
ニューラルネットワークの数理ニューラルネットワークの数理
ニューラルネットワークの数理Task Ohmori
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出Kai Sasaki
 
これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座NVIDIA Japan
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習Masayuki Tanaka
 
Creating AnswerBot with Keras and TensorFlow (TensorBeat)
Creating AnswerBot with Keras and TensorFlow (TensorBeat)Creating AnswerBot with Keras and TensorFlow (TensorBeat)
Creating AnswerBot with Keras and TensorFlow (TensorBeat)Avkash Chauhan
 
Amazon Machine Learning
Amazon Machine LearningAmazon Machine Learning
Amazon Machine LearningYuta Imai
 
20150310 第1回 ディープラーニング勉強会
20150310 第1回 ディープラーニング勉強会20150310 第1回 ディープラーニング勉強会
20150310 第1回 ディープラーニング勉強会哲朗 島田
 
iQONを支えるクローラーの裏側
iQONを支えるクローラーの裏側iQONを支えるクローラーの裏側
iQONを支えるクローラーの裏側Takehiro Shiozaki
 
機械学習とコンピュータビジョン入門
機械学習とコンピュータビジョン入門機械学習とコンピュータビジョン入門
機械学習とコンピュータビジョン入門Kinki University
 
GTC 2017 ディープラーニング最新情報
GTC 2017 ディープラーニング最新情報GTC 2017 ディープラーニング最新情報
GTC 2017 ディープラーニング最新情報NVIDIA Japan
 
Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Taikai Takeda
 
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)Shunta Saito
 

Viewers also liked (20)

論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
NIPS読み会2013: One-shot learning by inverting a compositional causal process
NIPS読み会2013: One-shot learning by inverting  a compositional causal processNIPS読み会2013: One-shot learning by inverting  a compositional causal process
NIPS読み会2013: One-shot learning by inverting a compositional causal process
 
半教師あり学習
半教師あり学習半教師あり学習
半教師あり学習
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
 
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
 
ニューラルネットワークの数理
ニューラルネットワークの数理ニューラルネットワークの数理
ニューラルネットワークの数理
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
 
これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座
 
Maxout networks
Maxout networksMaxout networks
Maxout networks
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
 
Creating AnswerBot with Keras and TensorFlow (TensorBeat)
Creating AnswerBot with Keras and TensorFlow (TensorBeat)Creating AnswerBot with Keras and TensorFlow (TensorBeat)
Creating AnswerBot with Keras and TensorFlow (TensorBeat)
 
Amazon Machine Learning
Amazon Machine LearningAmazon Machine Learning
Amazon Machine Learning
 
20150310 第1回 ディープラーニング勉強会
20150310 第1回 ディープラーニング勉強会20150310 第1回 ディープラーニング勉強会
20150310 第1回 ディープラーニング勉強会
 
iQONを支えるクローラーの裏側
iQONを支えるクローラーの裏側iQONを支えるクローラーの裏側
iQONを支えるクローラーの裏側
 
機械学習とコンピュータビジョン入門
機械学習とコンピュータビジョン入門機械学習とコンピュータビジョン入門
機械学習とコンピュータビジョン入門
 
GTC 2017 ディープラーニング最新情報
GTC 2017 ディープラーニング最新情報GTC 2017 ディープラーニング最新情報
GTC 2017 ディープラーニング最新情報
 
Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会
 
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
 

Similar to NIPS2015読み会: Ladder Networks

Getting Started with Deep Learning using Scala
Getting Started with Deep Learning using ScalaGetting Started with Deep Learning using Scala
Getting Started with Deep Learning using ScalaTaisuke Oe
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?cvpaper. challenge
 
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII
 
Generative Deep Learning #01
Generative Deep Learning #01Generative Deep Learning #01
Generative Deep Learning #01逸人 米田
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Toru Fujino
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
Introduction to fuzzy kmeans on mahout
Introduction to fuzzy kmeans on mahoutIntroduction to fuzzy kmeans on mahout
Introduction to fuzzy kmeans on mahouttakaya imai
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
[DL輪読会]Learning by Association - A versatile semi-supervised training method ...
[DL輪読会]Learning by Association - A versatile semi-supervised training method ...[DL輪読会]Learning by Association - A versatile semi-supervised training method ...
[DL輪読会]Learning by Association - A versatile semi-supervised training method ...Deep Learning JP
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
Generative adversarial nets
Generative adversarial netsGenerative adversarial nets
Generative adversarial netsKeisuke Hosaka
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用Kazuki Fujikawa
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 

Similar to NIPS2015読み会: Ladder Networks (20)

MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019
 
Getting Started with Deep Learning using Scala
Getting Started with Deep Learning using ScalaGetting Started with Deep Learning using Scala
Getting Started with Deep Learning using Scala
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?
 
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
 
Generative Deep Learning #01
Generative Deep Learning #01Generative Deep Learning #01
Generative Deep Learning #01
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015
 
Introduction to fuzzy kmeans on mahout
Introduction to fuzzy kmeans on mahoutIntroduction to fuzzy kmeans on mahout
Introduction to fuzzy kmeans on mahout
 
Deeplearning lt.pdf
Deeplearning lt.pdfDeeplearning lt.pdf
Deeplearning lt.pdf
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
深層学習①
深層学習①深層学習①
深層学習①
 
[DL輪読会]Learning by Association - A versatile semi-supervised training method ...
[DL輪読会]Learning by Association - A versatile semi-supervised training method ...[DL輪読会]Learning by Association - A versatile semi-supervised training method ...
[DL輪読会]Learning by Association - A versatile semi-supervised training method ...
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
Generative adversarial nets
Generative adversarial netsGenerative adversarial nets
Generative adversarial nets
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
 
CVPR 2016 まとめ v1
CVPR 2016 まとめ v1CVPR 2016 まとめ v1
CVPR 2016 まとめ v1
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 

NIPS2015読み会: Ladder Networks

  • 1. Semi-supervised learning with Ladder Networks NIPS読み会, 2016/1/20 Preferred Networks, 松元 叡一 @mattya1089
  • 2. 自己紹介 2  松元 叡一 (@mattya1089)  Preferred Networksリサーチャー ロボット Chainer-gogh Chainer-DCGAN
  • 3. アジェンダ  半教師あり深層学習の最先端の手法を紹介します  Deep Generative Models – Semi-supervised learning with deep generative models (Kingma et al., 2014) – Improving Semi-Supervised Learning with Auxiliary Deep Generative Models (Maaloe et al., 2015)  Virtual Adversarial Training – Distributional smoothing with virtual adversarial training (Miyato et al., 2015)  Ladder Networks (これをメインに) – Semi-supervised learning with Ladder network (Rasmus et al., 2015) – Deconstructing the ladder network architecture (Mohammad et al., 2016)
  • 10. 半教師あり学習の問題設定  x: データ、y: ラベル  データセットにはラベルがついてないデータもある  しばしばラベル有りデータ数 << ラベル無しデータ数 – ラベルを付けるのは大変なんだ 10 MNIST dataset 28 x 28 pixelの手書き数字データセット 0~9のどれかを当てるタスク 70000個の(画像, 正解)ペアがあるが、 100個のラベル有りデータ 59900個のラベル無しデータ 10000個のテスト用データ と分割して半教師学習を行う。 なお、空間構造を使ってはいけない縛りのとき、 Permutation-invariant MNISTという。
  • 11. 半教師あり学習のアイデア  類似したデータは同じラベルになりやすいとする – 近傍グラフやクラスタリング – 次元に呪われる  きれいな中間表現に飛ばす – 多様体学習 – 生成モデル  分離面をデータから遠ざける – 自己教示(ラベル無しデータに仮ラベルをふる) – ノイズを入れる 11
  • 12. 半教師あり学習の手法  Permutation-invariant MNISTのstate-of-the-art 12 100 labels 60000 (all) Feed-forward NN 25.8% 1.18% Deep generative model (M1+M2) (Kingma et al., 2014) 3.33% 0.96% Virtual adversarial training (Miyato et al., 2015) 2.12% 0.64% Ladder network (Original) (Rasmus et al., 2015) 1.06% 0.61% Ladder network (AMLP) (Mohammad et al., 2016) 1.00% 0.57% Auxiliary deep generative model (Maaloe et al., 2015) 0.96% - ① ① ② ③ ③ 今日話す順番 (半教師手法は全教師でもつよい)
  • 13. 半教師あり学習の手法  Permutation-invariant MNISTのstate-of-the-art 13 100 labels 60000 (all) Feed-forward NN 25.8% 1.18% Deep generative model (M1+M2) (Kingma et al., 2014) 3.33% 0.96% Virtual adversarial training (Miyato et al., 2015) 2.12% 0.64% Ladder network (Original) (Rasmus et al., 2015) 1.06% 0.61% Ladder network (AMLP) (Mohammad et al., 2016) 1.00% 0.57% Auxiliary deep generative model (Maaloe et al., 2015) 0.96% - ☆ ☆
  • 14. 半教師あり学習の手法 – Deep Generative Models  Deep Generative Modelのアイデア (VAE, AAEなどなど) データの分布 本当はもっと高次元で複雑 Inference Generation 狙った形の分布に押し込める (画像は二次元正規分布) まだラベルデータは使ってない http://www.informatik.uni- bremen.de/~afabisch/files/tsne/tsne_mnist_all.png arXiv:1511.05644 Deep NN
  • 15. 半教師あり学習の手法 – Deep Generative Models  Semi-supervised Deep Generative Modelのアイデア データの分布 本当はもっと高次元で複雑 Inference Generation こんな感じの分布を狙っても良い。 ラベルがあるデータは、 どの羽根に行くかもlossに入れる http://www.informatik.uni- bremen.de/~afabisch/files/tsne/tsne_mnist_all.png arXiv:1511.05644 Deep NN 0 1 2 3
  • 16. 半教師あり学習の手法 – Deep Generative Models  Deep Generative Model (M1+M2) (Kingma et al., 2014) 16 Gen. Inf. Gen. Inf. http://approximateinference.org/accepted/MaaloeEtAl2015.pdf 矢印は全部 Deep NN
  • 17. 半教師あり学習の手法 – Deep Generative Models  Auxiliary Deep Generative Model (ADGM) (Maaloe et al., 2015) 17 NIPS2015のワークショップ論文 100 label MNISTで0.97%のerror (現在最高記録)を主張している… (まだあまり検証されていない) http://approximateinference.org/accepted/MaaloeEtAl2015.pdf
  • 18. 半教師あり学習の手法  Permutation-invariant MNISTのstate-of-the-art 18 100 labels 60000 (all) Feed-forward NN 25.8% 1.18% Deep generative model (M1+M2) (Kingma et al., 2014) 3.33% 0.96% Virtual adversarial training (Miyato et al., 2015) 2.12% 0.64% Ladder network (Original) (Rasmus et al., 2015) 1.06% 0.61% Ladder network (AMLP) (Mohammad et al., 2016) 1.00% 0.57% Auxiliary deep generative model (Maaloe et al., 2015) 0.96% - ☆
  • 19. 半教師あり学習の手法 – Virtual Adversarial Training  Virtual Adversarial Training (Miyato et al., 2015) 19 データ点の側に分離面が来ない ↔ データ点x近辺で f(x) が平ら ↔ f(x) と f(x+ε) の出力が十分近い εがふつうのノイズだと、ただのdata augmentationだが、 「最も意地悪なε」が、実はback-propagationで求められる! http://arxiv.org/abs/1507.00677 データがスカスカなところに 線を引くと正解になるような データセットに強い ε
  • 20. 半教師あり学習の手法 – Virtual Adversarial Training  Virtual Adversarial Training (Miyato et al., 2015) 20 既存のNNに たったこれだけの実装を 加えるだけ。 ハイパーパラメタも3つ ↓ 実用上とても使いやすい 実用上とても使いやすい
  • 21. 半教師あり学習のアイデア  類似したデータは同じラベルになりやすいとする – 近傍グラフやクラスタリング – 次元に呪われる  きれいな中間表現に飛ばす – 多様体学習 – 生成モデル  分離面をデータから遠ざける – 自己教示(ラベル無しデータに仮ラベルをふる) – ノイズを入れる 21 Generative models VAT
  • 22. 半教師あり学習の手法  Permutation-invariant MNISTのstate-of-the-art 22 100 labels 60000 (all) Feed-forward NN 25.8% 1.18% Deep generative model (M1+M2) (Kingma et al., 2014) 3.33% 0.96% Virtual adversarial training (Miyato et al., 2015) 2.12% 0.64% Ladder network (Original) (Rasmus et al., 2015) 1.06% 0.61% Ladder network (AMLP) (Mohammad et al., 2016) 1.00% 0.57% Auxiliary deep generative model (Maaloe et al., 2015) 0.96% - ☆ ☆
  • 24. 半教師あり学習の手法 – Ladder Network 1. 普通のNN x y x’ y’ xラベル無しデータを使わない とても過学習する ラベル無しデータを使わない Data augmentationの一種となる。 分離面はラベルデータからは遠ざかる 2. 入力にノイズ t t 100 label: 25.8% 60000 : 1.18% 100 label: 23.0% 60000 : 0.82% Noise
  • 25. 半教師あり学習の手法 – Ladder Network 3. Decoderをつける x’ x x~ y’ t Encoder Decoder Reconstruction loss Supervised loss Noise ラベル無しデータが使えるようになるので、100labelのときに改善が見られる。 通常のDAEとは違い、y (softmaxをとる手前)まで求めてから Decodeするので、復元に必要な情報はほとんど落ちている。 100 label: 23.0 -> 16.4% 60000 : 0.82 -> 0.82% ・ラベル無しデータで起こること ノイズ入り画像x’ →これは「3」かな? →3といえばこんな形だよな →ノイズ入れる前と比較
  • 26. 半教師あり学習の手法 – Ladder Network 4. Lateral connectionをつける x’ x x~ y’ t Reconstruction loss Supervised loss 入力の分布が、各クラスごとに中心が異なるガウシアンとかだとこれでOK (x’が、推定したラベルに対応する中心に向かうようにdenoisingする) Combination (精度のデータ無し) どのクラスかが推定できれば どっち向きにdenoisingすれば いいか分かる
  • 27. 半教師あり学習の手法 – Ladder Network 5. 中間層もつなぐ x’ x x~ y’ t Reconstruction loss Supervised loss Reconstructionのための手がかりが、ラベルの推定結果だけでなく 途中の層からもやってくる。 Semi-supervisedの成績がこの時点で圧倒的に良くなる。 h1’ h2’ h1~ h2~ 100 label: 16.4 -> 1.86% 60000 : 0.82 -> 0.73% y~
  • 28. 半教師あり学習の手法 – Ladder Network 6. 中間層にもノイズを入れる x’ x x~ y’ t Reconstruction loss Supervised loss ノイズに対してロバストな表現に向かうような圧力がかかる。 VATみたいに分離面をデータから遠ざける働きをすると思われる h1’ h2’ h1~ h2~ 100 label: 1.86 -> 1.69% 60000 : 0.73 -> 0.61% Noise Noise Noise Noise y~
  • 29. 半教師あり学習の手法 – Ladder Network 7. 中間層にもReconstruction lossを入れる Ladder Networkの完成! x’ x x~ y’ t Reconstruction loss Supervised loss h1’ h2’ h1~ h2~ 100 label: 1.69 -> 1.09% 60000 : 0.61 -> 0.61% Noise Noise Noise Noise x x y h1 h2 ノイズ無しEncoder y~ 最上位層のDecoderはPriorを 表現するようになる 上の方に行くほど、Lossは小さいweightで重み付けする Fully-supervisedのときには実は寄与しない
  • 30. 半教師あり学習の手法 – Ladder Network 1. ただのFeed-forward NN 2. 入力にノイズ 3. Decoderで入力のReconstruction 4. Lateral connectionをつける 5. 各層にノイズ 6. 各層にReconstruction loss 100 labels 25.8% 23.0% 16.4% 1.86% 1.69% 1.09% 60000 labels 1.18% 0.82% 0.82% 0.73% 0.61% 0.61%  (最近まで)最強のNNはこのようにして作られた!
  • 31. まとめ・考察  Generative models, VAT, Ladderが現在のdeep unsupervisedの3強  比較的直感的な前者2つと比べると、Ladderは謎めいている – Lateral connection、中間層へのノイズ、中間層のReconstruction、具体的にど ういった働きをしているのか? – Lateral connectionを持ったGenerative modelsとの対応関係 – MNISTよりももっと複雑なタスクだとどうなるんだろう  とくに回帰問題にも適用できるのだろうか? – The proposed model is simple and easy to implement with many existing feedforward architectures  パラメタも気を使わないといけない点も多すぎるよ…(´・ω・`)
  • 32. おしまい  文献 – Semi-supervised learning with Ladder network (Rasmus et al., 2015) – Deconstructing the ladder network architecture (Mohammad et al., 2016) – Semi-supervised learning with deep generative models (Kingma et al., 2014) – Improving Semi-Supervised Learning with Auxiliary Deep Generative Models (Maaloe et al., 2015) – Distributional smoothing with virtual adversarial training (Miyato et al., 2015)  ソースコード – https://github.com/mattya/chainer-semi-supervised – VATとLadder Network (1.4%までしか落ちない…1.1%まではいけるはずなのに)の Chainer実装です。だれかLadderのどこがおかしいのか教えて…
  • 34. 半教師あり学習の手法 – Ladder Network  実装上の詳細①:Encoderでノイズを入れるところ – Batch Normalizationの、平均引いて標準偏差で割った直後に入れる (そうしないとノイズ耐性がつくように大きなスケールの値を出すように学習される)
  • 35. 半教師あり学習の手法 – Ladder Network  実装上の詳細②:Lateral connectionをDecoderに入れるところ – Encoder側の、ノイズを入れた直後の値を、 – Decoder側の、平均引いて標準偏差で割った直後と混ぜる(混ぜ方は後述) – ちなみにDecoder側にはBNでのscale, shiftは無い
  • 36. 半教師あり学習の手法 – Ladder Network  実装上の詳細③:混ぜ方 – Encoder側からz~、Decoder側からuが来ている – 各成分ごとに、小さなニューラルネットで混ぜる(CNNとかとは違って、パラメタは 全部異なる)  Denoisingなので、基本はz~ iで、uiがその補正量 – ちなみにオリジナル論文は左のやつで、右ので少し精度が上がるらしい
  • 37. 半教師あり学習の手法 – Ladder Network  実装上の詳細④:Reconstruction Loss – 何も考えずにcleanなzと、reconstructしたzを比較すると、実はLateralから来たzを そのままコピーするのが良い解になってしまう ・・・Batch normalizationは、minibatchのサイズの有限性から、ノイズが乗る EncoderのClean側とNoisy側で、乗るノイズはよく似るはず これを防ぐために、reconstructionしたzから、clean側のNormalizationに用いたμを引 いて、σで割った値と、clean側のzとを比較する
  • 38. 半教師あり学習の手法 – Ladder Network  実装上の詳細⑤:さらにこまかいこと – ラベル付きデータセットは、各クラスのデータが均等に入っているように作る – Adamで学習。Learning rateはepoch100まで0.002で、150までで0におとす – 入力データの値域は[0,1] – ハイパーパラメタたちはひたすらグリッドサーチなどして求めたらしい – Decoderのtopに入力するのは、softmax後 – LinearにBias項なし – Clean encoder側にもBackpropする?(たぶんそう) – Weight decayはいれる?(ないほうがよさそう)