Improving neural networks by preventing co adaptation of feature detectors

Improving neural networks
by preventing co-adaptation
of feature detectors
[arXiv 2013]
G. E. Hinton, N. Srivastava, A. Krizhevsky,
I. Sutskever and R. R. Salakhutdinov
(University of Toronto)
斎藤淳哉
間違い等ありましたらご連絡ください
junya【あっと】fugaga.info
論文紹介

概要
Dropout
+
実装技術
みんな知ってるDeepLearningの必須技術Dropoutを
テキトーに実装したらうまくいかなかったのまとめてみた(｀・ω・´)
arXivのだけど、この論文が一番詳しく書かれている
1/13

目次
• Dropout
• 適用事例
– 手書き数字認識データMNIST
• データ仕様
• ニューラルネットワーク＋Dropout
– 実装技術
» 【実装技術１】Cross-Entropy
» 【実装技術２】Momentum
» 【実装技術３】重み正則化
– 実験
• Fine-Tuning＋Dropout
• まとめ
2/13

Dropout
• Dropoutとは
– ニューラルネットワークの過学習を防ぐ手法
• アルゴリズム
– 学習時：各学習データに対して、隠れノードを
ランダムに50%なかったことにして重み𝑤を学習
– 推定時：重み𝑤を1/2にする
𝑤
3/13

手書き数字認識データMNIST データ仕様
• 特徴ベクトル
– 28×28 pixcel グレースケール画像（連続値）
• ラベル
– 数字（0~9）
• データ数
– 学習用：60,000
– テスト用：10,000
4/13

ニューラルネットワーク＋Dropout 実装技術
• SGD with minibatch
• Cross-Entropy
• Momentum
• 重み正則化
𝑤
よい重み𝑤を速く求めるための技術
5/13

【実装技術１】Cross-Entropy
• ニューラルネットワーク学習の目的関数
– ふつう：MSE（二乗誤差）
– 本論文：Cross-Entropy
MSEより速く、しかも、いい感じに収束してくれる
𝐸 𝑤 =
1
𝑁
𝑦 𝑥 𝑛, 𝑤 − 𝑡 𝑛
2
𝑁
𝑛=1
𝐸 𝑤 = −
1
𝑁
𝑡 𝑛 ln 𝑦 𝑥 𝑛, 𝑤 + 1 − 𝑡 𝑛 ln 1 − 𝑦 𝑥 𝑛, 𝑤
𝑁
𝑛=1
6/13

【実装技術２】 Momentum
• 勾配法の高速化手法
– Momentum[Polyak 1964]
𝑤 𝑡
= 𝑤 𝑡−1
+ ∆𝑤 𝑡
∆𝑤 𝑡
= 𝜇∆𝑤 𝑡−1
− 𝜖𝛻𝐸 𝑤
𝜇：Momentum係数
重みの振動を抑えてくれる
7/13
𝑤 𝑡
𝑤 𝑡−1
𝑤 𝑡−2
𝑤 𝑡
𝑤 𝑡−1
𝑤 𝑡−2

【参考】Weight Decay
• 汎化能力向上手法
– Weight Decay（L2正則化と同じ）
𝑤 𝑡
= 𝑤 𝑡−1
+ ∆𝑤 𝑡
∆𝑤 𝑡
= −𝜖𝜆𝑤 𝑡−1
− 𝜖𝛻𝐸 𝑤
𝜆：Weight Decay係数
8/13
本論文では、この正則化は行わず、
次スライドの正則化を行う

【実装技術３】重み正則化
• 汎化能力向上手法
– ノードに入力する重みのL2ノルムが
𝑙を超えないように正則化
重みのL2ノルムが𝑙を超えたら、𝑙になるように線形スケーリング
𝑤
9/13

【実装技術まとめ】重み更新式
100-sized minibatch
で求める
学習率：
Momentum係数：
Epoches 𝑡 = 1, … , 3000で、Dropoutしつつ以下で更新
𝑤0←平均0.0,標準偏差0.01で初期化
（各ノードに入力する重みのL2ノルムが𝑙 = 15を超えないように正則化）
10/13
𝑤 𝑡
= 𝑤 𝑡−1
+ ∆𝑤 𝑡
∆𝑤 𝑡
= 𝑝 𝑡
𝑤 𝑡−1
− 1 − 𝑝 𝑡
𝜖 𝑡
𝛻𝐸 𝑤

MNIST実験結果
784-800-800-10 units
784-1200-1200-10 units
784-2000-2000-10 units
784-1200-1200-1200-10 units
without dropout
11/13

Fine-Tuning＋Dropout
• Deep Brief Network
– Pre-Training
• 784-500-500-2000 units
• RBM learned by Contrastive Divergence
– Fine-Tuning
• Dropout：50% dropout in hidden layers and 20% in input layer
• 学習率：𝜖 = 1.0（固定）
• 重み正則化：なし
• Epoches：1,000
• その他のパラメータ：前スライドと同じ
MNIST実験結果：
118 error → 92 error
（Fine-Tuning by standard back prop）（by back prop with dropout）
12/13前スライドのDropoutのみの結果と大きな差がない（というよりむしろDropoutが強力）

まとめ
• Dropout+実装技術
– 【実装技術１】Cross-Entropy
– 【実装技術２】Momentum
– 【実装技術３】重み正則化
• Dropoutの効果
– DBNと組み合わせなくても強力に効果を発揮
– 実装コスパがよい
13/13
本論文には、MNISTの他に、音声認識データTIMITなどへの
適用事例も載っているので、気になる方は読んでみてください

Improving neural networks by preventing co adaptation of feature detectors

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (10)

Similar to Improving neural networks by preventing co adaptation of feature detectors

Similar to Improving neural networks by preventing co adaptation of feature detectors (10)

More from Junya Saito

More from Junya Saito (6)

Recently uploaded

Recently uploaded (12)

Improving neural networks by preventing co adaptation of feature detectors