More Related Content Similar to Improving neural networks by preventing co adaptation of feature detectors Similar to Improving neural networks by preventing co adaptation of feature detectors (10) More from Junya Saito (6) Improving neural networks by preventing co adaptation of feature detectors1. Improving neural networks
by preventing co-adaptation
of feature detectors
[arXiv 2013]
G. E. Hinton, N. Srivastava, A. Krizhevsky,
I. Sutskever and R. R. Salakhutdinov
(University of Toronto)
斎藤 淳哉
間違い等ありましたらご連絡ください
junya【あっと】fugaga.info
論文紹介
3. 目次
• Dropout
• 適用事例
– 手書き数字認識データMNIST
• データ仕様
• ニューラルネットワーク+Dropout
– 実装技術
» 【実装技術1】Cross-Entropy
» 【実装技術2】Momentum
» 【実装技術3】重み正則化
– 実験
• Fine-Tuning+Dropout
• まとめ
2/13
8. 【実装技術2】 Momentum
• 勾配法の高速化手法
– Momentum[Polyak 1964]
𝑤 𝑡
= 𝑤 𝑡−1
+ ∆𝑤 𝑡
∆𝑤 𝑡
= 𝜇∆𝑤 𝑡−1
− 𝜖𝛻𝐸 𝑤
𝜇:Momentum係数
重みの振動を抑えてくれる
7/13
𝑤 𝑡
𝑤 𝑡−1
𝑤 𝑡−2
𝑤 𝑡
𝑤 𝑡−1
𝑤 𝑡−2
9. 【参考】Weight Decay
• 汎化能力向上手法
– Weight Decay(L2正則化と同じ)
𝑤 𝑡
= 𝑤 𝑡−1
+ ∆𝑤 𝑡
∆𝑤 𝑡
= −𝜖𝜆𝑤 𝑡−1
− 𝜖𝛻𝐸 𝑤
𝜆:Weight Decay係数
8/13
本論文では、この正則化は行わず、
次スライドの正則化を行う
13. Fine-Tuning+Dropout
• Deep Brief Network
– Pre-Training
• 784-500-500-2000 units
• RBM learned by Contrastive Divergence
– Fine-Tuning
• Dropout:50% dropout in hidden layers and 20% in input layer
• 学習率:𝜖 = 1.0(固定)
• 重み正則化:なし
• Epoches:1,000
• その他のパラメータ:前スライドと同じ
MNIST実験結果:
118 error → 92 error
(Fine-Tuning by standard back prop) (by back prop with dropout)
12/13前スライドのDropoutのみの結果と大きな差がない(というよりむしろDropoutが強力)