SlideShare a Scribd company logo
1 of 28
Understanding Deep Learning
Requires Rethinking Generalization
D3 Yusuke IWASAWA
1
書誌情報
• ICLR2017 oral accepted
• Rating9.5 (1st!!!)
• Chiyuan Zhang, Samy Bengio, Moritz Harbd, Benjamin Recht,
Oriol Vinyasls
• MIT, Berkeley, Google Brain, DeepMindの混合
• 1st authorがGoogle Brainでインターンしてた時の研究
• Harbdさん,Rechtさんはそもそも汎化性能に関する研究をしている人っぽい
• 反省:輪読して質問が出やすい系の論文じゃないかもしれない
(じっくり考えないとよくわからない)
2
Final Decisions:
3
RQ: 良い汎化性能を達成する理由は?
• 一般的なDLの問題設定:サンプル数 <<<< パラメタの数
• しかし,汎化性能は◎
• 一方で汎化性能の悪いNNを考えることも簡単
• 汎化性能の「良い」NNと「悪い」 NNを分けるのは何か?
“What is it then that distinguishes neural networks that
generalize well from those that don’t?”
4
汎化性能に関する従来指標
1. 仮説集合Hの複雑さ
1. VC dimension [Vapnik, 1998]
2. Rademacher complexity [Bartlett, 2003]
2. アルゴリズムAの安定性
1. Uniform stability [Mukherjee et al., 2002]
複雑なモデルの汎化性能の保証には正則化が必須である
5
本論文の◯✕
◯ DLの汎化性能が従来の理論的枠組みで説明できないこと
◯ DLが訓練データをすべて覚えているという実証結果
◯ DLにおいて正則化が汎化性能に必須でも最重要でもないこと
◯ 2層のMLPが特定条件化でデータを完全に記憶できること
◯ SGDが暗黙的正則化として機能すること
✕ DLがなぜ汎化性能が良いかの統一的理解
✕ DLの汎化性能をどうすれば高められるかの提案
6
本発表の◯✕
◯◯ DLの汎化性能が従来の理論的枠組みで説明できないこと
◯◯ DLが訓練データをすべて覚えているという実証結果
◯◯ DLにおいて正則化が汎化性能に必須でも最重要でもないこと
◯✕ 2層のMLPが特定条件化でデータを完全に記憶できること
◯△ SGDが暗黙的正則化として機能すること
✕✕ DLがなぜ汎化性能が良いかの統一的理解
✕✕ DLの汎化性能をどうすれば高められるかの提案
7
実験1:無作為化テスト
• 目的
• どのくらいのパラメタを持つNNが良いモデルなのか?
• 方法
• 無作為化テスト
• 出力ラベルをランダムに変更したデータで学習
• (普通に考えるとランダム度合いを高めれば学習できないはず)
• 結果
• 多くのモデルがランダムにしても100%の精度で学習
8
実験1:検証方法
• 無作為化の方法
• 1. ラベルをランダムに変更する
• 2. 入力をランダムに変更する (Random,Shuffle,Gaussian)
• データセット
• CIFAR10とImageNet
• モデル
• Inception v3、Alxexnet、MLPs
• 詳細は付録A参照
9
実験1:結果(CIFAR10)
いずれも
err=0%
10
実験1:ランダム度合いの変更
ランダム強
=>収束遅
ランダム強
=>過学習
11
詳細設定・結果
1. 学習率のスケジューリングは行っていない
2. なんならハイパーパラメタも調整してない (Trueと同じ)
3. 適合し始めたらすぐ収束 (Trueよりは遅い)
4. 完全に(過)学習
5. 収束速度は
True < Shuffle Pixel < Gaussian = Rand Pixel < Rand Label
6. ImageNetではtop-1が95.20%、top-5は99.14%
• ※100万枚、1000カテゴリ、全部ランダムなラベルでの結果
12
実験1から得られた示唆
• Radermacher complexity and VC-dimension
• 仮説集合Hの複雑さの指標
• ランダムなラベルに対する予測精度の上界の期待値
• 今回の結果からRademacher complexityは1
=>何の上界も抑えない(DLは悪いモデルということになる)
• Uniform stability
• 訓練アルゴリズムAの安定性の指標
• ランダムに1つ事例を変えたときに結果がどう変わるか
• データの性質を考慮していない?
13
実験2:正則化のオフ
• 目的
• DLにおける正則化の効果の確認
• 方法
• 各モデルの正則化をオフにする
1. データ拡張 (Data augmentation)
2. 重み減衰 (Weight decay)
3. ドロップアウト (Dropout)
14
実験2:正則化のオフ (CIFAR10)
正則化無し
15
実験2:正則化のオフ(ImageNet)
正則化無し
16
実験2:結果詳細
• ImageNetでは正則化なくすとtop-1が18%低下
• Top-1: 59.80%
• Top-5: 80.38%
• ただし正則化なくても十分よい
• vs.ランダム予測(0.1% in top-1)
• vs. ILSCRC winner(83.6% in top-5)
• ちなみにデータ拡張の効果が最も大きい
• データ拡張のみでtop-1は72.95%まで向上
17
実験3:暗黙的な正則化
• 暗黙的な正則化
• 副次的な効果として正則化的な効果を持つもの
• 例1:早期終了 [Yao et al., 2007; Lin et al.,2016]
• 例2:バッチ正規化 [Szegedy et al., 2015;He tet al., 2016]
• 明示的な正則化
• 明示的に関数の複雑さを制限するもの
• 例1:ドロップアウト
• 例2:重み減衰
こちらの効果を検証
18
実験3:早期終了
19
早期終了の効果低
実験3:早期終了+ バッチ正規化
20
訓練はほぼおなじ
早期終了はほぼ効果
なし
BNの効果も数%
実験1, 2, 3で得られた示唆
• モデル自体の複雑さではDLの汎化性能を評価できない
• DLはランダムな訓練データにも完全に適合する(実験1)
• 正則化は汎化性能を改善するが決定的でも必須でもない
• 実験2: 明示的な正則化無しでも良い汎化性能
• 実験3: 早期終了やバッチ正規化の影響は軽微
結局何がDLの汎化性能を高めているのか?
21
仮説:SGDの利用による暗黙的正則化
• 5章に線形モデルでの説明が書いてある
• ざっくりまとめると,SGDは暗黙的に正則化として機能する
• フォーラム見ると議論あるのでそちらを参考にすると良いかも
22
仮説:学習の速さ
23
同じ著者の別論文
まとめ
• 主張
• DLの汎化性能は従来の枠組みで説明できない
• サポート
• DLはランダムな訓練データにもほぼ完璧にフィットする
(データを完全に記憶している)
• DLにおいて正則化は汎化性能を改善するが,正則化ゼロでも良い
(モデル構造や学習方法などその他の部分に鍵がありそう)
• 含まれないこと
• 良い汎化性能を達成する方法,達成するための将来課題
24
• H:仮説集合
• h:仮説
• σ:ランダムなラベル
• としたときに最も適合する仮説hの期待値
Rademacher complexity
25
VC次元
• 仮説集合に含まれる仮説が細部(Shatter)できる点の数
• Shatterとは,任意の2クラスに分類できること
• 経験損失はVC次元で抑えられる
26
Uniform Stability
• 訓練アルゴリズムAの安定性の指標
• ランダムに1つ事例を変えたときに結果がどう変わるか
• データの性質を考慮していない?
27
関連研究
• [Hardt 2016]
• Uniform stabilityに基づく分析
• => uniform stabilityはランダムなラベルと正しいラベルの結果を区別
できない
• [Cybenko, 1989;Mhaskar, 1993]など
• これらの研究は関数レベルの近似能力
• => 有限サンプルの近似能力を検証
28

More Related Content

What's hot

What's hot (20)

【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]Understanding deep learning requires rethinking generalization