[DL輪読会]Understanding deep learning requires rethinking generalization

Understanding Deep Learning
Requires Rethinking Generalization
D3 Yusuke IWASAWA
1

書誌情報
• ICLR2017 oral accepted
• Rating9.5 (1st!!!)
• Chiyuan Zhang, Samy Bengio, Moritz Harbd, Benjamin Recht,
Oriol Vinyasls
• MIT, Berkeley, Google Brain, DeepMindの混合
• 1st authorがGoogle Brainでインターンしてた時の研究
• Harbdさん，Rechtさんはそもそも汎化性能に関する研究をしている人っぽい
• 反省：輪読して質問が出やすい系の論文じゃないかもしれない
(じっくり考えないとよくわからない)
2

RQ: 良い汎化性能を達成する理由は?
• 一般的なDLの問題設定：サンプル数 <<<< パラメタの数
• しかし，汎化性能は◎
• 一方で汎化性能の悪いNNを考えることも簡単
• 汎化性能の「良い」NNと「悪い」 NNを分けるのは何か？
“What is it then that distinguishes neural networks that
generalize well from those that don’t?”
4

汎化性能に関する従来指標
1. 仮説集合Hの複雑さ
1. VC dimension [Vapnik, 1998]
2. Rademacher complexity [Bartlett, 2003]
2. アルゴリズムAの安定性
1. Uniform stability [Mukherjee et al., 2002]
複雑なモデルの汎化性能の保証には正則化が必須である
5

本論文の◯✕
◯ DLの汎化性能が従来の理論的枠組みで説明できないこと
◯ DLが訓練データをすべて覚えているという実証結果
◯ DLにおいて正則化が汎化性能に必須でも最重要でもないこと
◯ 2層のMLPが特定条件化でデータを完全に記憶できること
◯ SGDが暗黙的正則化として機能すること
✕ DLがなぜ汎化性能が良いかの統一的理解
✕ DLの汎化性能をどうすれば高められるかの提案
6

本発表の◯✕
◯◯ DLの汎化性能が従来の理論的枠組みで説明できないこと
◯◯ DLが訓練データをすべて覚えているという実証結果
◯◯ DLにおいて正則化が汎化性能に必須でも最重要でもないこと
◯✕ 2層のMLPが特定条件化でデータを完全に記憶できること
◯△ SGDが暗黙的正則化として機能すること
✕✕ DLがなぜ汎化性能が良いかの統一的理解
✕✕ DLの汎化性能をどうすれば高められるかの提案
7

実験1：無作為化テスト
• 目的
• どのくらいのパラメタを持つNNが良いモデルなのか？
• 方法
• 無作為化テスト
• 出力ラベルをランダムに変更したデータで学習
• （普通に考えるとランダム度合いを高めれば学習できないはず）
• 結果
• 多くのモデルがランダムにしても100%の精度で学習
8

実験1：検証方法
• 無作為化の方法
• 1. ラベルをランダムに変更する
• 2. 入力をランダムに変更する (Random，Shuffle，Gaussian)
• データセット
• CIFAR10とImageNet
• モデル
• Inception v3、Alxexnet、MLPs
• 詳細は付録A参照
9

実験1：結果（CIFAR10）
いずれも
err=0%
10

実験1：ランダム度合いの変更
ランダム強
=>収束遅
ランダム強
=>過学習
11

詳細設定・結果
1. 学習率のスケジューリングは行っていない
2. なんならハイパーパラメタも調整してない（Trueと同じ）
3. 適合し始めたらすぐ収束（Trueよりは遅い）
4. 完全に（過）学習
5. 収束速度は
True < Shuffle Pixel < Gaussian = Rand Pixel < Rand Label
6. ImageNetではtop-1が95.20%、top-5は99.14%
• ※100万枚、1000カテゴリ、全部ランダムなラベルでの結果
12

実験1から得られた示唆
• Radermacher complexity and VC-dimension
• 仮説集合Hの複雑さの指標
• ランダムなラベルに対する予測精度の上界の期待値
• 今回の結果からRademacher complexityは1
=>何の上界も抑えない（DLは悪いモデルということになる）
• Uniform stability
• 訓練アルゴリズムAの安定性の指標
• ランダムに1つ事例を変えたときに結果がどう変わるか
• データの性質を考慮していない？
13

実験2：正則化のオフ
• 目的
• DLにおける正則化の効果の確認
• 方法
• 各モデルの正則化をオフにする
1. データ拡張 (Data augmentation)
2. 重み減衰 (Weight decay)
3. ドロップアウト (Dropout)
14

実験2：正則化のオフ (CIFAR10)
正則化無し
15

実験2：正則化のオフ(ImageNet)
正則化無し
16

実験2：結果詳細
• ImageNetでは正則化なくすとtop-1が18%低下
• Top-1: 59.80%
• Top-5: 80.38%
• ただし正則化なくても十分よい
• vs.ランダム予測（0.1% in top-1）
• vs. ILSCRC winner（83.6% in top-5）
• ちなみにデータ拡張の効果が最も大きい
• データ拡張のみでtop-1は72.95%まで向上
17

実験3：暗黙的な正則化
• 暗黙的な正則化
• 副次的な効果として正則化的な効果を持つもの
• 例1：早期終了 [Yao et al., 2007; Lin et al.,2016]
• 例2：バッチ正規化 [Szegedy et al., 2015;He tet al., 2016]
• 明示的な正則化
• 明示的に関数の複雑さを制限するもの
• 例1：ドロップアウト
• 例2：重み減衰
こちらの効果を検証
18

実験3：早期終了
19
早期終了の効果低

実験3：早期終了+ バッチ正規化
20
訓練はほぼおなじ
早期終了はほぼ効果
なし
BNの効果も数%

実験1, 2, 3で得られた示唆
• モデル自体の複雑さではDLの汎化性能を評価できない
• DLはランダムな訓練データにも完全に適合する（実験1）
• 正則化は汎化性能を改善するが決定的でも必須でもない
• 実験2: 明示的な正則化無しでも良い汎化性能
• 実験3: 早期終了やバッチ正規化の影響は軽微
結局何がDLの汎化性能を高めているのか？
21

仮説：SGDの利用による暗黙的正則化
• 5章に線形モデルでの説明が書いてある
• ざっくりまとめると，SGDは暗黙的に正則化として機能する
• フォーラム見ると議論あるのでそちらを参考にすると良いかも
22

仮説：学習の速さ
23
同じ著者の別論文

まとめ
• 主張
• DLの汎化性能は従来の枠組みで説明できない
• サポート
• DLはランダムな訓練データにもほぼ完璧にフィットする
（データを完全に記憶している）
• DLにおいて正則化は汎化性能を改善するが，正則化ゼロでも良い
（モデル構造や学習方法などその他の部分に鍵がありそう）
• 含まれないこと
• 良い汎化性能を達成する方法，達成するための将来課題
24

• H：仮説集合
• h：仮説
• σ：ランダムなラベル
• としたときに最も適合する仮説hの期待値
Rademacher complexity
25

VC次元
• 仮説集合に含まれる仮説が細部（Shatter）できる点の数
• Shatterとは，任意の2クラスに分類できること
• 経験損失はVC次元で抑えられる
26

Uniform Stability
• 訓練アルゴリズムAの安定性の指標
• ランダムに1つ事例を変えたときに結果がどう変わるか
• データの性質を考慮していない？
27

関連研究
• [Hardt 2016]
• Uniform stabilityに基づく分析
• => uniform stabilityはランダムなラベルと正しいラベルの結果を区別
できない
• [Cybenko, 1989;Mhaskar, 1993]など
• これらの研究は関数レベルの近似能力
• => 有限サンプルの近似能力を検証
28

[DL輪読会]Understanding deep learning requires rethinking generalization

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

[DL輪読会]Understanding deep learning requires rethinking generalization