Deep learning勉強会20121214ochi

Representation Learning:
A Review and New Perspectives
Yoshua Bengio, Aaron Courville, and Pascal Vincent
Department of computer science and operations research, U. Montreal

12/14 2012
D1 大知正直

1

Abstract
• 機械学習アルゴリズムの性能
– データ表現に依存
• データの背後にある真の説明因子が複雑で，隠
されてしまっている
• ドメイン依存の知識や，一般的な前提知識を
データ表現の設計に利用することができる
• こうした前提知識をもっと強力に学習する表現
学習アルゴリズムがAI分野で求められている

7

Abstract
• この論文の内容
– 教師なしの特徴学習，ディープラーニング
の結合学習に関する最近の研究成果のレ
ビュー
– 確率モデル，オートエンコーダ，多様体学
習，ディープアーキテクチャをカバー

8

Abstract
• この論文の内容
– 長期的な難問を提起するのが目的
• 良い表現を学習，推定するための適切な対象
• 表現学習，密度推定，多様体学習間の幾何学的
な接続

9

1. INTRODUCTION
• 機械学習アルゴリズムの性能
– データ（特徴）表現の選択に強く依存
• データの変換にすごく手間をかけている現状
• 特徴量のエンジニアリングも人間の創造性や前
提知識を利用してしまっている
• AIは本質的に人間の身の回りの世界を理
解しなければならない
– 低レベルの知覚可能なデータの根本にある
説明要因を分解し学習することができれば
可能

10

1. INTRODUCTION
• 本稿の内容
– 特徴学習(feature learning)，表現学習
(representation learning)
• 分類器や予測器の作成時に有用な情報の抽出が
簡単になるようなデータの変換を学習すること
• ディープラーニングによる特徴学習に注目
– より抽象的な表現を作ることを目的とした複数回の非
線型データ変換
– 近年の発展途上の領域だが、特に最近の進展の内容を
強調

11

2. WHY SHOULD WE CARE ABOUT LEARNING
REPRESENTATIONS?
• 様々な分野での表現学習について言及
1. Speech Recognition and Signal
Processing（音声認識と信号処理）
– MAVIS(Microsoft Research) が約30%のエ
ラー率改善
2. Object Recognition（物体認識）
– MNIST(数字認識タスク)においてディープ
ラーニングがSVMの1.4%のエラー率を
0.27%に改善
– ImageNet(自然画像のデータセット）認識タ
スクで15.3%のエラー率へ改善
12

REPRESENTATIONS?
3. Natural Language Processing（自然言語
処理）
– SENNAシステム・・・言語モデリングを行う
タスク（品詞タグ付け，チャンキング，固有
名詞認識，意味役割ラベリング，構文解析）
向けのシステム
– (Mikolov et al., 2011)は隠れ層を再帰的に追加
する手法で、平滑化n-gramをperplexity，品詞
認識のエラー率で上回る

13

REPRESENTATIONS?
4. Multi-Task and Transfer Learning,
Domain Adaptation（マルチタスク，転
移学習，ドメイン適応）
説明要因（赤い◯）を発見す
る表現学習モデルのイメージ
図．
タスク間での統計的強度の共
有が表現の一般性の獲得を可
能にする．
ICML2011, NIPS2011の
ワークショップで良い結果が
報告されている

14

3. WHAT MAKES A REPRESENTATION GOOD?

1. 人工知能による表現学習の前提
– Smoothness（平滑性）
• 3-2で議論
– Multiple explanatory factors（複数の説明要
因）
• 3-5で議論（3-3で議論する分散化した表現が前提
にある）
– A hierarchical organization of explanatory
factors（説明要因の階層化）
• 抽象的な概念はより上の階層へ（3-4で議論する
“deep representation”が利用される仮定）

15


– Semi-supervised learning（半教師あり学
習）
• 𝑋の分布を表現する𝑃(𝑋)は𝑃(𝑌|𝑋)の表現に有用．
教師あり，無し学習間の表現の共有を可能にする
（4で議論）
– Shared factors across tasks
• 𝑋と𝑡𝑎𝑠𝑘で共有された表現が説明要因となる（2-
3で述べた）

16


– Manifolds（多様性）
• 元のデータ空間より小さな次元数を持つ局所的な
領域にデータが集中している場合，オートエン
コーダアルゴリズムや他の多様体学習のアルゴリ
ズムが利用される（7-2,8で議論）
– Natural clustering
• 多様体上での局所的な分布がそのままクラスタに
なっている状態（人間が考える固有のカテゴリ，
クラスといった概念と一致）8-3 Manifold
Tangent Classifierで議論

17


– Temporal and spatial coherence
• 時間，空間的に近くな状態からの観測は似たよう
な結果をもたらしやすい（11-3で議論）
– Sparsity
• 観測データ𝑥で実際に関係のある要因がほんのわ
ずかであること(6-1-3, 7-2で議論)

これらの前提は学習器がデータの根底にある説明要因を学習，分解する手法
として，頻繁に見られる
18


2. 平滑性と次元の呪い
カーネル関数を用いて，局所
的で平滑な線形モデルを構築
することで解決

こうしたカーネルそのものの発見も表現学習に含まれると考える

19


3. 分散化した表現
– 良い表現
• 表現力豊かであること
– 入力領域を識別するのに十分な数のパラメータを持っ
ているか
» GMM, kNN, 決定木, Gaussinan SVM は 𝑂(𝑁)個の
入力領域の識別に𝑂(𝑁)個のパラメータが必要
» RBMs(Restricted Boltzmann Machines), スパース
コーディング, オートエンコーダ，多層ニューラル
ネットワークは 𝑂(2 𝑘 )個までの入力領域の識別に
ただ𝑂(𝑁)個のパラメータがあればよい。（kは0で
ない要素の数）

良い表現＝分散化した表現（distributed representation）

20


4. Depth and abstraction（深さと抽象性）
– 特徴の再利用

計算的，統計的な効率性を持つ

ディープラーニングの背後にある利点
21


4. Depth and abstraction（深さと抽象性）
– 抽象性と不変性
• ディープアーキテクチャは抽象性の低いもの同士
の関係性からより抽象性の高いものを構築する
• 抽象性の高い表現は一般的には極めて局所的な変
化に対して不変
• 分類という概念に一致

不変的な特徴の学習はパターン認識の大きな目標の一つ

22


5. Disentangling Factors of Variation（変化
の要因の分解）
– 特徴学習へのアプローチ
• 可能な限りたくさんの要因に分解すること
• ほとんど実用上意味の無いデータを捨てること

特徴学習の基準

23

4. BUILDING DEEP REPRESENTATIONS

• 特徴学習，ディープラーニングの出現
– 2006～
– 階層別に教師なし学習を行うというアイデ
ア
• ディープアーキテクチャに基づく特徴学
習
– より良い表現抽出をスタックする手法
• 分類エラーの減少を目指すもの
• 確率モデルによって生成されたサンプルの質を
見るもの
• 学習した特徴の不変特性見るもの
24

4. BUILDING DEEP REPRESENTATIONS

• Deep Belief Network
– Stack pre-trained RBMs

その他DBM(Deep Boltzmann Machine), deep auto-encoder, エネルギー関数
を利用する研究が報告されている
25

5. SINGLE-LAYER LEARNING MODULES

• 表現学習への２つのアプローチ
– 確率的グラフィカルモデルに基づくもの(§6)
• 隠れ変数を持つ
– RBM(Restricted Boltzmann Machine)
– ニューラルネットワークに基づくもの(§7)
• 階層構造を持つ
– Auto-encoder

どちらもグラフ構造を持ち，本質的な差は無い
→ §6,7で一層で訓練する特徴学習の手法について解説
26


• Principal Components Analysis（主成分
分析）
– 最古の特徴抽出アルゴリズム
• 確率モデルと非常に関係がある
– 固有値分解
• 出力が基本的なauto-encoderと同じ
– ああああ
• 多様体学習の単純な形式ととらえることが可能

27


• Principal Components Analysis（主成分
分析）

PCAは表現学習の基本的な特徴を全て備えている
28

6. PROBABILISTIC MODELS
• 確率モデルからみた特徴学習
– 観測データ上の分布を表現する潜在変数の復
元
– 潜在変数ℎ, 観測データ𝑥において，確率モデ
ル 𝑝(ℎ, 𝑥) を定義
– 特徴量は潜在変数の確率分布 𝑝 ℎ 𝑥 →事後
確率
– 尤度最大化などのモデルパラメータ推定によ
る学習

有向(Directed)，無向(Undirected)のグラフィカルモデルそれぞれの特徴学習
の研究が存在 29

1. Directed Graphical Models
– 原因 ℎ と結果 𝑥 が対応するモデル
• 𝑝 𝑥, ℎ = 𝑝 𝑥 ℎ 𝑝(ℎ), ※は尤度
– 原因と結果に１対１の対応がある
• 𝑝 𝑥 ℎ の分布が集中している

PCA, Sparse Coding, Sigmoid Belief Networks, Spike-and-Slab sparse
coding model 等が挙げられる 30

2. Probabilistic Interpretation of PCA
• 主成分分析の確率的解釈

31

3. Sparse Coding
• たくさんいるニューロンのうち、ホンの一部の
ニューロンだけが活動して、情報の重複をでき
るだけ抑えて情報を表現する方法
• 非確率的な視点
– ああああ
– Xごとに活動するhを決定づける辞書Wを学習
– ああああ
– Jscが最小になるように訓練データを学習
– WhはL1正則化項として機能

32

3. Sparse Coding
• 確率的解釈

– p(h)は事前分布にラプラス分布を仮定
– MAP推定によるWの推定

CIFAR-10という分類タスクで良い性能を示した。Spike-and-Slab Sparse
Codingという派生型がNIPS’11の転移学習のタスクで優勝 33

2. Undirected Graphical Models
– Markov Random Fields(MRFs)とも呼ばれる

– 教師無し特徴学習ではボルツマン分布を利用
した形式を用いることが多い

– 変数間の相互作用はエネルギー関数として定
義

• U,V,W,b,dはモデルパラメータ

34

– 条件付き確率

– 事後分布の推定は周辺化で行う

35

1. Restricted Boltzmann Machines
• Eq.7でU,V=0とし，単純化したもの
• 観測データと隠れ変数の２部グラフの形式

様々な成果が報告されている（fMRI image classification, motion and spatial
transformations, collaborative filtering, natural image modeling） 36

3. Generalizations of the RBM to Real-
valued data
– 画像データに対し、様々な拡張が提案
• Gaussian RBM, mean and covariance RBM,
covariance RBM, spike-and-slab RBM

学習した特徴とトレーニングデータの画像が近い様子
37

4. RBM parameter estimation
– Log likelihood

– 勾配 positive phase

negative phase

– Positive phaseは簡単に計算可能だが、
negative phaseは難しい
38

– パラメータの独立性を利用

– ギブスサンプリングで収束するまで実行

（問題点）
• Burn-in: 初期のGibbs Samplingが悪いと収束に時間がかかる
• Negative-phaseの収束→勾配の計算の繰り返しで計算量が多い
（negative-phase のburn-inを対策したアルゴリズム）
• Constrastive Divergence
• Stochastic Maximum Likelihood
• Fast-weight persistent contrastive divergence (FPCD)

39

1. Contrastive Divergence
• Positive phaseを先に実行
• Gibbs sampling を数回実行するのみ

40

2. Stochastic Maximum Likelihood
• Negative phaseは前のxの状態で更新

• Fast-weight persistent contrastive divergence
(FPCD)
– 勾配に比例して更新量を調整

41

Deep learning勉強会20121214ochi

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Deep learning勉強会20121214ochi

Similar to Deep learning勉強会20121214ochi (20)

More from Ohsawa Goodfellow

More from Ohsawa Goodfellow (12)

Deep learning勉強会20121214ochi