SlideShare a Scribd company logo
1 of 36
Representation Learning:
A Review and New Perspectives
       Yoshua Bengio, Aaron Courville, and Pascal Vincent
Department of computer science and operations research, U. Montreal



                                              12/14 2012
                                            D1 大知 正直


                                                                      1
Abstract
• 機械学習アルゴリズムの性能
 – データ表現に依存
  •   データの背後にある真の説明因子が複雑で,隠
      されてしまっている
  •   ドメイン依存の知識や,一般的な前提知識を
      データ表現の設計に利用することができる
  •   こうした前提知識をもっと強力に学習する表現
      学習アルゴリズムがAI分野で求められている




                              7
Abstract
• この論文の内容
 – 教師なしの特徴学習,ディープラーニング
   の結合学習に関する最近の研究成果のレ
   ビュー
 – 確率モデル,オートエンコーダ,多様体学
   習,ディープアーキテクチャをカバー




                         8
Abstract
• この論文の内容
 – 長期的な難問を提起するのが目的
  •   良い表現を学習,推定するための適切な対象
  •   表現学習,密度推定,多様体学習間の幾何学的
      な接続




                              9
1. INTRODUCTION
• 機械学習アルゴリズムの性能
 – データ(特徴)表現の選択に強く依存
  •   データの変換にすごく手間をかけている現状
  •   特徴量のエンジニアリングも人間の創造性や前
      提知識を利用してしまっている
• AIは本質的に人間の身の回りの世界を理
  解しなければならない
 – 低レベルの知覚可能なデータの根本にある
   説明要因を分解し学習することができれば
   可能

                              10
1. INTRODUCTION
• 本稿の内容
 – 特徴学習(feature learning),表現学習
   (representation learning)
  •   分類器や予測器の作成時に有用な情報の抽出が
      簡単になるようなデータの変換を学習すること
  •   ディープラーニングによる特徴学習に注目
      –   より抽象的な表現を作ることを目的とした複数回の非
          線型データ変換
      –   近年の発展途上の領域だが、特に最近の進展の内容を
          強調




                                 11
2. WHY SHOULD WE CARE ABOUT LEARNING
    REPRESENTATIONS?
• 様々な分野での表現学習について言及
1. Speech Recognition and Signal
   Processing(音声認識と信号処理)
 – MAVIS(Microsoft Research) が約30%のエ
   ラー率改善
2. Object Recognition(物体認識)
 – MNIST(数字認識タスク)においてディープ
   ラーニングがSVMの1.4%のエラー率を
   0.27%に改善
 – ImageNet(自然画像のデータセット)認識タ
   スクで15.3%のエラー率へ改善
                                        12
2. WHY SHOULD WE CARE ABOUT LEARNING
    REPRESENTATIONS?
3. Natural Language Processing(自然言語
   処理)
 – SENNAシステム・・・言語モデリングを行う
   タスク(品詞タグ付け,チャンキング,固有
   名詞認識,意味役割ラベリング,構文解析)
   向けのシステム
 – (Mikolov et al., 2011)は隠れ層を再帰的に追加
   する手法で、平滑化n-gramをperplexity,品詞
   認識のエラー率で上回る



                                        13
2. WHY SHOULD WE CARE ABOUT LEARNING
    REPRESENTATIONS?
4. Multi-Task and Transfer Learning,
   Domain Adaptation(マルチタスク,転
   移学習,ドメイン適応)
                          説明要因(赤い◯)を発見す
                          る表現学習モデルのイメージ
                          図.
                          タスク間での統計的強度の共
                          有が表現の一般性の獲得を可
                          能にする.
                           ICML2011, NIPS2011の
                          ワークショップで良い結果が
                          報告されている




                                            14
3. WHAT MAKES A REPRESENTATION GOOD?

1. 人工知能による表現学習の前提
– Smoothness(平滑性)
  •   3-2で議論
– Multiple explanatory factors(複数の説明要
  因)
  •   3-5で議論(3-3で議論する分散化した表現が前提
      にある)
– A hierarchical organization of explanatory
  factors(説明要因の階層化)
  •   抽象的な概念はより上の階層へ(3-4で議論する
      “deep representation”が利用される仮定)

                                               15
3. WHAT MAKES A REPRESENTATION GOOD?

1. 人工知能による表現学習の前提
– Semi-supervised learning(半教師あり学
  習)
  •   𝑋の分布を表現する𝑃(𝑋)は𝑃(𝑌|𝑋)の表現に有用.
      教師あり,無し学習間の表現の共有を可能にする
      (4で議論)
– Shared factors across tasks
  •    𝑋と𝑡𝑎𝑠𝑘で共有された表現が説明要因となる(2-
      3で述べた)




                                       16
3. WHAT MAKES A REPRESENTATION GOOD?

1. 人工知能による表現学習の前提
– Manifolds(多様性)
  •   元のデータ空間より小さな次元数を持つ局所的な
      領域にデータが集中している場合,オートエン
      コーダアルゴリズムや他の多様体学習のアルゴリ
      ズムが利用される(7-2,8で議論)
– Natural clustering
  •   多様体上での局所的な分布がそのままクラスタに
      なっている状態(人間が考える固有のカテゴリ,
      クラスといった概念と一致)8-3 Manifold
      Tangent Classifierで議論


                                       17
3. WHAT MAKES A REPRESENTATION GOOD?

1. 人工知能による表現学習の前提
 – Temporal and spatial coherence
   •   時間,空間的に近くな状態からの観測は似たよう
       な結果をもたらしやすい(11-3で議論)
 – Sparsity
   •   観測データ𝑥で実際に関係のある要因がほんのわ
       ずかであること(6-1-3, 7-2で議論)




これらの前提は学習器がデータの根底にある説明要因を学習,分解する手法
として,頻繁に見られる
                                        18
3. WHAT MAKES A REPRESENTATION GOOD?

2. 平滑性と次元の呪い
                       カーネル関数を用いて,局所
                       的で平滑な線形モデルを構築
                       することで解決




 こうしたカーネルそのものの発見も表現学習に含まれると考える

                                       19
3. WHAT MAKES A REPRESENTATION GOOD?

3. 分散化した表現
 – 良い表現
   •   表現力豊かであること
       –   入力領域を識別するのに十分な数のパラメータを持っ
           ているか
           » GMM, kNN, 決定木, Gaussinan SVM は 𝑂(𝑁)個の
             入力領域の識別に𝑂(𝑁)個のパラメータが必要
           » RBMs(Restricted Boltzmann Machines), スパース
             コーディング, オートエンコーダ,多層ニューラル
             ネットワーク は 𝑂(2 𝑘 )個までの入力領域の識別に
             ただ𝑂(𝑁)個のパラメータがあればよい。(kは0で
             ない要素の数)


       良い表現=分散化した表現(distributed representation)

                                                     20
3. WHAT MAKES A REPRESENTATION GOOD?

4. Depth and abstraction(深さと抽象性)
 – 特徴の再利用




                       計算的,統計的な効率性を持つ



          ディープラーニングの背後にある利点
                                        21
3. WHAT MAKES A REPRESENTATION GOOD?

4. Depth and abstraction(深さと抽象性)
 – 抽象性と不変性
   •   ディープアーキテクチャは抽象性の低いもの同士
       の関係性からより抽象性の高いものを構築する
   •   抽象性の高い表現は一般的には極めて局所的な変
       化に対して不変
   •   分類という概念に一致




       不変的な特徴の学習はパターン認識の大きな目標の一つ

                                        22
3. WHAT MAKES A REPRESENTATION GOOD?

5. Disentangling Factors of Variation(変化
   の要因の分解)
  – 特徴学習へのアプローチ
    •   可能な限りたくさんの要因に分解すること
    •   ほとんど実用上意味の無いデータを捨てること




                 特徴学習の基準

                                           23
4. BUILDING DEEP REPRESENTATIONS

• 特徴学習,ディープラーニングの出現
 – 2006~
 – 階層別に教師なし学習を行うというアイデ
   ア
• ディープアーキテクチャに基づく特徴学
  習
 – より良い表現抽出をスタックする手法
  •   分類エラーの減少を目指すもの
  •   確率モデルによって生成されたサンプルの質を
      見るもの
  •   学習した特徴の不変特性見るもの
                                   24
4. BUILDING DEEP REPRESENTATIONS

• Deep Belief Network
  – Stack pre-trained RBMs




その他DBM(Deep Boltzmann Machine), deep auto-encoder, エネルギー関数
              を利用する研究が報告されている
                                                         25
5. SINGLE-LAYER LEARNING MODULES

• 表現学習への2つのアプローチ
 – 確率的グラフィカルモデルに基づくもの(§6)
  •   隠れ変数を持つ
      –   RBM(Restricted Boltzmann Machine)
 – ニューラルネットワークに基づくもの(§7)
  •   階層構造を持つ
      –   Auto-encoder




         どちらもグラフ構造を持ち,本質的な差は無い
      → §6,7で一層で訓練する特徴学習の手法について解説
                                              26
5. SINGLE-LAYER LEARNING MODULES

• Principal Components Analysis(主成分
  分析)
 – 最古の特徴抽出アルゴリズム
   •   確率モデルと非常に関係がある
       –   固有値分解
   •   出力が基本的なauto-encoderと同じ
       –   ああああ
   •   多様体学習の単純な形式ととらえることが可能




                                      27
5. SINGLE-LAYER LEARNING MODULES

• Principal Components Analysis(主成分
  分析)




      PCAは表現学習の基本的な特徴を全て備えている
                                      28
6. PROBABILISTIC MODELS
• 確率モデルからみた特徴学習
 – 観測データ上の分布を表現する潜在変数の復
   元
 – 潜在変数ℎ, 観測データ𝑥において,確率モデ
   ル 𝑝(ℎ, 𝑥) を定義
 – 特徴量は潜在変数の確率分布 𝑝 ℎ 𝑥 →事後
   確率
 – 尤度最大化などのモデルパラメータ推定によ
   る学習


有向(Directed),無向(Undirected)のグラフィカルモデルそれぞれの特徴学習
                         の研究が存在               29
6. PROBABILISTIC MODELS
1. Directed Graphical Models
  – 原因 ℎ と結果 𝑥 が対応するモデル
     • 𝑝 𝑥, ℎ = 𝑝 𝑥 ℎ 𝑝(ℎ), ※は尤度
  – 原因と結果に1対1の対応がある
     • 𝑝 𝑥 ℎ の分布が集中している




  PCA, Sparse Coding, Sigmoid Belief Networks, Spike-and-Slab sparse
                    coding model 等が挙げられる                               30
6. PROBABILISTIC MODELS
1. Directed Graphical Models
  2. Probabilistic Interpretation of PCA
    •   主成分分析の確率的解釈




                                           31
6. PROBABILISTIC MODELS
1. Directed Graphical Models
  3. Sparse Coding
    •   たくさんいるニューロンのうち、ホンの一部の
        ニューロンだけが活動して、情報の重複をでき
        るだけ抑えて情報を表現する方法
    •   非確率的な視点
        –   ああああ
        –   Xごとに活動するhを決定づける辞書Wを学習
        –   ああああ
        –   Jscが最小になるように訓練データを学習
        –   WhはL1正則化項として機能



                                    32
6. PROBABILISTIC MODELS
1. Directed Graphical Models
  3. Sparse Coding
    •   確率的解釈




        –   p(h)は事前分布にラプラス分布を仮定
        –   MAP推定によるWの推定




 CIFAR-10という分類タスクで良い性能を示した。Spike-and-Slab Sparse
       Codingという派生型がNIPS’11の転移学習のタスクで優勝            33
6. PROBABILISTIC MODELS
2. Undirected Graphical Models
  – Markov Random Fields(MRFs)とも呼ばれる

  – 教師無し特徴学習ではボルツマン分布を利用
    した形式を用いることが多い

  – 変数間の相互作用はエネルギー関数として定
    義

    • U,V,W,b,dはモデルパラメータ

                                       34
6. PROBABILISTIC MODELS
2. Undirected Graphical Models
  – 条件付き確率




  – 事後分布の推定は周辺化で行う




                                 35
6. PROBABILISTIC MODELS
2. Undirected Graphical Models
  1. Restricted Boltzmann Machines
     • Eq.7でU,V=0とし,単純化したもの
     • 観測データと隠れ変数の2部グラフの形式




様々な成果が報告されている(fMRI image classification, motion and spatial
   transformations, collaborative filtering, natural image modeling) 36
6. PROBABILISTIC MODELS
3. Generalizations of the RBM to Real-
   valued data
  – 画像データに対し、様々な拡張が提案
    • Gaussian RBM, mean and covariance RBM,
      covariance RBM, spike-and-slab RBM




      学習した特徴とトレーニングデータの画像が近い様子
                                               37
6. PROBABILISTIC MODELS
4. RBM parameter estimation
  – Log likelihood



  – 勾配               positive phase




                     negative phase


  – Positive phaseは簡単に計算可能だが、
    negative phaseは難しい
                                      38
6. PROBABILISTIC MODELS
4. RBM parameter estimation
  – パラメータの独立性を利用


  – ギブスサンプリングで収束するまで実行


(問題点)
   • Burn-in: 初期のGibbs Samplingが悪いと収束に時間がかかる
   • Negative-phaseの収束→勾配の計算 の繰り返しで計算量が多い
(negative-phase のburn-inを対策したアルゴリズム)
• Constrastive Divergence
• Stochastic Maximum Likelihood
• Fast-weight persistent contrastive divergence (FPCD)

                                                         39
6. PROBABILISTIC MODELS
4. RBM parameter estimation
  1. Contrastive Divergence
    •   Positive phaseを先に実行
    •   Gibbs sampling を数回実行するのみ




                                   40
6. PROBABILISTIC MODELS
4. RBM parameter estimation
  2. Stochastic Maximum Likelihood
    •   Negative phaseは前のxの状態で更新




    •   Fast-weight persistent contrastive divergence
        (FPCD)
        –   勾配に比例して更新量を調整




                                                        41

More Related Content

What's hot

[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−Deep Learning JP
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4matsuolab
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic DatasetsDeep Learning JP
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-Deep Learning JP
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめYusuke Uchida
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 

What's hot (20)

[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 

Similar to Deep learning勉強会20121214ochi

Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016cvpaper. challenge
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26sekizawayuuki
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?cvpaper. challenge
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...Deep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択無職
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースHajime Yanagawa
 
Active Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkActive Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkNaoki Matsunaga
 

Similar to Deep learning勉強会20121214ochi (20)

Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェース
 
Active Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkActive Learning と Bayesian Neural Network
Active Learning と Bayesian Neural Network
 

More from Ohsawa Goodfellow

Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Ohsawa Goodfellow
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半Ohsawa Goodfellow
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半Ohsawa Goodfellow
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Ohsawa Goodfellow
 
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Ohsawa Goodfellow
 
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...Ohsawa Goodfellow
 
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De... Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...Ohsawa Goodfellow
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Ohsawa Goodfellow
 
Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Ohsawa Goodfellow
 
第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程Ohsawa Goodfellow
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介Ohsawa Goodfellow
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介Ohsawa Goodfellow
 

More from Ohsawa Goodfellow (12)

Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
 
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
 
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
 
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De... Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)
 
第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介
 

Deep learning勉強会20121214ochi

  • 1. Representation Learning: A Review and New Perspectives Yoshua Bengio, Aaron Courville, and Pascal Vincent Department of computer science and operations research, U. Montreal 12/14 2012 D1 大知 正直 1
  • 2. Abstract • 機械学習アルゴリズムの性能 – データ表現に依存 • データの背後にある真の説明因子が複雑で,隠 されてしまっている • ドメイン依存の知識や,一般的な前提知識を データ表現の設計に利用することができる • こうした前提知識をもっと強力に学習する表現 学習アルゴリズムがAI分野で求められている 7
  • 3. Abstract • この論文の内容 – 教師なしの特徴学習,ディープラーニング の結合学習に関する最近の研究成果のレ ビュー – 確率モデル,オートエンコーダ,多様体学 習,ディープアーキテクチャをカバー 8
  • 4. Abstract • この論文の内容 – 長期的な難問を提起するのが目的 • 良い表現を学習,推定するための適切な対象 • 表現学習,密度推定,多様体学習間の幾何学的 な接続 9
  • 5. 1. INTRODUCTION • 機械学習アルゴリズムの性能 – データ(特徴)表現の選択に強く依存 • データの変換にすごく手間をかけている現状 • 特徴量のエンジニアリングも人間の創造性や前 提知識を利用してしまっている • AIは本質的に人間の身の回りの世界を理 解しなければならない – 低レベルの知覚可能なデータの根本にある 説明要因を分解し学習することができれば 可能 10
  • 6. 1. INTRODUCTION • 本稿の内容 – 特徴学習(feature learning),表現学習 (representation learning) • 分類器や予測器の作成時に有用な情報の抽出が 簡単になるようなデータの変換を学習すること • ディープラーニングによる特徴学習に注目 – より抽象的な表現を作ることを目的とした複数回の非 線型データ変換 – 近年の発展途上の領域だが、特に最近の進展の内容を 強調 11
  • 7. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS? • 様々な分野での表現学習について言及 1. Speech Recognition and Signal Processing(音声認識と信号処理) – MAVIS(Microsoft Research) が約30%のエ ラー率改善 2. Object Recognition(物体認識) – MNIST(数字認識タスク)においてディープ ラーニングがSVMの1.4%のエラー率を 0.27%に改善 – ImageNet(自然画像のデータセット)認識タ スクで15.3%のエラー率へ改善 12
  • 8. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS? 3. Natural Language Processing(自然言語 処理) – SENNAシステム・・・言語モデリングを行う タスク(品詞タグ付け,チャンキング,固有 名詞認識,意味役割ラベリング,構文解析) 向けのシステム – (Mikolov et al., 2011)は隠れ層を再帰的に追加 する手法で、平滑化n-gramをperplexity,品詞 認識のエラー率で上回る 13
  • 9. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS? 4. Multi-Task and Transfer Learning, Domain Adaptation(マルチタスク,転 移学習,ドメイン適応) 説明要因(赤い◯)を発見す る表現学習モデルのイメージ 図. タスク間での統計的強度の共 有が表現の一般性の獲得を可 能にする. ICML2011, NIPS2011の ワークショップで良い結果が 報告されている 14
  • 10. 3. WHAT MAKES A REPRESENTATION GOOD? 1. 人工知能による表現学習の前提 – Smoothness(平滑性) • 3-2で議論 – Multiple explanatory factors(複数の説明要 因) • 3-5で議論(3-3で議論する分散化した表現が前提 にある) – A hierarchical organization of explanatory factors(説明要因の階層化) • 抽象的な概念はより上の階層へ(3-4で議論する “deep representation”が利用される仮定) 15
  • 11. 3. WHAT MAKES A REPRESENTATION GOOD? 1. 人工知能による表現学習の前提 – Semi-supervised learning(半教師あり学 習) • 𝑋の分布を表現する𝑃(𝑋)は𝑃(𝑌|𝑋)の表現に有用. 教師あり,無し学習間の表現の共有を可能にする (4で議論) – Shared factors across tasks • 𝑋と𝑡𝑎𝑠𝑘で共有された表現が説明要因となる(2- 3で述べた) 16
  • 12. 3. WHAT MAKES A REPRESENTATION GOOD? 1. 人工知能による表現学習の前提 – Manifolds(多様性) • 元のデータ空間より小さな次元数を持つ局所的な 領域にデータが集中している場合,オートエン コーダアルゴリズムや他の多様体学習のアルゴリ ズムが利用される(7-2,8で議論) – Natural clustering • 多様体上での局所的な分布がそのままクラスタに なっている状態(人間が考える固有のカテゴリ, クラスといった概念と一致)8-3 Manifold Tangent Classifierで議論 17
  • 13. 3. WHAT MAKES A REPRESENTATION GOOD? 1. 人工知能による表現学習の前提 – Temporal and spatial coherence • 時間,空間的に近くな状態からの観測は似たよう な結果をもたらしやすい(11-3で議論) – Sparsity • 観測データ𝑥で実際に関係のある要因がほんのわ ずかであること(6-1-3, 7-2で議論) これらの前提は学習器がデータの根底にある説明要因を学習,分解する手法 として,頻繁に見られる 18
  • 14. 3. WHAT MAKES A REPRESENTATION GOOD? 2. 平滑性と次元の呪い カーネル関数を用いて,局所 的で平滑な線形モデルを構築 することで解決 こうしたカーネルそのものの発見も表現学習に含まれると考える 19
  • 15. 3. WHAT MAKES A REPRESENTATION GOOD? 3. 分散化した表現 – 良い表現 • 表現力豊かであること – 入力領域を識別するのに十分な数のパラメータを持っ ているか » GMM, kNN, 決定木, Gaussinan SVM は 𝑂(𝑁)個の 入力領域の識別に𝑂(𝑁)個のパラメータが必要 » RBMs(Restricted Boltzmann Machines), スパース コーディング, オートエンコーダ,多層ニューラル ネットワーク は 𝑂(2 𝑘 )個までの入力領域の識別に ただ𝑂(𝑁)個のパラメータがあればよい。(kは0で ない要素の数) 良い表現=分散化した表現(distributed representation) 20
  • 16. 3. WHAT MAKES A REPRESENTATION GOOD? 4. Depth and abstraction(深さと抽象性) – 特徴の再利用 計算的,統計的な効率性を持つ ディープラーニングの背後にある利点 21
  • 17. 3. WHAT MAKES A REPRESENTATION GOOD? 4. Depth and abstraction(深さと抽象性) – 抽象性と不変性 • ディープアーキテクチャは抽象性の低いもの同士 の関係性からより抽象性の高いものを構築する • 抽象性の高い表現は一般的には極めて局所的な変 化に対して不変 • 分類という概念に一致 不変的な特徴の学習はパターン認識の大きな目標の一つ 22
  • 18. 3. WHAT MAKES A REPRESENTATION GOOD? 5. Disentangling Factors of Variation(変化 の要因の分解) – 特徴学習へのアプローチ • 可能な限りたくさんの要因に分解すること • ほとんど実用上意味の無いデータを捨てること 特徴学習の基準 23
  • 19. 4. BUILDING DEEP REPRESENTATIONS • 特徴学習,ディープラーニングの出現 – 2006~ – 階層別に教師なし学習を行うというアイデ ア • ディープアーキテクチャに基づく特徴学 習 – より良い表現抽出をスタックする手法 • 分類エラーの減少を目指すもの • 確率モデルによって生成されたサンプルの質を 見るもの • 学習した特徴の不変特性見るもの 24
  • 20. 4. BUILDING DEEP REPRESENTATIONS • Deep Belief Network – Stack pre-trained RBMs その他DBM(Deep Boltzmann Machine), deep auto-encoder, エネルギー関数 を利用する研究が報告されている 25
  • 21. 5. SINGLE-LAYER LEARNING MODULES • 表現学習への2つのアプローチ – 確率的グラフィカルモデルに基づくもの(§6) • 隠れ変数を持つ – RBM(Restricted Boltzmann Machine) – ニューラルネットワークに基づくもの(§7) • 階層構造を持つ – Auto-encoder どちらもグラフ構造を持ち,本質的な差は無い → §6,7で一層で訓練する特徴学習の手法について解説 26
  • 22. 5. SINGLE-LAYER LEARNING MODULES • Principal Components Analysis(主成分 分析) – 最古の特徴抽出アルゴリズム • 確率モデルと非常に関係がある – 固有値分解 • 出力が基本的なauto-encoderと同じ – ああああ • 多様体学習の単純な形式ととらえることが可能 27
  • 23. 5. SINGLE-LAYER LEARNING MODULES • Principal Components Analysis(主成分 分析) PCAは表現学習の基本的な特徴を全て備えている 28
  • 24. 6. PROBABILISTIC MODELS • 確率モデルからみた特徴学習 – 観測データ上の分布を表現する潜在変数の復 元 – 潜在変数ℎ, 観測データ𝑥において,確率モデ ル 𝑝(ℎ, 𝑥) を定義 – 特徴量は潜在変数の確率分布 𝑝 ℎ 𝑥 →事後 確率 – 尤度最大化などのモデルパラメータ推定によ る学習 有向(Directed),無向(Undirected)のグラフィカルモデルそれぞれの特徴学習 の研究が存在 29
  • 25. 6. PROBABILISTIC MODELS 1. Directed Graphical Models – 原因 ℎ と結果 𝑥 が対応するモデル • 𝑝 𝑥, ℎ = 𝑝 𝑥 ℎ 𝑝(ℎ), ※は尤度 – 原因と結果に1対1の対応がある • 𝑝 𝑥 ℎ の分布が集中している PCA, Sparse Coding, Sigmoid Belief Networks, Spike-and-Slab sparse coding model 等が挙げられる 30
  • 26. 6. PROBABILISTIC MODELS 1. Directed Graphical Models 2. Probabilistic Interpretation of PCA • 主成分分析の確率的解釈 31
  • 27. 6. PROBABILISTIC MODELS 1. Directed Graphical Models 3. Sparse Coding • たくさんいるニューロンのうち、ホンの一部の ニューロンだけが活動して、情報の重複をでき るだけ抑えて情報を表現する方法 • 非確率的な視点 – ああああ – Xごとに活動するhを決定づける辞書Wを学習 – ああああ – Jscが最小になるように訓練データを学習 – WhはL1正則化項として機能 32
  • 28. 6. PROBABILISTIC MODELS 1. Directed Graphical Models 3. Sparse Coding • 確率的解釈 – p(h)は事前分布にラプラス分布を仮定 – MAP推定によるWの推定 CIFAR-10という分類タスクで良い性能を示した。Spike-and-Slab Sparse Codingという派生型がNIPS’11の転移学習のタスクで優勝 33
  • 29. 6. PROBABILISTIC MODELS 2. Undirected Graphical Models – Markov Random Fields(MRFs)とも呼ばれる – 教師無し特徴学習ではボルツマン分布を利用 した形式を用いることが多い – 変数間の相互作用はエネルギー関数として定 義 • U,V,W,b,dはモデルパラメータ 34
  • 30. 6. PROBABILISTIC MODELS 2. Undirected Graphical Models – 条件付き確率 – 事後分布の推定は周辺化で行う 35
  • 31. 6. PROBABILISTIC MODELS 2. Undirected Graphical Models 1. Restricted Boltzmann Machines • Eq.7でU,V=0とし,単純化したもの • 観測データと隠れ変数の2部グラフの形式 様々な成果が報告されている(fMRI image classification, motion and spatial transformations, collaborative filtering, natural image modeling) 36
  • 32. 6. PROBABILISTIC MODELS 3. Generalizations of the RBM to Real- valued data – 画像データに対し、様々な拡張が提案 • Gaussian RBM, mean and covariance RBM, covariance RBM, spike-and-slab RBM 学習した特徴とトレーニングデータの画像が近い様子 37
  • 33. 6. PROBABILISTIC MODELS 4. RBM parameter estimation – Log likelihood – 勾配 positive phase negative phase – Positive phaseは簡単に計算可能だが、 negative phaseは難しい 38
  • 34. 6. PROBABILISTIC MODELS 4. RBM parameter estimation – パラメータの独立性を利用 – ギブスサンプリングで収束するまで実行 (問題点) • Burn-in: 初期のGibbs Samplingが悪いと収束に時間がかかる • Negative-phaseの収束→勾配の計算 の繰り返しで計算量が多い (negative-phase のburn-inを対策したアルゴリズム) • Constrastive Divergence • Stochastic Maximum Likelihood • Fast-weight persistent contrastive divergence (FPCD) 39
  • 35. 6. PROBABILISTIC MODELS 4. RBM parameter estimation 1. Contrastive Divergence • Positive phaseを先に実行 • Gibbs sampling を数回実行するのみ 40
  • 36. 6. PROBABILISTIC MODELS 4. RBM parameter estimation 2. Stochastic Maximum Likelihood • Negative phaseは前のxの状態で更新 • Fast-weight persistent contrastive divergence (FPCD) – 勾配に比例して更新量を調整 41