SlideShare a Scribd company logo
1 of 30
Representation Learning: A Review and New
Perspectives
Y. Bengio, A. Courville and P, Vincent, 2012

2012/12/14(金) Deep Learning 勉強会

東京大学大学院 工学系研究科 技術経営戦略学専攻
大澤 昇平
ADGENDA


   • 7. Direct Encoding: Learning a Parametric Map from
    Input to Representation

   • 8. Representation Learning as Manifold Learning
   • 9. Connections between Probabilistic and Direct
    Encoding Models

   • 10. Global Training of Deep Models

   • 11. Building-in Invariance
   • 12. Conclusion

                                                          1
ADGENDA


   • 7. Direct Encoding: Learning a Parametric Map from
    Input to Representation

   • 8. Representation Learning as Manifold Learning
   • 9. Connections between Probabilistic and Direct
    Encoding Models

   • 10. Global Training of Deep Models

   • 11. Building-in Invariance
   • 12. Conclusion

                                                          2
7. Direct Encoding: Learning a Parametric Map from Input to Representation
Non-probabilistic feature learning paradigm
•    Section 6 では、学習された表現は、ある潜在変数の事後確率に基づくものであった(probabilistic feature learning)
        • 潜在変数の事後確率は、それ自体では特徴ベクトルにはならない
               • 特徴ベクトルベースの分類器(e.g. SVM)に入れられない
        • 実際の特徴ベクトルは分布から導出される(期待値、marginal probability、最尤値)
        • このような事後確率は、モデルが相互に接続された層を持つ場合、しばしば複雑になりうる
        • そのため、サンプリングや近似推論の技術が用いられる

•    最終的に得られるアウトプットが特徴ベクトルなのであれば、事後確率を導出する手順を省略することで、より効率的な計算が可能
     なのではないか
       •  Non-probabilistic feature learning (e.g. auto-encoder)



    Probabilistic Feature Learning (e.g. sparse coding)        Non-probabilistic Feature Learning (e.g. auto-encoder)

    Observed                                                   Observed




    Latent                                                     Latent



                                              0.257                            0.257
                                           Feature Vector                    Feature Vector
             Prior (complicated)


                                                                                                                3
7. Direct Encoding: Learning a Parametric Map from Input to Representation
Auto-encoder
•   Auto-encoder framework [Lecaum 1987][Bourland 1988][Hinton 1994] : unsupervised feature
    construction method の一つ。
     • auto-: 「自己の」 auto-encoder を直訳すると自己符号器
     • encoder, decoder, reconstruction error の 3 つの要素から構成。
     • encoder と decoder の合成写像が入力値を再現するような学習を行う。
     • 学習は入力値と出力値の誤差(reconstruction error)を最小化することで行われる。
     • この操作によって、入力値をより適切な表現に写像する auto-encoder が得られる。


                                                                                        𝑇
                                                                                                   𝑡                𝑡
                                                        𝜃 = argmin 𝒥DAE (𝜃) = argmin         𝐿 𝑥       , 𝑔 𝜃 𝑓𝜃 𝑥
                                                               𝜃                   𝜃
                 Reconstruction                                                        𝑡=1
    t-th Input                                                                                             Output
    Vector             Encoder               Representation Vector      Decoder                            Vector


        𝑥 (𝑡)                    𝑓𝜃                     𝑕(𝑡)                  𝑔𝜃                              𝑟 (𝑡)


                                              Reconstruction Error

                                                         𝐿



                                                                                                                        4
7. Direct Encoding: Learning a Parametric Map from Input to Representation
An instance of auto-encoder: identical function
•   恒等写像は最も trivial な auto-encoder

                Input                              Representation                 Output
                               Encoder                                Decoder

                  𝑥 (1)                                   𝑥 (1)                     𝑥 (1)

                  𝑥 (2)                                   𝑥 (2)                     𝑥 (2)
                                     id                                      id

                  𝑥 (𝑇)                                   𝑥 (𝑇)                     𝑥 (𝑇)



                                               Reconstruction Error
                                                           𝐿
                                                        =0
            Representation が入力ベクトルと同じなため、入力ベクトルの適切な表現を得るという目的は果たせていない


                                                                                            5
7. Direct Encoding: Learning a Parametric Map from Input to Representation
An instance of auto-encoder: affine mapping
•   エンコーダと デコーダをアフィン写像( 𝑏, 𝑊 , *𝑑, 𝑊′+) + 活性関数(𝑠 𝑓 , 𝑠 𝑔 )によって構築
•   入力空間が非有界の場合
     • 𝑠 𝑓 = 𝑠 𝑔 = id, 𝐿 𝑥, 𝑟 = 𝑥 − 𝑟 2 主成分分析と等価
•   入力空間が [0,1] の場合
     • 𝑠 𝑓 = 𝑠 𝑔 = sigmoid, 𝐿 𝑥, 𝑟 = 𝑥 − 𝑟 2
•   入力空間が {0,1} の場合
     • 𝑠 𝑓 = 𝑠 𝑔 = sigmoid, 𝐿 𝑥, 𝑟 = − 𝑥 𝑖 log 𝑟𝑖 + 1 − 𝑟𝑖 log(1 − 𝑟𝑖 ) (交差エントロピー)

                Input                                                                  Output
                                   Encoder         Representation            Decoder
                  𝑥 (1)                                                                  𝑟 (1)
                                                          𝑕(1)
                  𝑥 (2)                                   𝑕(2)                           𝑟 (2)



                                                          𝑕(𝑑ℎ )
                  𝑥 (𝑑 𝑥 )                                                               𝑟 (𝑑 𝑥 )
                                                 Bottleneck: 𝑑 𝑕 < 𝑑 𝑥
                                                 Overcomplete: 𝑑 𝑕 > 𝑑 𝑥
                                               Reconstruction Error
                                                           𝐿
                                                                                                    6
7. Direct Encoding: Learning a Parametric Map from Input to Representation
Regularized auto-encoders
•   ここでは、auto-encoders に対して正規化を行った亜種について紹介


•   Sparse auto-encoders
•   Denoising auto-encoders (DAE)
•   Contractive auto-encoders (CAE)
•   Predictive sparse decomposition (PSD)




                                                                             7
7. Direct Encoding: Learning a Parametric Map from Input to Representation
Sparse auto-encoders
•   single-layer auto-encoders を積み上げることにより deep architecture を構築する方法[Bengio 2007]
      • エンコーダとデコーダの重みを一緒にする
      • 疎性正規化(sparsity regularization)を行なう[Ranzato 2007]

•   疎性を実現する方法はいくつか提案されている
     • 隠れユニットのバイアスにペナルティを掛ける[Ranzato 2007][Lee 2008][Goodfellow 2009][Larochelle
       2008]
             • バイアスにペナルティを掛けるのは、重みがバイアスを打ち消し、パラメータの数値最適化に悪影響
               を与える(?)
             • あまり良くないらしいです
     • 隠れユニットの出力に直接ペナルティを掛ける[Ranzato 2008][Le 2011a][Zou 2011]
             • いくつかの亜種が存在しているが、それらを比較実験した論文は存在しない
             • 最も自然なのは L1 ペナルティ(𝑕 𝑗 の総和)。
                   • sparse auto-encoders の論文にはあまり使われてない
             • Student-t ペナルティ log(1 + 𝑕2 ) [Olshausen 1997]
                                                𝑗
             • 平均出力 𝑕 𝑗
                   • 隠れユニットが 1 を出力する確率に該当
                   • 𝑕 𝑗 を目標値に近づける
                          • 確率 𝜌 の 2 項分布との KL ダイバージェンスをペナルティに
                            − 𝜌 log 𝑕 𝑗 − 1 − 𝜌 log(1 − 𝑕 𝑗 )
                          • 𝜌 はたとえば 0.05 くらい




                                                                                    8
7. Direct Encoding: Learning a Parametric Map from Input to Representation
Denoising auto-encoders
•   [Vincent 2008][Vincent 2010] では、auto-encoder の目的関数を、単なる自己再構築から、人工的に加えら
    れたノイズを除去するものへと変更している(i.e. 元入力を、改悪データから再構築するように学習する)
       • 恒等写像を学習するだけでは不十分
             • 学習器は、元入力の分布の構造を、データの改悪プロセスを修復するように捉えなければならない
             • 再構築は、改悪された入力に近く、しかし分布が密になるように行われる必要がある




                                                             •               入力の改悪の確率分布

                                                             •                入力の改悪に対する期待値


                                                                                             9
7. Direct Encoding: Learning a Parametric Map from Input to Representation
Contractive auto-encoders (CAE) [Rifai 2011a]
•   Denoising auto-encoders (DAE) と似たモチベーションの auto-encoder
     • Contractive penalty 項を auto-encoder の目的関数に加える
            • エンコーダのヤコビ行列のフロベニウスノルム
            • 入力の摂動に対する特徴量の感度(sensitivity)にペナルティを与える




                                                                      contractive penalty
              • ただし J はエンコーダのヤコビ行列
              • λ は正規化の強さを制御する超パラメータ
      • アフィン・シグモイド・エンコーダの場合、contractive penalty は簡単に計算できる




      • DAE との違い
              • 再構築写像ではなく、特徴量に直接ペナルティを与えている
              • ペナルティは確率的よりは解析的
              • 超パラメータ λ は、再構築と頑健性の間のトレードオフを細かくコントロールする
•   CAE+H [Rifai 2001b]
     • CAE に高階導関数へのペナルティを与えるようにしたもの


                                                                     高階導関数へのペナルティ
                                                                                            10
7. Direct Encoding: Learning a Parametric Map from Input to Representation
Predictive sparse decomposition
•   Section 6 で説明した sparse coding [Olshausen and Field 1997] は、線形のデコーダと自乗再構築誤差を
    用いる auto-encoder と解釈可能
•   しかし、ノンパラメトリックなエンコーダ 𝑓 𝜃 は比較的 non-trivial で、目的関数の最小化はコストが高い
     • エンコーダの出力 h とデコーダのパラメータ W を反復的に最適化する必要があるため
          cf.) sparse coding




•   Predictive Sparse Decomposition (PSD) [Kavukcuoglu et al. 2008] は、上記問題を部分的に解決して
    いる sparse conding の亜種
     • 認識(特徴量の学習)を行なっている間の、コストが高く・非線形なエンコーディングの過程を、非反復的な近
       似によって置換
     • 画像や動画中の物体認識に応用されている[Kavukcuoglu et al. 2009][Kavukcuoglu et al.
       2010][Jarett et al. 2009][Farabet et al. 2011]
     • 音声認識[Henaff et al. 2011]
      • 以下の目標関数を特徴量 h、パラメータ (W, α) に関して最適化する




              スパース性            デコーダの誤差         エンコーダの誤差

      • [Kavukcuoglu et al. 2010] は tanh の代わりに shrinkage operation を利用

                                                                                 11
ADGENDA


   • 7. Direct Encoding: Learning a Parametric Map from
    Input to Representation

   • 8. Representation Learning as Manifold Learning
   • 9. Connections between Probabilistic and Direct
    Encoding Models

   • 10. Global Training of Deep Models

   • 11. Building-in Invariance
   • 12. Conclusion

                                                          12
8. Representation Learning as Manifold Learning
Predictive sparse decomposition
•   Representation learning の他の重要な視点として、多様体の幾何学的観点に基づくものがある
     • 多様体仮説(manifold hypothesis)[Cayton 2005][Marayanan and Mitter 2010]
              • 高次元空間 𝐑 𝑑 𝑥 上に配置された実世界のデータは、 𝐑 𝑑 𝑥 に埋め込まれた非常に低い次元 𝑑 𝑀 を持つ多様体 𝑀 の
                近くに集中していることが期待される
     • “representation” といった瞬間に、学習された representation を反映した多様体を思い浮かべる人は多い
•   多様体上では、接線方向は保存され、法線方向は保存されない
     • この視点をもとに、初期の教師なし学習タスクでは、データに基づく多様体の構造をモデル化することが行われてきた
     • 学習された representation は、埋め込まれた多様体上における内在的な座標系に対応する
     • 典型的な多様体モデリング=主成分分析
              • 主成分分析は、線形多様体をモデリングする
              • [Pearson 1901]によって、データの雲に対してもっとも近い線形多様体(直線 or 平面)を探索する目的で提案された
              • 主成分分析によって抽出された表現 𝑓 𝜃 は、多様体への射影に対応
              • 主成分は、多様体の内在的な座標に対応
     • しかし、複雑な実世界のドメインに対する多様体は、強く非線形であることが予想される
     • このモデリングは、局所的に線形な接空間を張り合わせることで行われる[Vincent and Bengio 2003][Brand 2003]
     • 幾何学的観点に基づくアルゴリズムの多くは、最近傍グラフに基づくノンパラメトリックなアプローチを採用している[Scholkopf
       et al 1998][Roweis and Saul 2000][Tenenbaum et al. 2000][Brand 2003][Belkin and Niyogi 2003][Donoho and
       Grimes 2003][Weinberger and Saul 2004][Hinton and Roweis 2003][Maaten and Hinton 2008]
              • これらのノンパラメトリックなアプローチでは、高次元の学習点は自由な低次元の埋め込まれた座標を持ち、それは近
                傍グラフのある特徴を高次元の入力空間でも再現するように行われる
              • これらの手法はパレメトライズされた特徴抽出関数 𝑓 𝜃 (𝑥) を直接学習するわけではないので、新しい点には適用でき
                ない
              • 比較的、非線形多様体をパラメトリックな写像を学習することで直接新しい点の表現を計算できるようにする手法は尐
                ない
                    • 以降では、これにフォーカスする




                                                                                                           13
8. Representation Learning as Manifold Learning
Learning a Parametric Mapping based on a Neighborhood Graph
•   ここまで述べた非線形の多様体学習アルゴリズムは、すべて教師データの近傍グラフに基づく
     • 学習点の間のユークリッド距離によって導出
     • そのうちいくつかは、ノンパラメトリックなものから、パラメトリックな写像 𝑓 𝜃 に容易に変えられる
          • すべての学習点が自由な低次元の座標系を持つのではなく、座標系が一つのパラメトリックな関数
            から得られるようにする
          • パラメトリックな関数のパラメータを学習する
          • 成功しているノンパラメトリックな多様体埋め込みアルゴリズム t-SNE [Maaten and Hinton 2008]
            は、直接的なパラメトリックなエンコーディングに適用することができる

•   Semi-supervised embedding [Weston 2008]
     • Deep parameterized neural network が多様体の埋め込みと分類器を同時に学習
     • 分類コストを学習するだけでなく目的関数は、中間層の表現が近傍に対して不変になるようにする

•   自由パラメータの数を減らすことは、ノンパラメトリックな手法と比べて、モデルを非局所的に一般化する[Bengio
    at al. 2006b]
     • もし一般化が有効であれば、よりよい特徴量とパフォーマンスを得ることができる[Maaten and Hinton
        2008]

•   しかし、近傍関係に基づく多様体のモデリングは、高次元空間では統計的にリスキーである
     • 次元の呪い




                                                                       14
8. Representation Learning as Manifold Learning
Learning a Non-linear Manifold through a Coding Scheme 1/2
•   近傍探索に基づかない多様体の学習方法について述べる
•   PCA: 線形多様体によるモデリング の場合
     • 基底ベクトルは、入力点を射影するために使われる
     • 抽出された成分の入力に対する感度は、どの位置 𝑥 にか
       かわらず一定である
           • つまり、接空間は線形多様体ではどこでも一緒

•   非線形多様体の場合
     • 接空間は場所を移動すると変わる(右図参照)
     • 非線形の representation learning では、特徴量の 入力に
       対する局所的な変化を考えると便利

•   エンコーダの一階導関数は、多様体の形状を決定する
     • もし密度が多様体の周辺に集中しており、エンコーダがそれを捉えられれば、非零成分を見ることで接平面の方向を把握する
       ことができる

•   sparse coding                                           cf.) sparse coding
     • パラメータ行列 W は入力座標系の辞書であると解釈できる
              • この中から、局所的な接空間が選ばれる
              • h の非零成分が、部分空間に対応

•   Local Coordinate Coding (LCC) アルゴリズム [Yu et al. 2009]
     • Sparse coding と類似
     • 多様体の視点から導出



      • p = -1 の時は sparse coding と同一
      • x に対する anchor point を活性化する傾向(???)
                                                                                 15
8. Representation Learning as Manifold Learning
Learning a Non-linear Manifold through a Coding Scheme 2/2
•   [Rifai et al 2011a] は訓練された CAE でヤコビ行列の特異値分解を行なっている
      • SVD は直交基底を、感度の高い順に出力
      • スペクトルは、速く減衰する
              • 感度が高い直交基底は比較的尐ない
      • これは CAE が低次元多様体の接空間をモデルしていると考えられる
      • 接空間の基底の特異値の図




                                                        多様体の接線方向の
                                                        変化




      • CAE の目標関数は、次の 2 つの背反する内容を満たす
              • Isotropic contractive penalty: 特徴量が、入力がどの方向に変化しても不感応である
              • Reconstruction term : 異なる訓練点は、異なる表現を持つ
      • Isotropic contructive な圧力は多様体の接線方向に作用



                                                                          16
8. Representation Learning as Manifold Learning
Leveraging the Modeled Tangent Spaces
•   多様体上の任意の点に対応する局所接平面は、訓練点の可能な局所変化に対応する

      • [Rifai 2011c]では、数字画像、写真、文書データに対して CAE を訓練し、ヤコビ行列の SVD と共に接線方
        向を抽出
           • これらは、写真や数字の小さな変化や回転に対応し、文書データに対しては文書の同じテーマに対
             する単語に対応した。


      • このような多様体に対する非常に局所的な変化は、クラスの同一性を変えないと期待される。
              • Manifold Tangent Classifier (TMC) [Rifai et al. 2011c]
                   • Tangent distance [Simard et al. 1993]
                   • Tangent propagation [Simard et al. 1992]
                   • 事前に与えられたドメイン知識に対して、入力の変化に対して不変な分類器を作成
                   • これらの技術は、MNSIT の数字分類に対する pior-knowledge free approach の中で、新し
                      い記録を樹立している




                                                                              17
ADGENDA


   • 7. Direct Encoding: Learning a Parametric Map from
    Input to Representation

   • 8. Representation Learning as Manifold Learning
   • 9. Connections between Probabilistic and Direct
    Encoding Models

   • 10. Global Training of Deep Models

   • 11. Building-in Invariance
   • 12. Conclusion

                                                          18
9. Connections between Probabilistic and Direct Encoding Models
Probabilistic Interpretation
•   標準的な尤度のフレームワークはモデルの目標関数を 2 つに分ける
     • 対数尤度 log 𝑃(𝑥|𝜃)
     • 事前確率 log 𝑃(𝜃)

•   以降、既存手法の確率論的解釈がだらだらと続くのではしょります

•   9.1 PSD の確率的解釈
     • PSD のアルゴリズムでは標準的な確率的観点と、direct encoding computation graph の間の関係を考え
       ることができる
     • PSD の確率的モデル
            • デコーダ:sparse coding の生成モデル 𝑃 𝑥 𝑕 と等しい
            • エンコーダ:𝑃(𝑕|𝑥) の MAP iterative inference の近似解法
     • PSD では、エンコーダはデコーダと一緒に訓練される
     • エンコーダーは結合対数尤度の下界に対する MAP の解に対応(???)
     • MAP 学習が変分学習の特殊ケースとして解釈することができるとき、変分学習は尤度と変分近似の両方を
       同時に改善することができることを示唆している。




                                                                        19
ADGENDA


   • 7. Direct Encoding: Learning a Parametric Map from
    Input to Representation

   • 8. Representation Learning as Manifold Learning
   • 9. Connections between Probabilistic and Direct
    Encoding Models

   • 10. Global Training of Deep Models

   • 11. Building-in Invariance
   • 12. Conclusion

                                                          20
10. Global Training of Deep Models
On the Challenge of Training Deep Architecture

•   今までは単層の学習器の話をしてきたが、それを多層でやる場合の話

•   Convolutional network [LeCun et al. 1998b]
     • Layerwise(層ごとの(?))学習
     • 単層モデルを積み上げていくことの優位性を得られる
•   「なぜ layerwise unspervised pre-training procedure は教師あり学習を手助けするのか」[Erhan et al.
    2010b]
     • 1 度にすべての表現を学習するのではなく、中間表現(intermediate representation)を訓練する、という原理
     • 簡単な概念を最初に学習し、そこから上位の概念を学習する[Bengio et al. 2009]
     • Semi-Supervised Embedding [Weston et al. 2008]

      • 正規化効果
              • 入力の摂動に関する変化に対して鈍感になる
              • 要らない特徴量を取り除くことができる
              • Stacked RBM や DAE がニューラルネットワークによる分類器の最初の層に使われることがある
      • 最適化効果
              • ニューラルネットワークの上位 2 層は、訓練データに対してフィットする




                                                                                21
10. Global Training of Deep Models
Deep Boltzmann Machine
•    ボルツマンマシンの一種
•    RBM を多段に重ねたような形

                                         ノード値    バイアス


    中間層II                                 𝑕(2)   𝑑(2)

                                     𝑉
    中間層I                                  𝑕(1)   𝑑(1)

                                     𝑊

    入力層                                    𝑥      𝑏

    エネルギー関数




                                                        22
10. Global Training of Deep Models
Deep Boltzmann Machine: Mean-field approximate inference
•   平均場近似+変分推論によるパラメータ最適化




•   変分推論                                      log P の下限   元の分布との距離

                                     log 𝑃 𝑣 = ℒ 𝑄 𝑣 + 𝐾𝐿(𝑃||𝑄 𝑣 )




                                                                     平均場近似


•   以下の式でパラメータ最適化できる(らしい)




                                                                             23
10. Global Training of Deep Models
Deep Boltzmann Machine: Training Deep Boltzmann Machine
•   Stochastic Maximum Likelihood (SML)というのを使うらしい
•   基本的には山登り法(stochastic gradient ascent)で、尤度が増える方向にパラメータを更新していく




    これを計算したい                                   “positive phase”


                                               “negative phase”



           前頁参照


                                          [Hinton 2000] 読めとのことです




                                                                   24
ADGENDA


   • 7. Direct Encoding: Learning a Parametric Map from
    Input to Representation

   • 8. Representation Learning as Manifold Learning
   • 9. Connections between Probabilistic and Direct
    Encoding Models

   • 10. Global Training of Deep Models

   • 11. Building-in Invariance
   • 12. Conclusion

                                                          25
11. Built-in Invariance
Summary
•   11.1 Augmenting the dataset with known input deformations
     • 表現力の高いデータを訓練データとすることで、パフォーマンスを上げられる
     • 入力データのパターンの自動生成[Baird 1990]
            • 数字データに対するアフィン変換、回転[Simard et al. 2003]
            • 最近は GPU を使ったアプローチがある[Ciresan et al. 2010]

•   11.2 Convolution and pooling
     • 入力データのトポロジー構造を使う
             • 画像データの 2 次元構造、動画データの 3 次元構造
     • Local receptive fields [Hubel and Wiesel 1959]
     • Convolutional networks [Lecun et al. 2989]
•   11.3 Temporal coherence and show features
     • 動画データに対する特徴抽出に用いられる[Becker and Hinon 1993]
     • 時刻 t と時刻 t+1 の特徴量の間の偏差を取り、ペナルティを与える
            • 経時変化の尐ない特徴量が得られる

•   11.4 Algorithms to disentangle factors of variation
     • 抽出したいものに対して不変な特徴量を選ぶにはどうしたらよいか
     • 例)人物の映った動画: 被験者の同一性、行った行動、カメラに対する姿勢
     • 最初に低レベルの特徴量を抽出し、そこから高いレベルの特徴量を抽出する方法[Fukushima 1980]
     • Transforming auto-encoder [Hinton et al. 2011]




                                                                26
ADGENDA


   • 7. Direct Encoding: Learning a Parametric Map from
    Input to Representation

   • 8. Representation Learning as Manifold Learning
   • 9. Connections between Probabilistic and Direct
    Encoding Models

   • 10. Global Training of Deep Models

   • 11. Building-in Invariance
   • 12. Conclusion

                                                          27
12. Conclusion
Conclusion
•   本論文がカバーした、representation learning と deep learning に関する技術
     • (a) 確率モデル: sparse conding、Boltzmann machine
     • (b) 再構築ベースモデル: auto-encorders
     • (c) 多様体学習
•   今後の課題など
     • Practical concerns and guidelines
            • 人工ニューラルネットワークや deep learning の課題は、超パラメータや変数の数が多
              く、その調整が人間の勘に委ねられている点
            • “Tricks of the Trade” [Orr and Muller 1998]

     • Incorporating generic AI-level priors
             • Prior のリストを増やしたり修正したりし、どれか一つにフォーカスするのではなく、それ
                 ぞれの関係を考慮するべき(???)




                                                               28
参考書籍

•   資料作成にあたり、以下の文献を参考にいたしました


                   赤穂昭太郎:カーネル多変量解析

                   •   多様体
                   •   ISOMAP
                   •   局所線形埋め込み法




                   ぷれむる(下)

                   •   マルコフ確率場
                   •   ボルツマンマシン(文中ではイジングモデルとして記述)
                   •   変分法
                   •   MCMC




                                                    29

More Related Content

What's hot

Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知Yuto Mori
 
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...Masatoshi Yoshida
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 
TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門tak9029
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門佑馬 斎藤
 
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)Preferred Networks
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018Takahiro Kubo
 
[DL輪読会]Object-Centric Learning with Slot Attention
[DL輪読会]Object-Centric Learning with Slot Attention[DL輪読会]Object-Centric Learning with Slot Attention
[DL輪読会]Object-Centric Learning with Slot AttentionDeep Learning JP
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)MLSE
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験myxymyxomatosis
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 

What's hot (20)

Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知
 
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門
 
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
[DL輪読会]Object-Centric Learning with Slot Attention
[DL輪読会]Object-Centric Learning with Slot Attention[DL輪読会]Object-Centric Learning with Slot Attention
[DL輪読会]Object-Centric Learning with Slot Attention
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 

Similar to Deep Learning 勉強会 (Chapter 7-12)

Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Ohsawa Goodfellow
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測Makoto Yui
 
Variational autoencoder
Variational autoencoderVariational autoencoder
Variational autoencoderMikio Shiga
 
Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装するShuhei Iitsuka
 
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用MITSUNARI Shigeo
 
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-Hironobu Fujiyoshi
 
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical SearchWSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Searchsleepy_yoshi
 
IGORpro_basic_japanese_ver.1.0
IGORpro_basic_japanese_ver.1.0IGORpro_basic_japanese_ver.1.0
IGORpro_basic_japanese_ver.1.0Satoshi Kume
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
『データ解析におけるプライバシー保護』勉強会 秘密計算
『データ解析におけるプライバシー保護』勉強会 秘密計算『データ解析におけるプライバシー保護』勉強会 秘密計算
『データ解析におけるプライバシー保護』勉強会 秘密計算MITSUNARI Shigeo
 
Node.jsでつくるNode.js ミニインタープリター&コンパイラー
Node.jsでつくるNode.js ミニインタープリター&コンパイラーNode.jsでつくるNode.js ミニインタープリター&コンパイラー
Node.jsでつくるNode.js ミニインタープリター&コンパイラーmganeko
 
Python physicalcomputing
Python physicalcomputingPython physicalcomputing
Python physicalcomputingNoboru Irieda
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative OptimizationTakuya Minagawa
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用Seiya Tokui
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
20170408cvsaisentan6 2 4.3-4.5
20170408cvsaisentan6 2 4.3-4.520170408cvsaisentan6 2 4.3-4.5
20170408cvsaisentan6 2 4.3-4.5Takuya Minagawa
 

Similar to Deep Learning 勉強会 (Chapter 7-12) (20)

Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測
 
Variational autoencoder
Variational autoencoderVariational autoencoder
Variational autoencoder
 
Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装する
 
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
 
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
 
W8PRML5.1-5.3
W8PRML5.1-5.3W8PRML5.1-5.3
W8PRML5.1-5.3
 
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical SearchWSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
 
IGORpro_basic_japanese_ver.1.0
IGORpro_basic_japanese_ver.1.0IGORpro_basic_japanese_ver.1.0
IGORpro_basic_japanese_ver.1.0
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
『データ解析におけるプライバシー保護』勉強会 秘密計算
『データ解析におけるプライバシー保護』勉強会 秘密計算『データ解析におけるプライバシー保護』勉強会 秘密計算
『データ解析におけるプライバシー保護』勉強会 秘密計算
 
Node.jsでつくるNode.js ミニインタープリター&コンパイラー
Node.jsでつくるNode.js ミニインタープリター&コンパイラーNode.jsでつくるNode.js ミニインタープリター&コンパイラー
Node.jsでつくるNode.js ミニインタープリター&コンパイラー
 
Python physicalcomputing
Python physicalcomputingPython physicalcomputing
Python physicalcomputing
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
Ppt nishioka
Ppt nishiokaPpt nishioka
Ppt nishioka
 
20170408cvsaisentan6 2 4.3-4.5
20170408cvsaisentan6 2 4.3-4.520170408cvsaisentan6 2 4.3-4.5
20170408cvsaisentan6 2 4.3-4.5
 

More from Ohsawa Goodfellow

Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Ohsawa Goodfellow
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半Ohsawa Goodfellow
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半Ohsawa Goodfellow
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Ohsawa Goodfellow
 
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Ohsawa Goodfellow
 
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...Ohsawa Goodfellow
 
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De... Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...Ohsawa Goodfellow
 
第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程Ohsawa Goodfellow
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介Ohsawa Goodfellow
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介Ohsawa Goodfellow
 

More from Ohsawa Goodfellow (10)

Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
 
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
 
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
 
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De... Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 
第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介
 

Deep Learning 勉強会 (Chapter 7-12)

  • 1. Representation Learning: A Review and New Perspectives Y. Bengio, A. Courville and P, Vincent, 2012 2012/12/14(金) Deep Learning 勉強会 東京大学大学院 工学系研究科 技術経営戦略学専攻 大澤 昇平
  • 2. ADGENDA • 7. Direct Encoding: Learning a Parametric Map from Input to Representation • 8. Representation Learning as Manifold Learning • 9. Connections between Probabilistic and Direct Encoding Models • 10. Global Training of Deep Models • 11. Building-in Invariance • 12. Conclusion 1
  • 3. ADGENDA • 7. Direct Encoding: Learning a Parametric Map from Input to Representation • 8. Representation Learning as Manifold Learning • 9. Connections between Probabilistic and Direct Encoding Models • 10. Global Training of Deep Models • 11. Building-in Invariance • 12. Conclusion 2
  • 4. 7. Direct Encoding: Learning a Parametric Map from Input to Representation Non-probabilistic feature learning paradigm • Section 6 では、学習された表現は、ある潜在変数の事後確率に基づくものであった(probabilistic feature learning) • 潜在変数の事後確率は、それ自体では特徴ベクトルにはならない • 特徴ベクトルベースの分類器(e.g. SVM)に入れられない • 実際の特徴ベクトルは分布から導出される(期待値、marginal probability、最尤値) • このような事後確率は、モデルが相互に接続された層を持つ場合、しばしば複雑になりうる • そのため、サンプリングや近似推論の技術が用いられる • 最終的に得られるアウトプットが特徴ベクトルなのであれば、事後確率を導出する手順を省略することで、より効率的な計算が可能 なのではないか •  Non-probabilistic feature learning (e.g. auto-encoder) Probabilistic Feature Learning (e.g. sparse coding) Non-probabilistic Feature Learning (e.g. auto-encoder) Observed Observed Latent Latent 0.257 0.257 Feature Vector Feature Vector Prior (complicated) 3
  • 5. 7. Direct Encoding: Learning a Parametric Map from Input to Representation Auto-encoder • Auto-encoder framework [Lecaum 1987][Bourland 1988][Hinton 1994] : unsupervised feature construction method の一つ。 • auto-: 「自己の」 auto-encoder を直訳すると自己符号器 • encoder, decoder, reconstruction error の 3 つの要素から構成。 • encoder と decoder の合成写像が入力値を再現するような学習を行う。 • 学習は入力値と出力値の誤差(reconstruction error)を最小化することで行われる。 • この操作によって、入力値をより適切な表現に写像する auto-encoder が得られる。 𝑇 𝑡 𝑡 𝜃 = argmin 𝒥DAE (𝜃) = argmin 𝐿 𝑥 , 𝑔 𝜃 𝑓𝜃 𝑥 𝜃 𝜃 Reconstruction 𝑡=1 t-th Input Output Vector Encoder Representation Vector Decoder Vector 𝑥 (𝑡) 𝑓𝜃 𝑕(𝑡) 𝑔𝜃 𝑟 (𝑡) Reconstruction Error 𝐿 4
  • 6. 7. Direct Encoding: Learning a Parametric Map from Input to Representation An instance of auto-encoder: identical function • 恒等写像は最も trivial な auto-encoder Input Representation Output Encoder Decoder 𝑥 (1) 𝑥 (1) 𝑥 (1) 𝑥 (2) 𝑥 (2) 𝑥 (2) id id 𝑥 (𝑇) 𝑥 (𝑇) 𝑥 (𝑇) Reconstruction Error 𝐿 =0 Representation が入力ベクトルと同じなため、入力ベクトルの適切な表現を得るという目的は果たせていない 5
  • 7. 7. Direct Encoding: Learning a Parametric Map from Input to Representation An instance of auto-encoder: affine mapping • エンコーダと デコーダをアフィン写像( 𝑏, 𝑊 , *𝑑, 𝑊′+) + 活性関数(𝑠 𝑓 , 𝑠 𝑔 )によって構築 • 入力空間が非有界の場合 • 𝑠 𝑓 = 𝑠 𝑔 = id, 𝐿 𝑥, 𝑟 = 𝑥 − 𝑟 2 主成分分析と等価 • 入力空間が [0,1] の場合 • 𝑠 𝑓 = 𝑠 𝑔 = sigmoid, 𝐿 𝑥, 𝑟 = 𝑥 − 𝑟 2 • 入力空間が {0,1} の場合 • 𝑠 𝑓 = 𝑠 𝑔 = sigmoid, 𝐿 𝑥, 𝑟 = − 𝑥 𝑖 log 𝑟𝑖 + 1 − 𝑟𝑖 log(1 − 𝑟𝑖 ) (交差エントロピー) Input Output Encoder Representation Decoder 𝑥 (1) 𝑟 (1) 𝑕(1) 𝑥 (2) 𝑕(2) 𝑟 (2) 𝑕(𝑑ℎ ) 𝑥 (𝑑 𝑥 ) 𝑟 (𝑑 𝑥 ) Bottleneck: 𝑑 𝑕 < 𝑑 𝑥 Overcomplete: 𝑑 𝑕 > 𝑑 𝑥 Reconstruction Error 𝐿 6
  • 8. 7. Direct Encoding: Learning a Parametric Map from Input to Representation Regularized auto-encoders • ここでは、auto-encoders に対して正規化を行った亜種について紹介 • Sparse auto-encoders • Denoising auto-encoders (DAE) • Contractive auto-encoders (CAE) • Predictive sparse decomposition (PSD) 7
  • 9. 7. Direct Encoding: Learning a Parametric Map from Input to Representation Sparse auto-encoders • single-layer auto-encoders を積み上げることにより deep architecture を構築する方法[Bengio 2007] • エンコーダとデコーダの重みを一緒にする • 疎性正規化(sparsity regularization)を行なう[Ranzato 2007] • 疎性を実現する方法はいくつか提案されている • 隠れユニットのバイアスにペナルティを掛ける[Ranzato 2007][Lee 2008][Goodfellow 2009][Larochelle 2008] • バイアスにペナルティを掛けるのは、重みがバイアスを打ち消し、パラメータの数値最適化に悪影響 を与える(?) • あまり良くないらしいです • 隠れユニットの出力に直接ペナルティを掛ける[Ranzato 2008][Le 2011a][Zou 2011] • いくつかの亜種が存在しているが、それらを比較実験した論文は存在しない • 最も自然なのは L1 ペナルティ(𝑕 𝑗 の総和)。 • sparse auto-encoders の論文にはあまり使われてない • Student-t ペナルティ log(1 + 𝑕2 ) [Olshausen 1997] 𝑗 • 平均出力 𝑕 𝑗 • 隠れユニットが 1 を出力する確率に該当 • 𝑕 𝑗 を目標値に近づける • 確率 𝜌 の 2 項分布との KL ダイバージェンスをペナルティに − 𝜌 log 𝑕 𝑗 − 1 − 𝜌 log(1 − 𝑕 𝑗 ) • 𝜌 はたとえば 0.05 くらい 8
  • 10. 7. Direct Encoding: Learning a Parametric Map from Input to Representation Denoising auto-encoders • [Vincent 2008][Vincent 2010] では、auto-encoder の目的関数を、単なる自己再構築から、人工的に加えら れたノイズを除去するものへと変更している(i.e. 元入力を、改悪データから再構築するように学習する) • 恒等写像を学習するだけでは不十分 • 学習器は、元入力の分布の構造を、データの改悪プロセスを修復するように捉えなければならない • 再構築は、改悪された入力に近く、しかし分布が密になるように行われる必要がある • 入力の改悪の確率分布 • 入力の改悪に対する期待値 9
  • 11. 7. Direct Encoding: Learning a Parametric Map from Input to Representation Contractive auto-encoders (CAE) [Rifai 2011a] • Denoising auto-encoders (DAE) と似たモチベーションの auto-encoder • Contractive penalty 項を auto-encoder の目的関数に加える • エンコーダのヤコビ行列のフロベニウスノルム • 入力の摂動に対する特徴量の感度(sensitivity)にペナルティを与える contractive penalty • ただし J はエンコーダのヤコビ行列 • λ は正規化の強さを制御する超パラメータ • アフィン・シグモイド・エンコーダの場合、contractive penalty は簡単に計算できる • DAE との違い • 再構築写像ではなく、特徴量に直接ペナルティを与えている • ペナルティは確率的よりは解析的 • 超パラメータ λ は、再構築と頑健性の間のトレードオフを細かくコントロールする • CAE+H [Rifai 2001b] • CAE に高階導関数へのペナルティを与えるようにしたもの 高階導関数へのペナルティ 10
  • 12. 7. Direct Encoding: Learning a Parametric Map from Input to Representation Predictive sparse decomposition • Section 6 で説明した sparse coding [Olshausen and Field 1997] は、線形のデコーダと自乗再構築誤差を 用いる auto-encoder と解釈可能 • しかし、ノンパラメトリックなエンコーダ 𝑓 𝜃 は比較的 non-trivial で、目的関数の最小化はコストが高い • エンコーダの出力 h とデコーダのパラメータ W を反復的に最適化する必要があるため cf.) sparse coding • Predictive Sparse Decomposition (PSD) [Kavukcuoglu et al. 2008] は、上記問題を部分的に解決して いる sparse conding の亜種 • 認識(特徴量の学習)を行なっている間の、コストが高く・非線形なエンコーディングの過程を、非反復的な近 似によって置換 • 画像や動画中の物体認識に応用されている[Kavukcuoglu et al. 2009][Kavukcuoglu et al. 2010][Jarett et al. 2009][Farabet et al. 2011] • 音声認識[Henaff et al. 2011] • 以下の目標関数を特徴量 h、パラメータ (W, α) に関して最適化する スパース性 デコーダの誤差 エンコーダの誤差 • [Kavukcuoglu et al. 2010] は tanh の代わりに shrinkage operation を利用 11
  • 13. ADGENDA • 7. Direct Encoding: Learning a Parametric Map from Input to Representation • 8. Representation Learning as Manifold Learning • 9. Connections between Probabilistic and Direct Encoding Models • 10. Global Training of Deep Models • 11. Building-in Invariance • 12. Conclusion 12
  • 14. 8. Representation Learning as Manifold Learning Predictive sparse decomposition • Representation learning の他の重要な視点として、多様体の幾何学的観点に基づくものがある • 多様体仮説(manifold hypothesis)[Cayton 2005][Marayanan and Mitter 2010] • 高次元空間 𝐑 𝑑 𝑥 上に配置された実世界のデータは、 𝐑 𝑑 𝑥 に埋め込まれた非常に低い次元 𝑑 𝑀 を持つ多様体 𝑀 の 近くに集中していることが期待される • “representation” といった瞬間に、学習された representation を反映した多様体を思い浮かべる人は多い • 多様体上では、接線方向は保存され、法線方向は保存されない • この視点をもとに、初期の教師なし学習タスクでは、データに基づく多様体の構造をモデル化することが行われてきた • 学習された representation は、埋め込まれた多様体上における内在的な座標系に対応する • 典型的な多様体モデリング=主成分分析 • 主成分分析は、線形多様体をモデリングする • [Pearson 1901]によって、データの雲に対してもっとも近い線形多様体(直線 or 平面)を探索する目的で提案された • 主成分分析によって抽出された表現 𝑓 𝜃 は、多様体への射影に対応 • 主成分は、多様体の内在的な座標に対応 • しかし、複雑な実世界のドメインに対する多様体は、強く非線形であることが予想される • このモデリングは、局所的に線形な接空間を張り合わせることで行われる[Vincent and Bengio 2003][Brand 2003] • 幾何学的観点に基づくアルゴリズムの多くは、最近傍グラフに基づくノンパラメトリックなアプローチを採用している[Scholkopf et al 1998][Roweis and Saul 2000][Tenenbaum et al. 2000][Brand 2003][Belkin and Niyogi 2003][Donoho and Grimes 2003][Weinberger and Saul 2004][Hinton and Roweis 2003][Maaten and Hinton 2008] • これらのノンパラメトリックなアプローチでは、高次元の学習点は自由な低次元の埋め込まれた座標を持ち、それは近 傍グラフのある特徴を高次元の入力空間でも再現するように行われる • これらの手法はパレメトライズされた特徴抽出関数 𝑓 𝜃 (𝑥) を直接学習するわけではないので、新しい点には適用でき ない • 比較的、非線形多様体をパラメトリックな写像を学習することで直接新しい点の表現を計算できるようにする手法は尐 ない • 以降では、これにフォーカスする 13
  • 15. 8. Representation Learning as Manifold Learning Learning a Parametric Mapping based on a Neighborhood Graph • ここまで述べた非線形の多様体学習アルゴリズムは、すべて教師データの近傍グラフに基づく • 学習点の間のユークリッド距離によって導出 • そのうちいくつかは、ノンパラメトリックなものから、パラメトリックな写像 𝑓 𝜃 に容易に変えられる • すべての学習点が自由な低次元の座標系を持つのではなく、座標系が一つのパラメトリックな関数 から得られるようにする • パラメトリックな関数のパラメータを学習する • 成功しているノンパラメトリックな多様体埋め込みアルゴリズム t-SNE [Maaten and Hinton 2008] は、直接的なパラメトリックなエンコーディングに適用することができる • Semi-supervised embedding [Weston 2008] • Deep parameterized neural network が多様体の埋め込みと分類器を同時に学習 • 分類コストを学習するだけでなく目的関数は、中間層の表現が近傍に対して不変になるようにする • 自由パラメータの数を減らすことは、ノンパラメトリックな手法と比べて、モデルを非局所的に一般化する[Bengio at al. 2006b] • もし一般化が有効であれば、よりよい特徴量とパフォーマンスを得ることができる[Maaten and Hinton 2008] • しかし、近傍関係に基づく多様体のモデリングは、高次元空間では統計的にリスキーである • 次元の呪い 14
  • 16. 8. Representation Learning as Manifold Learning Learning a Non-linear Manifold through a Coding Scheme 1/2 • 近傍探索に基づかない多様体の学習方法について述べる • PCA: 線形多様体によるモデリング の場合 • 基底ベクトルは、入力点を射影するために使われる • 抽出された成分の入力に対する感度は、どの位置 𝑥 にか かわらず一定である • つまり、接空間は線形多様体ではどこでも一緒 • 非線形多様体の場合 • 接空間は場所を移動すると変わる(右図参照) • 非線形の representation learning では、特徴量の 入力に 対する局所的な変化を考えると便利 • エンコーダの一階導関数は、多様体の形状を決定する • もし密度が多様体の周辺に集中しており、エンコーダがそれを捉えられれば、非零成分を見ることで接平面の方向を把握する ことができる • sparse coding cf.) sparse coding • パラメータ行列 W は入力座標系の辞書であると解釈できる • この中から、局所的な接空間が選ばれる • h の非零成分が、部分空間に対応 • Local Coordinate Coding (LCC) アルゴリズム [Yu et al. 2009] • Sparse coding と類似 • 多様体の視点から導出 • p = -1 の時は sparse coding と同一 • x に対する anchor point を活性化する傾向(???) 15
  • 17. 8. Representation Learning as Manifold Learning Learning a Non-linear Manifold through a Coding Scheme 2/2 • [Rifai et al 2011a] は訓練された CAE でヤコビ行列の特異値分解を行なっている • SVD は直交基底を、感度の高い順に出力 • スペクトルは、速く減衰する • 感度が高い直交基底は比較的尐ない • これは CAE が低次元多様体の接空間をモデルしていると考えられる • 接空間の基底の特異値の図 多様体の接線方向の 変化 • CAE の目標関数は、次の 2 つの背反する内容を満たす • Isotropic contractive penalty: 特徴量が、入力がどの方向に変化しても不感応である • Reconstruction term : 異なる訓練点は、異なる表現を持つ • Isotropic contructive な圧力は多様体の接線方向に作用 16
  • 18. 8. Representation Learning as Manifold Learning Leveraging the Modeled Tangent Spaces • 多様体上の任意の点に対応する局所接平面は、訓練点の可能な局所変化に対応する • [Rifai 2011c]では、数字画像、写真、文書データに対して CAE を訓練し、ヤコビ行列の SVD と共に接線方 向を抽出 • これらは、写真や数字の小さな変化や回転に対応し、文書データに対しては文書の同じテーマに対 する単語に対応した。 • このような多様体に対する非常に局所的な変化は、クラスの同一性を変えないと期待される。 • Manifold Tangent Classifier (TMC) [Rifai et al. 2011c] • Tangent distance [Simard et al. 1993] • Tangent propagation [Simard et al. 1992] • 事前に与えられたドメイン知識に対して、入力の変化に対して不変な分類器を作成 • これらの技術は、MNSIT の数字分類に対する pior-knowledge free approach の中で、新し い記録を樹立している 17
  • 19. ADGENDA • 7. Direct Encoding: Learning a Parametric Map from Input to Representation • 8. Representation Learning as Manifold Learning • 9. Connections between Probabilistic and Direct Encoding Models • 10. Global Training of Deep Models • 11. Building-in Invariance • 12. Conclusion 18
  • 20. 9. Connections between Probabilistic and Direct Encoding Models Probabilistic Interpretation • 標準的な尤度のフレームワークはモデルの目標関数を 2 つに分ける • 対数尤度 log 𝑃(𝑥|𝜃) • 事前確率 log 𝑃(𝜃) • 以降、既存手法の確率論的解釈がだらだらと続くのではしょります • 9.1 PSD の確率的解釈 • PSD のアルゴリズムでは標準的な確率的観点と、direct encoding computation graph の間の関係を考え ることができる • PSD の確率的モデル • デコーダ:sparse coding の生成モデル 𝑃 𝑥 𝑕 と等しい • エンコーダ:𝑃(𝑕|𝑥) の MAP iterative inference の近似解法 • PSD では、エンコーダはデコーダと一緒に訓練される • エンコーダーは結合対数尤度の下界に対する MAP の解に対応(???) • MAP 学習が変分学習の特殊ケースとして解釈することができるとき、変分学習は尤度と変分近似の両方を 同時に改善することができることを示唆している。 19
  • 21. ADGENDA • 7. Direct Encoding: Learning a Parametric Map from Input to Representation • 8. Representation Learning as Manifold Learning • 9. Connections between Probabilistic and Direct Encoding Models • 10. Global Training of Deep Models • 11. Building-in Invariance • 12. Conclusion 20
  • 22. 10. Global Training of Deep Models On the Challenge of Training Deep Architecture • 今までは単層の学習器の話をしてきたが、それを多層でやる場合の話 • Convolutional network [LeCun et al. 1998b] • Layerwise(層ごとの(?))学習 • 単層モデルを積み上げていくことの優位性を得られる • 「なぜ layerwise unspervised pre-training procedure は教師あり学習を手助けするのか」[Erhan et al. 2010b] • 1 度にすべての表現を学習するのではなく、中間表現(intermediate representation)を訓練する、という原理 • 簡単な概念を最初に学習し、そこから上位の概念を学習する[Bengio et al. 2009] • Semi-Supervised Embedding [Weston et al. 2008] • 正規化効果 • 入力の摂動に関する変化に対して鈍感になる • 要らない特徴量を取り除くことができる • Stacked RBM や DAE がニューラルネットワークによる分類器の最初の層に使われることがある • 最適化効果 • ニューラルネットワークの上位 2 層は、訓練データに対してフィットする 21
  • 23. 10. Global Training of Deep Models Deep Boltzmann Machine • ボルツマンマシンの一種 • RBM を多段に重ねたような形 ノード値 バイアス 中間層II 𝑕(2) 𝑑(2) 𝑉 中間層I 𝑕(1) 𝑑(1) 𝑊 入力層 𝑥 𝑏 エネルギー関数 22
  • 24. 10. Global Training of Deep Models Deep Boltzmann Machine: Mean-field approximate inference • 平均場近似+変分推論によるパラメータ最適化 • 変分推論 log P の下限 元の分布との距離 log 𝑃 𝑣 = ℒ 𝑄 𝑣 + 𝐾𝐿(𝑃||𝑄 𝑣 ) 平均場近似 • 以下の式でパラメータ最適化できる(らしい) 23
  • 25. 10. Global Training of Deep Models Deep Boltzmann Machine: Training Deep Boltzmann Machine • Stochastic Maximum Likelihood (SML)というのを使うらしい • 基本的には山登り法(stochastic gradient ascent)で、尤度が増える方向にパラメータを更新していく これを計算したい “positive phase” “negative phase” 前頁参照 [Hinton 2000] 読めとのことです 24
  • 26. ADGENDA • 7. Direct Encoding: Learning a Parametric Map from Input to Representation • 8. Representation Learning as Manifold Learning • 9. Connections between Probabilistic and Direct Encoding Models • 10. Global Training of Deep Models • 11. Building-in Invariance • 12. Conclusion 25
  • 27. 11. Built-in Invariance Summary • 11.1 Augmenting the dataset with known input deformations • 表現力の高いデータを訓練データとすることで、パフォーマンスを上げられる • 入力データのパターンの自動生成[Baird 1990] • 数字データに対するアフィン変換、回転[Simard et al. 2003] • 最近は GPU を使ったアプローチがある[Ciresan et al. 2010] • 11.2 Convolution and pooling • 入力データのトポロジー構造を使う • 画像データの 2 次元構造、動画データの 3 次元構造 • Local receptive fields [Hubel and Wiesel 1959] • Convolutional networks [Lecun et al. 2989] • 11.3 Temporal coherence and show features • 動画データに対する特徴抽出に用いられる[Becker and Hinon 1993] • 時刻 t と時刻 t+1 の特徴量の間の偏差を取り、ペナルティを与える • 経時変化の尐ない特徴量が得られる • 11.4 Algorithms to disentangle factors of variation • 抽出したいものに対して不変な特徴量を選ぶにはどうしたらよいか • 例)人物の映った動画: 被験者の同一性、行った行動、カメラに対する姿勢 • 最初に低レベルの特徴量を抽出し、そこから高いレベルの特徴量を抽出する方法[Fukushima 1980] • Transforming auto-encoder [Hinton et al. 2011] 26
  • 28. ADGENDA • 7. Direct Encoding: Learning a Parametric Map from Input to Representation • 8. Representation Learning as Manifold Learning • 9. Connections between Probabilistic and Direct Encoding Models • 10. Global Training of Deep Models • 11. Building-in Invariance • 12. Conclusion 27
  • 29. 12. Conclusion Conclusion • 本論文がカバーした、representation learning と deep learning に関する技術 • (a) 確率モデル: sparse conding、Boltzmann machine • (b) 再構築ベースモデル: auto-encorders • (c) 多様体学習 • 今後の課題など • Practical concerns and guidelines • 人工ニューラルネットワークや deep learning の課題は、超パラメータや変数の数が多 く、その調整が人間の勘に委ねられている点 • “Tricks of the Trade” [Orr and Muller 1998] • Incorporating generic AI-level priors • Prior のリストを増やしたり修正したりし、どれか一つにフォーカスするのではなく、それ ぞれの関係を考慮するべき(???) 28
  • 30. 参考書籍 • 資料作成にあたり、以下の文献を参考にいたしました 赤穂昭太郎:カーネル多変量解析 • 多様体 • ISOMAP • 局所線形埋め込み法 ぷれむる(下) • マルコフ確率場 • ボルツマンマシン(文中ではイジングモデルとして記述) • 変分法 • MCMC 29