SlideShare a Scribd company logo
1 of 51
Ishikawa Watanabe Lab
THE UNIVERSITY OF TOKYO
http://www.k2.t.u-tokyo.ac.jp/
猫でも分かる
Variational AutoEncoder
2016/07/30
龍野 翔 (Sho Tatsuno)
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
今回の内容
• Variational Auto-Encoderの解説
– 生成モデルそのものの概要
– Variational Auto-Encoder(VAE)のなるべく噛み砕いた解説
– その他生成モデル論文のざっくりした紹介
• 説明すること/しないこと
– 説明すること
» 生成モデルの簡単な概要と事例
» Variational AutoEncoderの構造と数式的・直感的理解
– 説明しないこと
» 生成モデルのその他のアルゴリズムの詳細(LDAとか)
» Deep Learningの基礎(Back Propagation・SGD等)
» 既存の最適化手法の詳細(MCMC・EMアルゴリズム等)
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
紹介元論文
• Auto-Encoding Variational Bayes
– Author: D. P. Kingma, 2013
– URL: https://arxiv.org/pdf/1312.6114.pdf
– Variational Auto-Encoderを最初に提唱した論文
• Tutorial on Variational Autoencoders
– Author: Carl Doersch, 2016
– URL: https://arxiv.org/abs/1606.05908
– ニューラルネットによる生成モデルVariational Autoencoder(VAE)の
紹介
» 変分ベイズの前提知識が不要
» 制約付きVAEであるConditional Variational Autoencoder(CVAE)
についても紹介
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
識別モデルと生成モデル
• 通常の機械学習は識別モデル
– 各々を分けるための線を引く(識別する!)
• 生成モデルは識別(のみ)ではなく,範囲を考える
識別モデル 生成モデル
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
生成モデルって何?
• 生成モデル:観測データが得られる確率分布の推
サイコロを2回投げた時の
目の和の分布P(X)
実際にサイコロを2回振ってみた時
こいつを求めたい
P(X|θ)
分布を仮定->分布の裏側にあるパラメータθの最適化
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
分布が分かると何が嬉しいのか
• 識別タスクなどに利用可能
– Ex) Naive Bayes:迷惑メールの判別
各単語が迷惑メールに含まれる
確率を元に迷惑メールの判別
を行う
単語の「分布」をメールの
「判別」に利用
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
天気 激安 無料 食事
迷惑メールの確率
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
既存の生成モデルの応用例
• 文章分類
– NaiveBayes
» 迷惑メールかどうかの分類など
– トピックモデル
» 文章のトピックを生成(政治の話・スポーツの話etc…)
• 異常値検出
– ガウス混合分布
» 不正検出・侵入検出
– 時系列モデル
» ウイルス・ワーム検出
この辺の詳細説明は省略
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
画像の生成モデル
• 生成モデル
– 画像の分布を求めたい
» データを元に未知のデータを作り出したい
» データが持つ抽象的な表現を捉えたい
• 高次元なデータXが存在する確率分布P(X)を求め
たい
Xが存在しそうな領域
例えば画像とか文章とか
画像らしい画像・文章らしい文章といえる部分を
突き止めたい
画像の筆跡や数は違うが全て同じ”数字”
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
多様体論
• 下の二つの画像は色だけ見ると近しいが、明らかに違うも
のである
• 画像同士の間により低い次元での潜在的な意味が存在する
と仮定する
– ネコ・寿司
猫 寿司
色だけ見ると識別困難
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
意味のある生成を
• 同じ意味の画像の認識
– 画像間の潜在的な要素(潜在変数)を考える
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
潜在変数
• 例えば数字の潜在的な意味を考える
– 筆跡?文字(3なのか5なのか)?から画像ができる
潜在変数の分布
潜在変数
の分布
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
目的
• 画像の潜在空間の獲得と画像のバリエーション生成
顔の生成 数字の生成
ここから先は数字を例にした解説を行う
表情・顔の造形が潜在変数? 文字・筆跡が潜在変数?
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
既存の生成モデルの問題点
1. データ構造への強い仮定やモデルに強い近似が必要
– こちらで何らかの分布を設定する必要性
– 設定した分布にモデルが対応する必要性
2. 時間のかかる方法が必要
– MCMC等、複数回サンプリングする必要性
詳細は省略
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
ニューラルネットの利用
• 単純なニューラルネットワークの例
1. y = f2(w2x2+b2)=f2(w2(f1(w1x1+b1))+b2)=…
->畳み込みの形でほぼ任意の関数表現が可能:モデルの制約を緩和可能
2. SGDを使えば1サンプルずつ最適化が可能
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
生成モデル最適化の前提
• そもそも論
– しかし,そのままpθを求めるのは困難
» 入力(潜在変数z)に対応する答えが不明
こいつを求めたい(Zの元でXが生成される確率分布)
出力潜在変数
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
入力から潜在変数zへの分布の仮定
• Encoder
– 潜在変数のガウス分布性を仮定する
入力層(画像) Encoder
多変量ガウス分布からサンプリング
μ
σ
z
潜在変数
2~50次元くらい
が多い
N次元ガウス分布の
平均・分散
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
分布の母数の妥当性
• μとΣの決め方に妥当性はあるのか
– どちらがμ・Σでも良い:μとΣが最適となるように各層を最適化する
どちらでも大丈夫(予めμ・Σが定義づ
けられているわけではない)
後でμ・Σに対応するように学習させる
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Variational AutoEncoder
• Decoder
– こちらはzから出力層までにニューラルネットを組めばOK
潜在変数 Decoder
z
出力層(画像)
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Variational AutoEncoder
• Total Structure
入力層 Encoder
潜在変数
Decoder 出力層
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
• 潜在変数は多次元のガウス分布を仮定
– 扱いやすいから
– 今回の場合、潜在変数に文字の筆跡や形を想定->ガウス分布?
潜在変数zに相当する画像Xを生成
潜在変数の仮定
出力画像潜在変数の分布
潜在変数zから画像Xを生成(θは母数)
q(z):pの事前分布として簡単な形(今回は多項ガウス分布)を考える
・z ~ p(z):pの事前分布として簡単な形(今回は多項標準ガウス分布)を考える
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
• 入力->潜在変数の分布を生成
• 潜在変数からのサンプリング->入力に近しい出力の生成
VAEのグラフィカルな理解
潜在変数の分布の生成
潜在変数のサンプリング
入力 出力
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
最適化の必要性
• で、これってどうやって最適化するの?
– 最尤推定:周辺尤度log(pθ(x))の最大化から考える
– 周辺尤度log(pθ(x))は以下のように分解できる
母数θを定めた時に取りうるxの周辺確率が最も高くなるように設定する
一般的な変分下界における数式的な展開
変分下界: θ, φの汎関数
ref) PRML下巻9.4
(p=qの時、等号成立)
pとqを近づけることが目的なので変分下界を最大化する
必要がある
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
変分下界の展開
• 変分下界の展開
– 以下の式変形により、最適にすべき項が導出できる
正則化項:KL Divergence
(Regularization Parameter)
復元誤差
(Reconstruction Error)
この二つの和を最大化すれば良い
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
正則化項:KL Divergence
• KL Divergenceの計算
~N(μ, Σ) ~N(0, I)
ref) 細かい式の導出は原論文のAPPENDIX C) 参照
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
復元誤差:Reconstruction Error
• Reconstruction Errorは以下のように近似できる
• 画像のピクセルを0~1に調整した時にベルヌーイ分布を仮定すると
logp(x|z)は以下のように表すことができる
(yはzの潜在変数を全結合層に通した最終層の変数)
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
• 最適化関数
– KL Divergence: p(z)とq(z|x)の情報的な距離・正則化項:
– Reconstruction error: 入出力の差:
VAEのグラフィカルな理解
潜在変数の分布の生成
潜在変数のサンプリング
入力 出力
潜在変数の事前分布
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
VAE全体のブロック図
学習フェーズ 活用フェーズ
X
正則化項
復元誤差
Decoder(P)
Encoder(Q) Z ~ N(μ, Σ)
サンプリング
最適化
X
Decoder(P)
Z ~ N(μ, Σ)
このZを入力として与える
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
学習フェーズのより詳細な構造
X
Encoder(Q)
Decoder(P)
μ Σ
Sample z ~ N(μ, Σ)
zRegularization Parameter
Reconstruction Error
この形だと誤差逆伝播が使えない!
->サンプリングしている時点で微分の計算が不可
誤差
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Reparametrization Trick
×
*
X
Encoder(Q)
Decoder(P)
μ Σ
Sample ε ~ N(0, I)
z = μ + ε Σ
Reconstruction Error
Sample z ~ N(μ, Σ)  z = μ + ε Σ (sample ε ~ N(0, I))
と書き直すことができる
-> Back Propagationが利用可能
Regularization Parameter
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
zの変換について
• 一次元の場合の簡単な証明
Sample z ~ N(μ, σ)  z = μ + ε σ (sample ε ~ N(0, 1))
εは標準正規分布なので確率密度関数は
と変換できるので代入・周辺化して
次数が2次以上の場合も同様
これは正規分布z~(N(μ, σ))からのサンプリングに他ならない
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
VAEの最適化のフローのまとめ
DNN
DNN
+
・生成時
・訓練時
訓練時のものを利用
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Result
表情の生成 文字の生成
• 潜在空間に対応する画像の生成
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
VAEの結論
• Deep Learningを生成モデルに適用
– 筆跡や表情といった潜在変数の分布を組み込む形を考案し、データ
セットに存在しない自然な画像の生成を可能にした
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
おまけ:AutoEncoder
Encode Decode
OutputInput
・AutoEncoderによる画像の圧縮・再構成
・中間層での画像の抽象表現の獲得
抽象表現→文字の分布?
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Valuational AutoEncoderの実態
Encode Decode
OutputInput
・構造はAutoEncoderの中間層にノイズを入れただけ
・loss関数に正則化項を加えた
・構造,名前は非常に似ているが由来は異なる
+ε
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
生成モデルの論文紹介
• 画像の自動生成
• 3次元モデルの自動生成
• 行動の予測
• (生成モデルではないけどおまけ)DNNを騙す画像の生成
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
教師ありVAE
• Semi-supervised Learning with Deep Generative Models
(14’ M. Welling)
– 教師ありVAE, セミ教師ありVAEの提案
– 同じ筆跡の別の文字などの生成も可能に
Y
labels
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
GAN
• Generative Advisarial Net(14’ I. J. Goodfellow)
– 学習データに似たイメージを作るGenerator
– 学習データかGeneratorが作成したデータか見分けるDiscriminator
» GenratorとDiscriminatorでイタチごっこをする
一番右が近いイメージ
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
LAPGAN
• Deep Generative Image Models using a Laplacian Pylamid of
Adversarial Networks(15’ E. Denton)
– 周波数ごとのGANを作り高解像の画像を生成する手法
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
DCGAN
• Unsupervised Representation Learning with Deep Convolutional
Generative Adversarial Networks(16’ A.Radford)
• GANにCNN, Leaky ReLU, Batch Normalizationを加えた手法
– Leaky Relu: 0以下にも勾配をつけたReLU
– Batch Normalization: バッチごとの平均・分散を用いて正規化
精細な画像,潜在変数のベクトル演算
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
VAEとGANの統合
• Autoencoding beyond pixels using a learned similarity metric
(15’ A. B. L. Larsen)
– VAEの後ろ部分にGANをくっつけたもの
– VAEのreconstructionとGANの精細さを両立
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
文章と画像の統合
• 深層生成モデルを用いたマルチモーダル学習(16’ 鈴木)
– 複数のモダリティ情報を統合
– 例えば,モナリザにsmile要素を加える
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
RNN+VAE
• DRAW: A Recurrent Neural Network For Image Generation
(15’ K.Gregor)
– RNNとVAEを組み合わせて徐々に画像を生成していく手法
– 上に塗っていくイメージ
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
画像圧縮
• Towards Conceptual Compression(16’ K.Gregor)
– Convolutional DRAWを提案し,画像圧縮に応用
– 上からJPEG,JPEG2000,下二つが分散あり・なしのCDRAW
– 圧縮率を上げても自然な圧縮を実現
圧縮率20%
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Pixelごとの復元
• Pixel Recurrent Neural Networks(16’ A. Oord)
– RNNを用いて近傍のPixel群から周りのpixel群を予測して復元
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
3次元版のVAE
• Deep Convolutional Inverse Graphics Network(15’ TD. Kuulkarni)
– VAEを3次元に拡張
– 人の顔のモデルのバリエーションを生成
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
2次元画像->3次元モデル
• Unsupervised Learning of 3D Structure from Images
(16’ D.J.Rezende)
– 二次元画像から三次元モデルを復元する
– 教師データとしての三次元モデルは一切与えない
2次元画像から復元した3次元モデル
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
運動ベクトルの推定
• An Uncertain Future: Forecasting from Static Images using
Variational Autoencoders (16’ J. Walker)
– 画像と動きのベクトルを学習させて画像のどの部分が動くか予測
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
DNNを騙す画像の生成
• Deep Neural Networks are Easily Fooled: High Confidence
Predictions for Unrecognizable Images(15’ A.Nguyen)
– 元ある識別器を騙す画像を進化論的アルゴリズムにより作成
– 識別精度が高くなるように画像のピクセルをランダムに変化させる
Direct encode Indirect encode
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
終わりに
• まとめ
– 深層生成モデルの中のVAEについての説明
– 画像関連の生成モデル論文の紹介
• 印象
– 生成モデルはここ1年が凄まじい
» VAE・GANの原論文以外はほぼ去年・今年の論文
» DeepMind, OpenAIが参入
» 静止画の生成モデルはかなり行われている印象
– 動画像生成とかはまだまだ
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
参考文献
• Introduction to variational autoencoders
– URL: https://home.zhaw.ch/~dueo/bbs/files/vae.pdf
– VAEのスライド
• Deep Advances in Generative Modeling
– URL: https://www.youtube.com/watch?v=KeJINHjyzOU
– Youtubeでの深層生成モデルの解説
• Digit Fantasies by a Deep Generative Model
– URL: http://www.dpkingma.com/sgvb_mnist_demo/demo.html
– VAEのデモ
• LAPGANの解説(スライド)
– 他のGANの話も載っているのでオススメ
– URL: http://www.slideshare.net/hamadakoichi/laplacian-pyramid-of-
generative-adversarial-networks-lapgan-nips2015-reading-nipsyomi

More Related Content

What's hot

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
Variational AutoEncoder
Variational AutoEncoderVariational AutoEncoder
Variational AutoEncoderKazuki Nitta
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 

What's hot (20)

ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Variational AutoEncoder
Variational AutoEncoderVariational AutoEncoder
Variational AutoEncoder
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 

Viewers also liked

生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出Kai Sasaki
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
現在のDNNにおける未解決問題
現在のDNNにおける未解決問題現在のDNNにおける未解決問題
現在のDNNにおける未解決問題Daisuke Okanohara
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムYuki Saito
 
類似画像検索APIを作ってみた話
類似画像検索APIを作ってみた話類似画像検索APIを作ってみた話
類似画像検索APIを作ってみた話K Kimura
 
画像認識で物を見分ける
画像認識で物を見分ける画像認識で物を見分ける
画像認識で物を見分けるKazuaki Tanida
 
自閉症と感情コンピューティング
自閉症と感情コンピューティング自閉症と感情コンピューティング
自閉症と感情コンピューティング由来 藤原
 
実装ディープラーニング
実装ディープラーニング実装ディープラーニング
実装ディープラーニングYurie Oka
 
Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較YumaMatsuoka
 
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」moterech
 
Simple Introduction to AutoEncoder
Simple Introduction to AutoEncoderSimple Introduction to AutoEncoder
Simple Introduction to AutoEncoderJun Lang
 
[Dl輪読会]video pixel networks
[Dl輪読会]video pixel networks[Dl輪読会]video pixel networks
[Dl輪読会]video pixel networksDeep Learning JP
 
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発LINE Corporation
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみたkoji ochiai
 
Neural Network と Universality について
Neural Network と Universality について  Neural Network と Universality について
Neural Network と Universality について Kato Yuzuru
 
Neural Turing Machines
Neural Turing MachinesNeural Turing Machines
Neural Turing MachinesKato Yuzuru
 
Objectnessとその周辺技術
Objectnessとその周辺技術Objectnessとその周辺技術
Objectnessとその周辺技術Takao Yamanaka
 

Viewers also liked (20)

生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
現在のDNNにおける未解決問題
現在のDNNにおける未解決問題現在のDNNにおける未解決問題
現在のDNNにおける未解決問題
 
Deep parking
Deep parkingDeep parking
Deep parking
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
類似画像検索APIを作ってみた話
類似画像検索APIを作ってみた話類似画像検索APIを作ってみた話
類似画像検索APIを作ってみた話
 
Iclr2016 vaeまとめ
Iclr2016 vaeまとめIclr2016 vaeまとめ
Iclr2016 vaeまとめ
 
画像認識で物を見分ける
画像認識で物を見分ける画像認識で物を見分ける
画像認識で物を見分ける
 
自閉症と感情コンピューティング
自閉症と感情コンピューティング自閉症と感情コンピューティング
自閉症と感情コンピューティング
 
実装ディープラーニング
実装ディープラーニング実装ディープラーニング
実装ディープラーニング
 
Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較
 
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
 
Simple Introduction to AutoEncoder
Simple Introduction to AutoEncoderSimple Introduction to AutoEncoder
Simple Introduction to AutoEncoder
 
[Dl輪読会]video pixel networks
[Dl輪読会]video pixel networks[Dl輪読会]video pixel networks
[Dl輪読会]video pixel networks
 
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
 
Neural Network と Universality について
Neural Network と Universality について  Neural Network と Universality について
Neural Network と Universality について
 
Neural Turing Machines
Neural Turing MachinesNeural Turing Machines
Neural Turing Machines
 
Objectnessとその周辺技術
Objectnessとその周辺技術Objectnessとその周辺技術
Objectnessとその周辺技術
 

Similar to 猫でも分かるVariational AutoEncoder

Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Masaya Kaneko
 
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...Deep Learning JP
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...Shunsuke Ono
 
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live![part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!KnowledgeGraph
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video RecognitionToru Tamaki
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)Akisato Kimura
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCAAkisato Kimura
 
Web本文抽出 using crf
Web本文抽出 using crfWeb本文抽出 using crf
Web本文抽出 using crfShuyo Nakatani
 
Akira Imakura
Akira ImakuraAkira Imakura
Akira ImakuraSuurist
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...Deep Learning JP
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...T T
 
全体セミナー20180124 final
全体セミナー20180124 final全体セミナー20180124 final
全体セミナー20180124 finalJiro Nishitoba
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Ohsawa Goodfellow
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Deep Learning JP
 
バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係Kento Tajiri
 

Similar to 猫でも分かるVariational AutoEncoder (20)

Rokko チュートリアル
Rokko チュートリアルRokko チュートリアル
Rokko チュートリアル
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
 
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
 
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live![part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA
 
Web本文抽出 using crf
Web本文抽出 using crfWeb本文抽出 using crf
Web本文抽出 using crf
 
Akira Imakura
Akira ImakuraAkira Imakura
Akira Imakura
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
全体セミナー20180124 final
全体セミナー20180124 final全体セミナー20180124 final
全体セミナー20180124 final
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係
 
Clojure
ClojureClojure
Clojure
 

猫でも分かるVariational AutoEncoder

  • 1. Ishikawa Watanabe Lab THE UNIVERSITY OF TOKYO http://www.k2.t.u-tokyo.ac.jp/ 猫でも分かる Variational AutoEncoder 2016/07/30 龍野 翔 (Sho Tatsuno)
  • 2. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 今回の内容 • Variational Auto-Encoderの解説 – 生成モデルそのものの概要 – Variational Auto-Encoder(VAE)のなるべく噛み砕いた解説 – その他生成モデル論文のざっくりした紹介 • 説明すること/しないこと – 説明すること » 生成モデルの簡単な概要と事例 » Variational AutoEncoderの構造と数式的・直感的理解 – 説明しないこと » 生成モデルのその他のアルゴリズムの詳細(LDAとか) » Deep Learningの基礎(Back Propagation・SGD等) » 既存の最適化手法の詳細(MCMC・EMアルゴリズム等)
  • 3. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 紹介元論文 • Auto-Encoding Variational Bayes – Author: D. P. Kingma, 2013 – URL: https://arxiv.org/pdf/1312.6114.pdf – Variational Auto-Encoderを最初に提唱した論文 • Tutorial on Variational Autoencoders – Author: Carl Doersch, 2016 – URL: https://arxiv.org/abs/1606.05908 – ニューラルネットによる生成モデルVariational Autoencoder(VAE)の 紹介 » 変分ベイズの前提知識が不要 » 制約付きVAEであるConditional Variational Autoencoder(CVAE) についても紹介
  • 4. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 識別モデルと生成モデル • 通常の機械学習は識別モデル – 各々を分けるための線を引く(識別する!) • 生成モデルは識別(のみ)ではなく,範囲を考える 識別モデル 生成モデル
  • 5. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 生成モデルって何? • 生成モデル:観測データが得られる確率分布の推 サイコロを2回投げた時の 目の和の分布P(X) 実際にサイコロを2回振ってみた時 こいつを求めたい P(X|θ) 分布を仮定->分布の裏側にあるパラメータθの最適化
  • 6. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 分布が分かると何が嬉しいのか • 識別タスクなどに利用可能 – Ex) Naive Bayes:迷惑メールの判別 各単語が迷惑メールに含まれる 確率を元に迷惑メールの判別 を行う 単語の「分布」をメールの 「判別」に利用 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 天気 激安 無料 食事 迷惑メールの確率
  • 7. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 既存の生成モデルの応用例 • 文章分類 – NaiveBayes » 迷惑メールかどうかの分類など – トピックモデル » 文章のトピックを生成(政治の話・スポーツの話etc…) • 異常値検出 – ガウス混合分布 » 不正検出・侵入検出 – 時系列モデル » ウイルス・ワーム検出 この辺の詳細説明は省略
  • 8. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 画像の生成モデル • 生成モデル – 画像の分布を求めたい » データを元に未知のデータを作り出したい » データが持つ抽象的な表現を捉えたい • 高次元なデータXが存在する確率分布P(X)を求め たい Xが存在しそうな領域 例えば画像とか文章とか 画像らしい画像・文章らしい文章といえる部分を 突き止めたい 画像の筆跡や数は違うが全て同じ”数字”
  • 9. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 多様体論 • 下の二つの画像は色だけ見ると近しいが、明らかに違うも のである • 画像同士の間により低い次元での潜在的な意味が存在する と仮定する – ネコ・寿司 猫 寿司 色だけ見ると識別困難
  • 10. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 意味のある生成を • 同じ意味の画像の認識 – 画像間の潜在的な要素(潜在変数)を考える
  • 11. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 潜在変数 • 例えば数字の潜在的な意味を考える – 筆跡?文字(3なのか5なのか)?から画像ができる 潜在変数の分布 潜在変数 の分布
  • 12. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 目的 • 画像の潜在空間の獲得と画像のバリエーション生成 顔の生成 数字の生成 ここから先は数字を例にした解説を行う 表情・顔の造形が潜在変数? 文字・筆跡が潜在変数?
  • 13. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 既存の生成モデルの問題点 1. データ構造への強い仮定やモデルに強い近似が必要 – こちらで何らかの分布を設定する必要性 – 設定した分布にモデルが対応する必要性 2. 時間のかかる方法が必要 – MCMC等、複数回サンプリングする必要性 詳細は省略
  • 14. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ ニューラルネットの利用 • 単純なニューラルネットワークの例 1. y = f2(w2x2+b2)=f2(w2(f1(w1x1+b1))+b2)=… ->畳み込みの形でほぼ任意の関数表現が可能:モデルの制約を緩和可能 2. SGDを使えば1サンプルずつ最適化が可能
  • 15. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 生成モデル最適化の前提 • そもそも論 – しかし,そのままpθを求めるのは困難 » 入力(潜在変数z)に対応する答えが不明 こいつを求めたい(Zの元でXが生成される確率分布) 出力潜在変数
  • 16. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 入力から潜在変数zへの分布の仮定 • Encoder – 潜在変数のガウス分布性を仮定する 入力層(画像) Encoder 多変量ガウス分布からサンプリング μ σ z 潜在変数 2~50次元くらい が多い N次元ガウス分布の 平均・分散
  • 17. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 分布の母数の妥当性 • μとΣの決め方に妥当性はあるのか – どちらがμ・Σでも良い:μとΣが最適となるように各層を最適化する どちらでも大丈夫(予めμ・Σが定義づ けられているわけではない) 後でμ・Σに対応するように学習させる
  • 18. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Variational AutoEncoder • Decoder – こちらはzから出力層までにニューラルネットを組めばOK 潜在変数 Decoder z 出力層(画像)
  • 19. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Variational AutoEncoder • Total Structure 入力層 Encoder 潜在変数 Decoder 出力層
  • 20. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ • 潜在変数は多次元のガウス分布を仮定 – 扱いやすいから – 今回の場合、潜在変数に文字の筆跡や形を想定->ガウス分布? 潜在変数zに相当する画像Xを生成 潜在変数の仮定 出力画像潜在変数の分布 潜在変数zから画像Xを生成(θは母数) q(z):pの事前分布として簡単な形(今回は多項ガウス分布)を考える ・z ~ p(z):pの事前分布として簡単な形(今回は多項標準ガウス分布)を考える
  • 21. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ • 入力->潜在変数の分布を生成 • 潜在変数からのサンプリング->入力に近しい出力の生成 VAEのグラフィカルな理解 潜在変数の分布の生成 潜在変数のサンプリング 入力 出力
  • 22. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 最適化の必要性 • で、これってどうやって最適化するの? – 最尤推定:周辺尤度log(pθ(x))の最大化から考える – 周辺尤度log(pθ(x))は以下のように分解できる 母数θを定めた時に取りうるxの周辺確率が最も高くなるように設定する 一般的な変分下界における数式的な展開 変分下界: θ, φの汎関数 ref) PRML下巻9.4 (p=qの時、等号成立) pとqを近づけることが目的なので変分下界を最大化する 必要がある
  • 23. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 変分下界の展開 • 変分下界の展開 – 以下の式変形により、最適にすべき項が導出できる 正則化項:KL Divergence (Regularization Parameter) 復元誤差 (Reconstruction Error) この二つの和を最大化すれば良い
  • 24. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 正則化項:KL Divergence • KL Divergenceの計算 ~N(μ, Σ) ~N(0, I) ref) 細かい式の導出は原論文のAPPENDIX C) 参照
  • 25. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 復元誤差:Reconstruction Error • Reconstruction Errorは以下のように近似できる • 画像のピクセルを0~1に調整した時にベルヌーイ分布を仮定すると logp(x|z)は以下のように表すことができる (yはzの潜在変数を全結合層に通した最終層の変数)
  • 26. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ • 最適化関数 – KL Divergence: p(z)とq(z|x)の情報的な距離・正則化項: – Reconstruction error: 入出力の差: VAEのグラフィカルな理解 潜在変数の分布の生成 潜在変数のサンプリング 入力 出力 潜在変数の事前分布
  • 27. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ VAE全体のブロック図 学習フェーズ 活用フェーズ X 正則化項 復元誤差 Decoder(P) Encoder(Q) Z ~ N(μ, Σ) サンプリング 最適化 X Decoder(P) Z ~ N(μ, Σ) このZを入力として与える
  • 28. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 学習フェーズのより詳細な構造 X Encoder(Q) Decoder(P) μ Σ Sample z ~ N(μ, Σ) zRegularization Parameter Reconstruction Error この形だと誤差逆伝播が使えない! ->サンプリングしている時点で微分の計算が不可 誤差
  • 29. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Reparametrization Trick × * X Encoder(Q) Decoder(P) μ Σ Sample ε ~ N(0, I) z = μ + ε Σ Reconstruction Error Sample z ~ N(μ, Σ)  z = μ + ε Σ (sample ε ~ N(0, I)) と書き直すことができる -> Back Propagationが利用可能 Regularization Parameter
  • 30. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ zの変換について • 一次元の場合の簡単な証明 Sample z ~ N(μ, σ)  z = μ + ε σ (sample ε ~ N(0, 1)) εは標準正規分布なので確率密度関数は と変換できるので代入・周辺化して 次数が2次以上の場合も同様 これは正規分布z~(N(μ, σ))からのサンプリングに他ならない
  • 31. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ VAEの最適化のフローのまとめ DNN DNN + ・生成時 ・訓練時 訓練時のものを利用
  • 32. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Result 表情の生成 文字の生成 • 潜在空間に対応する画像の生成
  • 33. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ VAEの結論 • Deep Learningを生成モデルに適用 – 筆跡や表情といった潜在変数の分布を組み込む形を考案し、データ セットに存在しない自然な画像の生成を可能にした
  • 34. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ おまけ:AutoEncoder Encode Decode OutputInput ・AutoEncoderによる画像の圧縮・再構成 ・中間層での画像の抽象表現の獲得 抽象表現→文字の分布?
  • 35. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Valuational AutoEncoderの実態 Encode Decode OutputInput ・構造はAutoEncoderの中間層にノイズを入れただけ ・loss関数に正則化項を加えた ・構造,名前は非常に似ているが由来は異なる +ε
  • 36. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 生成モデルの論文紹介 • 画像の自動生成 • 3次元モデルの自動生成 • 行動の予測 • (生成モデルではないけどおまけ)DNNを騙す画像の生成
  • 37. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 教師ありVAE • Semi-supervised Learning with Deep Generative Models (14’ M. Welling) – 教師ありVAE, セミ教師ありVAEの提案 – 同じ筆跡の別の文字などの生成も可能に Y labels
  • 38. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ GAN • Generative Advisarial Net(14’ I. J. Goodfellow) – 学習データに似たイメージを作るGenerator – 学習データかGeneratorが作成したデータか見分けるDiscriminator » GenratorとDiscriminatorでイタチごっこをする 一番右が近いイメージ
  • 39. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ LAPGAN • Deep Generative Image Models using a Laplacian Pylamid of Adversarial Networks(15’ E. Denton) – 周波数ごとのGANを作り高解像の画像を生成する手法
  • 40. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ DCGAN • Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks(16’ A.Radford) • GANにCNN, Leaky ReLU, Batch Normalizationを加えた手法 – Leaky Relu: 0以下にも勾配をつけたReLU – Batch Normalization: バッチごとの平均・分散を用いて正規化 精細な画像,潜在変数のベクトル演算
  • 41. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ VAEとGANの統合 • Autoencoding beyond pixels using a learned similarity metric (15’ A. B. L. Larsen) – VAEの後ろ部分にGANをくっつけたもの – VAEのreconstructionとGANの精細さを両立
  • 42. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 文章と画像の統合 • 深層生成モデルを用いたマルチモーダル学習(16’ 鈴木) – 複数のモダリティ情報を統合 – 例えば,モナリザにsmile要素を加える
  • 43. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ RNN+VAE • DRAW: A Recurrent Neural Network For Image Generation (15’ K.Gregor) – RNNとVAEを組み合わせて徐々に画像を生成していく手法 – 上に塗っていくイメージ
  • 44. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 画像圧縮 • Towards Conceptual Compression(16’ K.Gregor) – Convolutional DRAWを提案し,画像圧縮に応用 – 上からJPEG,JPEG2000,下二つが分散あり・なしのCDRAW – 圧縮率を上げても自然な圧縮を実現 圧縮率20%
  • 45. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Pixelごとの復元 • Pixel Recurrent Neural Networks(16’ A. Oord) – RNNを用いて近傍のPixel群から周りのpixel群を予測して復元
  • 46. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 3次元版のVAE • Deep Convolutional Inverse Graphics Network(15’ TD. Kuulkarni) – VAEを3次元に拡張 – 人の顔のモデルのバリエーションを生成
  • 47. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 2次元画像->3次元モデル • Unsupervised Learning of 3D Structure from Images (16’ D.J.Rezende) – 二次元画像から三次元モデルを復元する – 教師データとしての三次元モデルは一切与えない 2次元画像から復元した3次元モデル
  • 48. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 運動ベクトルの推定 • An Uncertain Future: Forecasting from Static Images using Variational Autoencoders (16’ J. Walker) – 画像と動きのベクトルを学習させて画像のどの部分が動くか予測
  • 49. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ DNNを騙す画像の生成 • Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images(15’ A.Nguyen) – 元ある識別器を騙す画像を進化論的アルゴリズムにより作成 – 識別精度が高くなるように画像のピクセルをランダムに変化させる Direct encode Indirect encode
  • 50. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 終わりに • まとめ – 深層生成モデルの中のVAEについての説明 – 画像関連の生成モデル論文の紹介 • 印象 – 生成モデルはここ1年が凄まじい » VAE・GANの原論文以外はほぼ去年・今年の論文 » DeepMind, OpenAIが参入 » 静止画の生成モデルはかなり行われている印象 – 動画像生成とかはまだまだ
  • 51. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 参考文献 • Introduction to variational autoencoders – URL: https://home.zhaw.ch/~dueo/bbs/files/vae.pdf – VAEのスライド • Deep Advances in Generative Modeling – URL: https://www.youtube.com/watch?v=KeJINHjyzOU – Youtubeでの深層生成モデルの解説 • Digit Fantasies by a Deep Generative Model – URL: http://www.dpkingma.com/sgvb_mnist_demo/demo.html – VAEのデモ • LAPGANの解説(スライド) – 他のGANの話も載っているのでオススメ – URL: http://www.slideshare.net/hamadakoichi/laplacian-pyramid-of- generative-adversarial-networks-lapgan-nips2015-reading-nipsyomi