SlideShare a Scribd company logo
1 of 23
Download to read offline
2
¤
¤
¤
¤
¤
¤
→
¤
¤ autoencoder [Ngiam+ 11] DBM
[Srivastava+ 12]
¤ deep Boltzmann machine
¤ variational autoencoder (VAE)
→ VAE
• VAE (MVAE)
•
• MVAE
•
¤ autoencoder [Ngiam+ 11]
¤ AE
¤ 2
¤ DBM [Srivastava+ 12]
¤ deep Boltzmann machine
¤ AE
...
...
Hidden Units
Audio Input
(a) Audio RBM
...
...
Hidden Units
Video Input
(b) Video RBM
…...
...
Audio Input
Shared Representation
...
Video Input
(c) Shallow Bimodal RBM
...
...
... ...
Audio Input Video Input
...
(d) Bimodal DBN
Figure 2: RBM Pretraining Models. We train RBMs for (a) audio and (b) video separately as
a baseline. The shallow model (c) is limited and we find that this model is unable to capture
correlations across the modalities. The bimodal deep belief network (DBN) model (d) is trained
in a greedy layer-wise fashion by first training models (a) & (b). We later “unroll” the deep
model (d) to train the deep autoencoder models presented in Figure 3.
...
...
...
...
... ...
...
Video Input
Shared
Representation
Audio Reconstruction Video Reconstruction
(a) Video-Only Deep Autoencoder
...
...
... ...
...
...
... ...
...
Audio Input Video Input
Shared
Representation
Audio Reconstruction Video Reconstruction
(b) Bimodal Deep Autoencoder
Figure 3: Deep Autoencoder Models. A “video-only” model is shown in (a) where the model
learns to reconstruct both modalities given only video as the input. A similar model can be
drawn for the “audio-only” setting. We train the (b) bimodal deep autoencoder in a denoising
fashion, using an augmented dataset with examples that require the network to reconstruct both
modalities given only one. Both models are pre-trained using sparse RBMs (Figure 2d). Since
we use a sigmoid transfer function in the deep network, we can initialize the network using the
conditional probability distributions p(h|v) and p(v|h) of the learned RBM.
Therefore, we consider greedily training a RBM over
the pre-trained layers for each modality, as motivated
by deep learning methods (Figure 2d).2
In particular,
the posteriors (Equation 2) of the first layer hidden
variables are used as the training data for the new
layer. By representing the data through learned first
layer representations, it can be easier for the model to
learn higher-order correlations across modalities. In-
formally, the first layer representations correspond to
phonemes and visemes and the second layer models the
relationships between them. Figure 4 shows visualiza-
ties; it is possible for the model to find representations
such that some hidden units are tuned only for au-
dio while others are tuned only for video. Second, the
models are clumsy to use in a cross modality learn-
ing setting where only one modality is present during
supervised training and testing. With only a single
modality present, one would need to integrate out the
unobserved visible variables to perform inference.
Thus, we propose a deep autoencoder that resolves
both issues. We first consider the cross modality learn-
ing setting where both modalities are present during
Image-specific DBM Text-specific DBM
Multimodal DBM
Figure 2: Left: Image-specific two-layer DBM that uses a Gaussian model to model the distribution over real-
valued image features. Middle: Text-specific two-layer DBM that uses a Replicated Softmax model to model
its distribution over the word count vectors. Right: A Multimodal DBM that models the joint distribution over
image and text inputs.
We illustrate the construction of a multimodal DBM using an image-text bi-modal DBM as our
running example. Let vm 2 RD
denote an image input and vt 2 NK
denote a text input. Consider
modeling each data modality using separate two-layer DBMs (Fig. 2). The image-specific two-layer
DBM assigns probability to vm that is given by (ignoring bias terms on the hidden units for clarity):
P(vm; ✓) =
X
h(1),h(2)
P(vm, h(1)
, h(2)
; ✓) = (4)
→ deep Boltzmann machine
Variational Autoencoder
¤ Variational autoencoder [Kingma+ 13]
¤ !(#)
¤ !% # & '( & #
¤ ℒ(#)
¤ NN
ℒ # = −,-.['((&|#)| ! & + 234(5|6)
log!% # &
≥ qφ(z|x) log
pθ(x, z)
qφ(z|x)
dz
= −DKL(qφ(z|x)||p(z)) + Eqφ(z|x)[log pθ(x|z)]
= L(x) (2)
本稿では,qφ(z|x) をエンコーダー,pθ(x|z) をデコーダー
と呼ぶ.
下 界 L(x) を パ ラ メ ー タ θ, φ に つ い て 最 適 化 す る
際 ,VAE で は stochastic gradient variational Bayes
(SGVB)[Kingma 13],または stochastic backpropagation
[Rezende 14] と呼ばれる手法を利用する.z ∼ qφ(z|x) がガウ
ス分布 N(z|µ, σ2
)(ただし φ = {µ, σ2
})のとき,z = µ + σϵ
(ただし ϵ ∼ N(0, 1))のように再パラメータ化(reparameter-
ization)することができる.すると,期待値 Eqφ(z)[fθ(z)] を
EN (ϵ;0,1)[fθ(µ + σϵ)] と置き換えることができ,モンテカルロ
法によって 1
L
L
l=1 fθ(µ + σϵ(l)
)(ただし ϵ(l)
∼ N(0, 1))と
して求めることができる.すなわち式 (3) の下界の推定量は次
のように求まる.
ˆL(x) = −DKL(qφ(z|x)||p(z)) +
1
L
L
l=1
log pθ(x|z(l)
)
ただし z(l)
= µ + σ ⊙ ϵ(l)
, ϵ(l)
∼ N(0, I) (3)
式 (4) の第 1 項は正則化項,第 2 項は負の再構成誤差となっ
ている.この下界を目的関数としてパラメーター φ, θ につい
て最大化する.
VAE は SGVB を利用することで,他の推定法と比較して
低バリアンスな推定量を求めることができる.その一方で,柔
軟かつ計算が容易な近似事後分布を選ぶ必要もあり,これを解
決するために normalizing flows [Rezende 15] や importance
weighted VA [Burda 15] などが提案されている.
その他 VAE を拡張したモデルとして,conditional VAE
こ
グラ
存関
が観
近
下界
L(x
S
ˆL
式
報の
こ
変分推論の枠組みでは,潜在変数の近似事後分布 qφ(z|x)(φ
はモデルパラメータ) を考えて,次の周辺尤度の下界が最大に
なるように学習する.
log p(x) = log pθ(x, z)dz
= log qφ(z|x)
pθ(x, z)
qφ(z|x)
dz
≥ qφ(z|x) log
pθ(x, z)
qφ(z|x)
dz
= −DKL(qφ(z|x)||p(z)) + Eqφ(z|x)[log pθ(x|z)]
= L(x) (2)
本稿では,qφ(z|x) をエンコーダー,pθ(x|z) をデコーダー
と呼ぶ.
下 界 L(x) を パ ラ メ ー タ θ, φ に つ い て 最 適 化 す る
際 ,VAE で は stochastic gradient variational Bayes
(SGVB)[Kingma 13],または stochastic backpropagation
[Rezende 14] と呼ばれる手法を利用する.z ∼ qφ(z|x) がガウ
ス分布 N(z|µ, σ2
)(ただし φ = {µ, σ2
})のとき,z = µ + σϵ
(ただし ϵ ∼ N(0, 1))のように再パラメータ化(reparameter-
ization)することができる.すると,期待値 Eqφ(z)[fθ(z)] を
EN(ϵ;0,1)[fθ(µ + σϵ)] と置き換えることができ,モンテカルロ
法によって 1
L
L
l=1 fθ(µ + σϵ(l)
)(ただし ϵ(l)
∼ N(0, 1))と
して求めることができる.すなわち式 (3) の下界の推定量は次
のように求まる.
ˆL(x) = −DKL(qφ(z|x)||p(z)) +
1
L
L
l=1
log pθ(x|z(l)
)
ただし z(l)
= µ + σ ⊙ ϵ(l)
, ϵ(l)
∼ N(0, I) (3)
式 (4) の第 1 項は正則化項,第 2 項は負の再構成誤差となっ
ている.この下界を目的関数としてパラメーター φ, θ につい
て最大化する.
VAE は SGVB を利用することで,他の推定法と比較して
低バリアンスな推定量を求めることができる.その一方で,柔
軟かつ計算が容易な近似事後分布を選ぶ必要もあり,これを解
決するために normalizing flows [Rezende 15] や importance
weighted VA [Burda 15] などが提案されている.
その他 VAE を拡張したモデルとして,conditional VAE
[Kingma 14a],deep Kalman filter [Krishnan 15],varia-
tional Gaussian process [Dai 15] などが提案されている.
3. 提案モデル
こ
グラ
存関
が観
近
下界
L(x
SG
ˆL(
式
報の
こ
現し
エ
きは
→ VAE
¤ VAE MVAE
¤ #, ; 2 !(#, ;)
¤ # ;
¤ !(#, ;) ℒ(#, ;)
'((&|#, ;) !%6
# & !%<
; &
z ∼ pθ(z) (1
x, w ∼ pθ(x, w|z) (2
で,それぞれのドメインのデータについて条件付き独立と仮定する.
pθ(x, w|z) = pθx (x|z)pθw (w|z) (3
x
z
w
図 1 両方のドメインが観測されたときの TrVB
のモデルの変分下界 L は,次のようになる.
tional Gaussian process [Dai 15] などが提案されている
3. 提案モデル
次に本稿で提案するマルチモーダル VAE(MVAE)に
て説明する.
異なるモーダル情報のデータセットを,それぞれ {X
{W} とし,潜在変数を z とする.また,それらの生成過
z ∼ p(z), x, w ∼ pθ(x, w|z)
とする.
x と w を観測変数とすると
pθ(x, w|z) = pθx (x|z)pθw (w|z)
のように条件付き独立となる,ただし θx と θw は各分布
デルパラメータである.
決するために normalizing flows [Rezende 15] や importance
weighted VA [Burda 15] などが提案されている.
その他 VAE を拡張したモデルとして,conditional VAE
[Kingma 14a],deep Kalman filter [Krishnan 15],varia-
tional Gaussian process [Dai 15] などが提案されている.
3. 提案モデル
次に本稿で提案するマルチモーダル VAE(MVAE)につい
て説明する.
異なるモーダル情報のデータセットを,それぞれ {X} と
{W} とし,潜在変数を z とする.また,それらの生成過程を
z ∼ p(z), x, w ∼ pθ(x, w|z) (4)
とする.
x と w を観測変数とすると
pθ(x, w|z) = pθx (x|z)pθw (w|z) (5)
のように条件付き独立となる,ただし θx と θw は各分布のモ
デルパラメータである.
その他 VAE を拡張したモデルとして,conditiona
[Kingma 14a],deep Kalman filter [Krishnan 15],
tional Gaussian process [Dai 15] などが提案されてい
3. 提案モデル
次に本稿で提案するマルチモーダル VAE(MVAE)
て説明する.
異なるモーダル情報のデータセットを,それぞれ
{W} とし,潜在変数を z とする.また,それらの生成
z ∼ p(z), x, w ∼ pθ(x, w|z)
とする.
x と w を観測変数とすると
pθ(x, w|z) = pθx (x|z)pθw (w|z)
のように条件付き独立となる,ただし θx と θw は各分
デルパラメータである.ℒ #, ; = −,-.['((&|#, ;)| ! & + 234(5|6,<)
log !%6
# & + log !%<
; &
)
ー
る
s
n
ウ
ϵ
-
を
ロ
と
次
図 1: MVAE のグラフィカルモデル
この過程をグラフィカルモデルで表したものが図 1 である.
グラフィカルモデルとは,生成モデルで設計した確率変数の依
存関係を有効グラフで表現したもので,白丸が潜在変数,黒丸
が観測変数を表す.
近似事後分布を qφ(z|x, w) とすると,尤度 p(x, w) の変分
下界は次のようになる.
L(x, w) = qφ(z|x, w) log
pθ(x, w, z)
qφ(z|x, w)
dz
= − qφ(z|x, w) log
qφ(z|x, w)
p(z)
dz
+ qφ(z|x, w)[log pθx (x|z) + log pθw (w|z)]dz
= −DKL(qφ(z|x, w)||p(z))
+Eq (z|x,w)[log pθx (x|z)]
¤
¤
¤ !(#, ;) !(#) !(#|;)
¤ 2
!"
# $ #% $&
' () !"#$!"%
"&#$!"%
図 2: MVAE のネットワーク構造
イ分布 B(w|µθw
) のとき,ベルヌーイ分布のパラメータ µθw
は次のように求める.
y(z) = MLPθw (z)
µθ = Linear(y(z)) (9)
デコーダーがガウス分布のときは,式 (8) の Linear の入力
が 1 つの場合と同様である.
VAE を利用したマルチドメインの研究として,Louizos ら
によって提案された variational fair autoencoder(VFAE)
[Louizos 15] がある.この研究では,ドメイン変数と潜在変数
を結合した層のユニット数は 2048 である.デコーダーのモデル
構造は pθx (x|z) が 2048-1024-1024-3857,pθw (w|z) が 2048-
1024-1024-2000 である.各層の活性化関数には rectified linear
unit を用い,最適化アルゴリズムに Adam [Kingma 14b] を
利用した.
適切な特徴表現が獲得されていることを確認するために,訓
練事例集合でモデルを学習した後,テスト事例集合を与えた
ときの潜在変数 z をエンコーダー qφ(z|x, w) からサンプリン
グし,カテゴリ情報を出力 y とした写像 f : z → y を線形識
別器であるロジスティック回帰モデルで学習する.訓練事例集
合で学習したロジスティック回帰モデルをテスト事例集合で検
'( & #, ;
¤ Conditional VAE (CVAE) [Kingma+ 2014][Sohn+ 2015]
¤ !(#|M)
¤
¤ Conditional multimodal autoencoder [Pandey 16]
¤ !(#|M)
¤ CVAE
¤
¤
¤ M
¤ # M !(M|#) 2
Since the conditional log-likelihood of the proposed
model is intractable, we use variational methods for train-
ing the model, whereby the posterior of the latent vari-
ables given the faces and the attributes is approximated by
a tractable distribution. While variational methods have
long been a popular tool for training graphical models,
their usage for deep learning became popular after the
reparametrization trick of [15, 21, 24]. Prior to that, mean-
field approximation has been used for training deep Boltz-
mann machines (DBM) [22]. However, the training of
DBM involves solving a variational approximation prob-
lem for every instance in the training data. On the other
hand, reparametrizing the posterior allows one to single
parametrized variational approximation problem for all in-
stances in the training data simultaneously.
The proposed model is referred to as conditional multi-
modal autoencoder (CMMA). We use CMMA for the task
of generating faces from attributes, and to modify faces
in the training data, by modifying the corresponding at-
tributes. The dataset used is the cropped Labelled Faces
in the Wild dataset1
(LFW) [11]. We also compare the
qualitative and quantitative performance of CMMA against
Figure 1: A graphical representation of CMMA
we wish to generate and the attributes correspond to the
modality that we wish to condition on.
A formal description of the problem is as fol-
lows. We are given an i.i.d sequence of N datapoints
{(x(1)
, y(1)
), . . . , (x(N)
, y(N)
)}. For a fixed datapoint
(x, y), let x be the modality that we wish to generate and
y be the modality that we wish to condition on. We as-
sume that x is generated by first sampling a real-valued la-
tent representation z from the distribution p(z|y), and then
sampling x from the distribution p(x|z). The graphical rep-
resentation of the model is given in Figure 1. Furthermore,
we assume that the conditional distribution of the latent rep-
resentation z given y and the distribution of x given z are
#
&M
¤
¤ MNIST
¤ CelebA
¤
1. MVAE
2.
¤ # → # !(#)
¤ ; → # !(#|;)
1 MNIST
¤
¤ #
¤ ;
¤ 50,000 10,000
¤
¤ !%6
# & !%<
; &
¤
¤ VAE MVAE
¤ t-SNE
¤ ;
¤ VAE MVAE
¤ ;
VAE MVAE
# → #
¤ !(#)
¤
¤ MVAE
VAE -82.81
MVAE -83.40
; → #
¤ !(#|;)
¤ ! # ; = ∫ ! # & ' & ; ?& MVAE ' & ;
¤ ' & #, ; # 0 ' & ;
¤ #~!(#|;)
¤
¤ # 0 &~' & #, ;
¤ #
¤ '((&|#, ;) '(<
(&|;) '(6
(&|#)
¤ ℒ #, ; '((&|#, ;) '(<
(&|;) '(6
(&|#) KL
ℒ∗
#, ; = ℒ #, ; + α C −,-.['((&|#,;)||'(6
(&|#)'(<
(&|;)]
&
'((&|#, ;)
'(<
(&|;)
#~!(#|;)
¤ '(<
(&|;) E
¤
¤ &~'(<
(&|;) E + FG, F~H(0,1)
¤
&'(<
(&|;)
G
E
2 CelebA
¤ CelebA [Yang+ 2015]
¤ 20
¤ 40
¤ -1,1 2 Male, Young, Eyeglasses
¤ # ;
¤ VAE
¤ VAE-GAN[Larsen+ 2015] VAE generative adversarial net
(GAN)[Goodfellow+ 2014] VAE
¤ # GAN MVAE-GAN .
¤ MNIST
¤ CNN
¤ CelebA
¤ VAE-GAN
¤ MVAE-GAN
¤ MVAE VAE
# → #
¤ !(#)
¤ MVAE
¤ MVAE-GAN
VAE-GAN -375.21
MVAE-GAN -292.69
; → #
¤ !(#|;)
¤ Conditional VAE[Kingma+ 2014]-GAN ! # ;
¤ MVAE
¤ MVAE ! # 	!(#|;)
CVAE-GAN -392.07
MVAE-GAN -258.13
MVAE-GAN #~!(#|;)
¤ '(<
(&|;) E
¤ ;
¤
¤ &~'(<
(&|;) E + FG, F~H(0,1)
¤
&
G
E
'(<
(&|;)
¤ # ;~!(;|#)
¤ ; Smiling=3 ; ∗
¤ z
&
#
Male Eyeglasses Smiling
-0.29 -1 -0.98
;
; ; ∗
¤ Smiling 3
¤
Smiling=3
Male = 3
Eyeglasses = 1
Young = -5
Mustache = 5
¤
VAE (MVAE)
¤ KL
¤ MVAE-GAN
¤ MVAE
¤ MNIST t-SNE CelebA
¤
¤ # # ↔ ;
¤ CelebA VAE CVAE
¤
¤
¤

More Related Content

What's hot

What's hot (20)

Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
Variational AutoEncoder
Variational AutoEncoderVariational AutoEncoder
Variational AutoEncoder
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 

Similar to 深層生成モデルを用いたマルチモーダル学習

パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
Miyoshi Yuya
 

Similar to 深層生成モデルを用いたマルチモーダル学習 (20)

PRML Chapter 5 (5.0-5.4)
PRML Chapter 5 (5.0-5.4)PRML Chapter 5 (5.0-5.4)
PRML Chapter 5 (5.0-5.4)
 
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
 
Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装する
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical Flow文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical Flow
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3
 
Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
PRML_from5.1to5.3.1
PRML_from5.1to5.3.1PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification
 
Draftall
DraftallDraftall
Draftall
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
optimal Ate pairing
optimal Ate pairingoptimal Ate pairing
optimal Ate pairing
 
Implement for Deep Learning of RBM Network in C.
Implement for Deep Learning of  RBM Network in C.Implement for Deep Learning of  RBM Network in C.
Implement for Deep Learning of RBM Network in C.
 
Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 

More from Masahiro Suzuki

深層生成モデルを用いたマルチモーダルデータの半教師あり学習
深層生成モデルを用いたマルチモーダルデータの半教師あり学習深層生成モデルを用いたマルチモーダルデータの半教師あり学習
深層生成モデルを用いたマルチモーダルデータの半教師あり学習
Masahiro Suzuki
 
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
Masahiro Suzuki
 
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
Masahiro Suzuki
 
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
Masahiro Suzuki
 
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
Masahiro Suzuki
 
(DL Hacks輪読) How transferable are features in deep neural networks?
(DL Hacks輪読) How transferable are features in deep neural networks?(DL Hacks輪読) How transferable are features in deep neural networks?
(DL Hacks輪読) How transferable are features in deep neural networks?
Masahiro Suzuki
 

More from Masahiro Suzuki (16)

確率的推論と行動選択
確率的推論と行動選択確率的推論と行動選択
確率的推論と行動選択
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
深層生成モデルを用いたマルチモーダルデータの半教師あり学習
深層生成モデルを用いたマルチモーダルデータの半教師あり学習深層生成モデルを用いたマルチモーダルデータの半教師あり学習
深層生成モデルを用いたマルチモーダルデータの半教師あり学習
 
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
 
(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning
 
(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network
 
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
 
(DL hacks輪読) Variational Inference with Rényi Divergence
(DL hacks輪読) Variational Inference with Rényi Divergence(DL hacks輪読) Variational Inference with Rényi Divergence
(DL hacks輪読) Variational Inference with Rényi Divergence
 
(DL hacks輪読) Deep Kalman Filters
(DL hacks輪読) Deep Kalman Filters(DL hacks輪読) Deep Kalman Filters
(DL hacks輪読) Deep Kalman Filters
 
(研究会輪読) Weight Uncertainty in Neural Networks
(研究会輪読) Weight Uncertainty in Neural Networks(研究会輪読) Weight Uncertainty in Neural Networks
(研究会輪読) Weight Uncertainty in Neural Networks
 
(DL hacks輪読) Deep Kernel Learning
(DL hacks輪読) Deep Kernel Learning(DL hacks輪読) Deep Kernel Learning
(DL hacks輪読) Deep Kernel Learning
 
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
 
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
 
(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target Propagation(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target Propagation
 
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
 
(DL Hacks輪読) How transferable are features in deep neural networks?
(DL Hacks輪読) How transferable are features in deep neural networks?(DL Hacks輪読) How transferable are features in deep neural networks?
(DL Hacks輪読) How transferable are features in deep neural networks?
 

Recently uploaded

Recently uploaded (12)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

深層生成モデルを用いたマルチモーダル学習

  • 1. 2
  • 3. ¤ ¤ autoencoder [Ngiam+ 11] DBM [Srivastava+ 12] ¤ deep Boltzmann machine ¤ variational autoencoder (VAE) → VAE • VAE (MVAE) • • MVAE •
  • 4. ¤ autoencoder [Ngiam+ 11] ¤ AE ¤ 2 ¤ DBM [Srivastava+ 12] ¤ deep Boltzmann machine ¤ AE ... ... Hidden Units Audio Input (a) Audio RBM ... ... Hidden Units Video Input (b) Video RBM …... ... Audio Input Shared Representation ... Video Input (c) Shallow Bimodal RBM ... ... ... ... Audio Input Video Input ... (d) Bimodal DBN Figure 2: RBM Pretraining Models. We train RBMs for (a) audio and (b) video separately as a baseline. The shallow model (c) is limited and we find that this model is unable to capture correlations across the modalities. The bimodal deep belief network (DBN) model (d) is trained in a greedy layer-wise fashion by first training models (a) & (b). We later “unroll” the deep model (d) to train the deep autoencoder models presented in Figure 3. ... ... ... ... ... ... ... Video Input Shared Representation Audio Reconstruction Video Reconstruction (a) Video-Only Deep Autoencoder ... ... ... ... ... ... ... ... ... Audio Input Video Input Shared Representation Audio Reconstruction Video Reconstruction (b) Bimodal Deep Autoencoder Figure 3: Deep Autoencoder Models. A “video-only” model is shown in (a) where the model learns to reconstruct both modalities given only video as the input. A similar model can be drawn for the “audio-only” setting. We train the (b) bimodal deep autoencoder in a denoising fashion, using an augmented dataset with examples that require the network to reconstruct both modalities given only one. Both models are pre-trained using sparse RBMs (Figure 2d). Since we use a sigmoid transfer function in the deep network, we can initialize the network using the conditional probability distributions p(h|v) and p(v|h) of the learned RBM. Therefore, we consider greedily training a RBM over the pre-trained layers for each modality, as motivated by deep learning methods (Figure 2d).2 In particular, the posteriors (Equation 2) of the first layer hidden variables are used as the training data for the new layer. By representing the data through learned first layer representations, it can be easier for the model to learn higher-order correlations across modalities. In- formally, the first layer representations correspond to phonemes and visemes and the second layer models the relationships between them. Figure 4 shows visualiza- ties; it is possible for the model to find representations such that some hidden units are tuned only for au- dio while others are tuned only for video. Second, the models are clumsy to use in a cross modality learn- ing setting where only one modality is present during supervised training and testing. With only a single modality present, one would need to integrate out the unobserved visible variables to perform inference. Thus, we propose a deep autoencoder that resolves both issues. We first consider the cross modality learn- ing setting where both modalities are present during Image-specific DBM Text-specific DBM Multimodal DBM Figure 2: Left: Image-specific two-layer DBM that uses a Gaussian model to model the distribution over real- valued image features. Middle: Text-specific two-layer DBM that uses a Replicated Softmax model to model its distribution over the word count vectors. Right: A Multimodal DBM that models the joint distribution over image and text inputs. We illustrate the construction of a multimodal DBM using an image-text bi-modal DBM as our running example. Let vm 2 RD denote an image input and vt 2 NK denote a text input. Consider modeling each data modality using separate two-layer DBMs (Fig. 2). The image-specific two-layer DBM assigns probability to vm that is given by (ignoring bias terms on the hidden units for clarity): P(vm; ✓) = X h(1),h(2) P(vm, h(1) , h(2) ; ✓) = (4) → deep Boltzmann machine
  • 5. Variational Autoencoder ¤ Variational autoencoder [Kingma+ 13] ¤ !(#) ¤ !% # & '( & # ¤ ℒ(#) ¤ NN ℒ # = −,-.['((&|#)| ! & + 234(5|6) log!% # & ≥ qφ(z|x) log pθ(x, z) qφ(z|x) dz = −DKL(qφ(z|x)||p(z)) + Eqφ(z|x)[log pθ(x|z)] = L(x) (2) 本稿では,qφ(z|x) をエンコーダー,pθ(x|z) をデコーダー と呼ぶ. 下 界 L(x) を パ ラ メ ー タ θ, φ に つ い て 最 適 化 す る 際 ,VAE で は stochastic gradient variational Bayes (SGVB)[Kingma 13],または stochastic backpropagation [Rezende 14] と呼ばれる手法を利用する.z ∼ qφ(z|x) がガウ ス分布 N(z|µ, σ2 )(ただし φ = {µ, σ2 })のとき,z = µ + σϵ (ただし ϵ ∼ N(0, 1))のように再パラメータ化(reparameter- ization)することができる.すると,期待値 Eqφ(z)[fθ(z)] を EN (ϵ;0,1)[fθ(µ + σϵ)] と置き換えることができ,モンテカルロ 法によって 1 L L l=1 fθ(µ + σϵ(l) )(ただし ϵ(l) ∼ N(0, 1))と して求めることができる.すなわち式 (3) の下界の推定量は次 のように求まる. ˆL(x) = −DKL(qφ(z|x)||p(z)) + 1 L L l=1 log pθ(x|z(l) ) ただし z(l) = µ + σ ⊙ ϵ(l) , ϵ(l) ∼ N(0, I) (3) 式 (4) の第 1 項は正則化項,第 2 項は負の再構成誤差となっ ている.この下界を目的関数としてパラメーター φ, θ につい て最大化する. VAE は SGVB を利用することで,他の推定法と比較して 低バリアンスな推定量を求めることができる.その一方で,柔 軟かつ計算が容易な近似事後分布を選ぶ必要もあり,これを解 決するために normalizing flows [Rezende 15] や importance weighted VA [Burda 15] などが提案されている. その他 VAE を拡張したモデルとして,conditional VAE こ グラ 存関 が観 近 下界 L(x S ˆL 式 報の こ 変分推論の枠組みでは,潜在変数の近似事後分布 qφ(z|x)(φ はモデルパラメータ) を考えて,次の周辺尤度の下界が最大に なるように学習する. log p(x) = log pθ(x, z)dz = log qφ(z|x) pθ(x, z) qφ(z|x) dz ≥ qφ(z|x) log pθ(x, z) qφ(z|x) dz = −DKL(qφ(z|x)||p(z)) + Eqφ(z|x)[log pθ(x|z)] = L(x) (2) 本稿では,qφ(z|x) をエンコーダー,pθ(x|z) をデコーダー と呼ぶ. 下 界 L(x) を パ ラ メ ー タ θ, φ に つ い て 最 適 化 す る 際 ,VAE で は stochastic gradient variational Bayes (SGVB)[Kingma 13],または stochastic backpropagation [Rezende 14] と呼ばれる手法を利用する.z ∼ qφ(z|x) がガウ ス分布 N(z|µ, σ2 )(ただし φ = {µ, σ2 })のとき,z = µ + σϵ (ただし ϵ ∼ N(0, 1))のように再パラメータ化(reparameter- ization)することができる.すると,期待値 Eqφ(z)[fθ(z)] を EN(ϵ;0,1)[fθ(µ + σϵ)] と置き換えることができ,モンテカルロ 法によって 1 L L l=1 fθ(µ + σϵ(l) )(ただし ϵ(l) ∼ N(0, 1))と して求めることができる.すなわち式 (3) の下界の推定量は次 のように求まる. ˆL(x) = −DKL(qφ(z|x)||p(z)) + 1 L L l=1 log pθ(x|z(l) ) ただし z(l) = µ + σ ⊙ ϵ(l) , ϵ(l) ∼ N(0, I) (3) 式 (4) の第 1 項は正則化項,第 2 項は負の再構成誤差となっ ている.この下界を目的関数としてパラメーター φ, θ につい て最大化する. VAE は SGVB を利用することで,他の推定法と比較して 低バリアンスな推定量を求めることができる.その一方で,柔 軟かつ計算が容易な近似事後分布を選ぶ必要もあり,これを解 決するために normalizing flows [Rezende 15] や importance weighted VA [Burda 15] などが提案されている. その他 VAE を拡張したモデルとして,conditional VAE [Kingma 14a],deep Kalman filter [Krishnan 15],varia- tional Gaussian process [Dai 15] などが提案されている. 3. 提案モデル こ グラ 存関 が観 近 下界 L(x SG ˆL( 式 報の こ 現し エ きは → VAE
  • 6. ¤ VAE MVAE ¤ #, ; 2 !(#, ;) ¤ # ; ¤ !(#, ;) ℒ(#, ;) '((&|#, ;) !%6 # & !%< ; & z ∼ pθ(z) (1 x, w ∼ pθ(x, w|z) (2 で,それぞれのドメインのデータについて条件付き独立と仮定する. pθ(x, w|z) = pθx (x|z)pθw (w|z) (3 x z w 図 1 両方のドメインが観測されたときの TrVB のモデルの変分下界 L は,次のようになる. tional Gaussian process [Dai 15] などが提案されている 3. 提案モデル 次に本稿で提案するマルチモーダル VAE(MVAE)に て説明する. 異なるモーダル情報のデータセットを,それぞれ {X {W} とし,潜在変数を z とする.また,それらの生成過 z ∼ p(z), x, w ∼ pθ(x, w|z) とする. x と w を観測変数とすると pθ(x, w|z) = pθx (x|z)pθw (w|z) のように条件付き独立となる,ただし θx と θw は各分布 デルパラメータである. 決するために normalizing flows [Rezende 15] や importance weighted VA [Burda 15] などが提案されている. その他 VAE を拡張したモデルとして,conditional VAE [Kingma 14a],deep Kalman filter [Krishnan 15],varia- tional Gaussian process [Dai 15] などが提案されている. 3. 提案モデル 次に本稿で提案するマルチモーダル VAE(MVAE)につい て説明する. 異なるモーダル情報のデータセットを,それぞれ {X} と {W} とし,潜在変数を z とする.また,それらの生成過程を z ∼ p(z), x, w ∼ pθ(x, w|z) (4) とする. x と w を観測変数とすると pθ(x, w|z) = pθx (x|z)pθw (w|z) (5) のように条件付き独立となる,ただし θx と θw は各分布のモ デルパラメータである. その他 VAE を拡張したモデルとして,conditiona [Kingma 14a],deep Kalman filter [Krishnan 15], tional Gaussian process [Dai 15] などが提案されてい 3. 提案モデル 次に本稿で提案するマルチモーダル VAE(MVAE) て説明する. 異なるモーダル情報のデータセットを,それぞれ {W} とし,潜在変数を z とする.また,それらの生成 z ∼ p(z), x, w ∼ pθ(x, w|z) とする. x と w を観測変数とすると pθ(x, w|z) = pθx (x|z)pθw (w|z) のように条件付き独立となる,ただし θx と θw は各分 デルパラメータである.ℒ #, ; = −,-.['((&|#, ;)| ! & + 234(5|6,<) log !%6 # & + log !%< ; & ) ー る s n ウ ϵ - を ロ と 次 図 1: MVAE のグラフィカルモデル この過程をグラフィカルモデルで表したものが図 1 である. グラフィカルモデルとは,生成モデルで設計した確率変数の依 存関係を有効グラフで表現したもので,白丸が潜在変数,黒丸 が観測変数を表す. 近似事後分布を qφ(z|x, w) とすると,尤度 p(x, w) の変分 下界は次のようになる. L(x, w) = qφ(z|x, w) log pθ(x, w, z) qφ(z|x, w) dz = − qφ(z|x, w) log qφ(z|x, w) p(z) dz + qφ(z|x, w)[log pθx (x|z) + log pθw (w|z)]dz = −DKL(qφ(z|x, w)||p(z)) +Eq (z|x,w)[log pθx (x|z)]
  • 7. ¤ ¤ ¤ !(#, ;) !(#) !(#|;) ¤ 2 !" # $ #% $& ' () !"#$!"% "&#$!"% 図 2: MVAE のネットワーク構造 イ分布 B(w|µθw ) のとき,ベルヌーイ分布のパラメータ µθw は次のように求める. y(z) = MLPθw (z) µθ = Linear(y(z)) (9) デコーダーがガウス分布のときは,式 (8) の Linear の入力 が 1 つの場合と同様である. VAE を利用したマルチドメインの研究として,Louizos ら によって提案された variational fair autoencoder(VFAE) [Louizos 15] がある.この研究では,ドメイン変数と潜在変数 を結合した層のユニット数は 2048 である.デコーダーのモデル 構造は pθx (x|z) が 2048-1024-1024-3857,pθw (w|z) が 2048- 1024-1024-2000 である.各層の活性化関数には rectified linear unit を用い,最適化アルゴリズムに Adam [Kingma 14b] を 利用した. 適切な特徴表現が獲得されていることを確認するために,訓 練事例集合でモデルを学習した後,テスト事例集合を与えた ときの潜在変数 z をエンコーダー qφ(z|x, w) からサンプリン グし,カテゴリ情報を出力 y とした写像 f : z → y を線形識 別器であるロジスティック回帰モデルで学習する.訓練事例集 合で学習したロジスティック回帰モデルをテスト事例集合で検 '( & #, ;
  • 8. ¤ Conditional VAE (CVAE) [Kingma+ 2014][Sohn+ 2015] ¤ !(#|M) ¤ ¤ Conditional multimodal autoencoder [Pandey 16] ¤ !(#|M) ¤ CVAE ¤ ¤ ¤ M ¤ # M !(M|#) 2 Since the conditional log-likelihood of the proposed model is intractable, we use variational methods for train- ing the model, whereby the posterior of the latent vari- ables given the faces and the attributes is approximated by a tractable distribution. While variational methods have long been a popular tool for training graphical models, their usage for deep learning became popular after the reparametrization trick of [15, 21, 24]. Prior to that, mean- field approximation has been used for training deep Boltz- mann machines (DBM) [22]. However, the training of DBM involves solving a variational approximation prob- lem for every instance in the training data. On the other hand, reparametrizing the posterior allows one to single parametrized variational approximation problem for all in- stances in the training data simultaneously. The proposed model is referred to as conditional multi- modal autoencoder (CMMA). We use CMMA for the task of generating faces from attributes, and to modify faces in the training data, by modifying the corresponding at- tributes. The dataset used is the cropped Labelled Faces in the Wild dataset1 (LFW) [11]. We also compare the qualitative and quantitative performance of CMMA against Figure 1: A graphical representation of CMMA we wish to generate and the attributes correspond to the modality that we wish to condition on. A formal description of the problem is as fol- lows. We are given an i.i.d sequence of N datapoints {(x(1) , y(1) ), . . . , (x(N) , y(N) )}. For a fixed datapoint (x, y), let x be the modality that we wish to generate and y be the modality that we wish to condition on. We as- sume that x is generated by first sampling a real-valued la- tent representation z from the distribution p(z|y), and then sampling x from the distribution p(x|z). The graphical rep- resentation of the model is given in Figure 1. Furthermore, we assume that the conditional distribution of the latent rep- resentation z given y and the distribution of x given z are # &M
  • 9. ¤ ¤ MNIST ¤ CelebA ¤ 1. MVAE 2. ¤ # → # !(#) ¤ ; → # !(#|;)
  • 10. 1 MNIST ¤ ¤ # ¤ ; ¤ 50,000 10,000 ¤ ¤ !%6 # & !%< ; & ¤
  • 11. ¤ VAE MVAE ¤ t-SNE ¤ ; ¤ VAE MVAE ¤ ; VAE MVAE
  • 12. # → # ¤ !(#) ¤ ¤ MVAE VAE -82.81 MVAE -83.40
  • 13. ; → # ¤ !(#|;) ¤ ! # ; = ∫ ! # & ' & ; ?& MVAE ' & ; ¤ ' & #, ; # 0 ' & ; ¤ #~!(#|;) ¤ ¤ # 0 &~' & #, ; ¤ #
  • 14. ¤ '((&|#, ;) '(< (&|;) '(6 (&|#) ¤ ℒ #, ; '((&|#, ;) '(< (&|;) '(6 (&|#) KL ℒ∗ #, ; = ℒ #, ; + α C −,-.['((&|#,;)||'(6 (&|#)'(< (&|;)] & '((&|#, ;) '(< (&|;)
  • 15. #~!(#|;) ¤ '(< (&|;) E ¤ ¤ &~'(< (&|;) E + FG, F~H(0,1) ¤ &'(< (&|;) G E
  • 16. 2 CelebA ¤ CelebA [Yang+ 2015] ¤ 20 ¤ 40 ¤ -1,1 2 Male, Young, Eyeglasses ¤ # ; ¤ VAE ¤ VAE-GAN[Larsen+ 2015] VAE generative adversarial net (GAN)[Goodfellow+ 2014] VAE ¤ # GAN MVAE-GAN . ¤ MNIST ¤ CNN
  • 17. ¤ CelebA ¤ VAE-GAN ¤ MVAE-GAN ¤ MVAE VAE
  • 18. # → # ¤ !(#) ¤ MVAE ¤ MVAE-GAN VAE-GAN -375.21 MVAE-GAN -292.69
  • 19. ; → # ¤ !(#|;) ¤ Conditional VAE[Kingma+ 2014]-GAN ! # ; ¤ MVAE ¤ MVAE ! # !(#|;) CVAE-GAN -392.07 MVAE-GAN -258.13
  • 20. MVAE-GAN #~!(#|;) ¤ '(< (&|;) E ¤ ; ¤ ¤ &~'(< (&|;) E + FG, F~H(0,1) ¤ & G E '(< (&|;)
  • 21. ¤ # ;~!(;|#) ¤ ; Smiling=3 ; ∗ ¤ z & # Male Eyeglasses Smiling -0.29 -1 -0.98 ; ; ; ∗
  • 22. ¤ Smiling 3 ¤ Smiling=3 Male = 3 Eyeglasses = 1 Young = -5 Mustache = 5
  • 23. ¤ VAE (MVAE) ¤ KL ¤ MVAE-GAN ¤ MVAE ¤ MNIST t-SNE CelebA ¤ ¤ # # ↔ ; ¤ CelebA VAE CVAE ¤ ¤ ¤