深層生成モデルと世界モデル（2020/11/20版）

深層⽣成モデルと世界モデル
東京⼤学⼯学系研究科技術経営戦略学専攻特任助教
鈴⽊雅⼤
2020/11/20
1
第16回汎⽤⼈⼯知能研究会

⾃⼰紹介
鈴⽊雅⼤（東京⼤学松尾研究室特任助教）
¤ 経歴
¤ 2015年3⽉北海道⼤学情報科学研究科修了
¤ 2018年3⽉東京⼤学⼯学系研究科修了
¤ 2018年4⽉〜2020年7⽉東京⼤学⼯学系研究科特任研究員
¤ 2020年8⽉〜東京⼤学⼯学系研究科特任助教
¤ 研究分野︓
¤ 深層⽣成モデル・マルチモーダル学習・転移学習（ゼロショット学習）
¤ 活動など︓
¤ Deep Learning基礎講座・サマースクール「深層⽣成モデル」などの講義担当
¤ Goodfellow, Bengioら著「深層学習」の監訳・分担翻訳
2

⽬次
¤ 深層⽣成モデル
¤ 世界モデル
¤ 深層⽣成モデルと世界モデル
¤ GQN，構造的世界モデル，時系列世界モデル
¤ 時間的抽象化について
¤ まとめ
3

深層⽣成モデル
¤ 深層学習の研究分野では，深層⽣成モデルの研究が進んでいる．
¤ ⽣成系（画像や⽂書）の他に，異常検知，半教師あり学習，表現学習，メタ学習など
Fig. 1. Schematic illustration of the Generative
training scene ! from different viewpoints (in this
A B
r1
r
Representation n
v2
v3
v1
vv1
Neural sc
representa
+
i
i i
i
Observation 1
Observation 3Observation 2
2.1 UNSUPERVISED MODELS FOR WHOLE-SENTENCE ENCODING
A standard RNN language model predicts each word of a sentence conditioned on the previous
word and an evolving hidden state. While effective, it does not learn a vector representation of the
entire sentence. In order to incorporate a continuous global latent sentence representation, we first
need a method to map between sentences and distributed representations that can be trained in an
unsupervised setting. While no strong generative model is available for this problem, three non-
generative techniques have shown promise: sequence autoencoders, skip-thought, and paragraph
vector.
Sequence autoencoders have seen some success in pre-training sequence models for supervised
downstream tasks (Dai & Le, 2015) and in generating complete documents (Li et al., 2015a). An au-
toencoder consists of an encoder function 'enc and a probabilistic decoder model p(x|~z = 'enc(x)),
and maximizes the likelihood of a data case x conditioned on ~z, the learned code for x. In the case of
a sequence autoencoder, both encoder and decoder are RNNs and data cases are sequences of tokens.
There are serious problems with using standard autoencoders to learn feature extractors for global
sentence features. In Table 1, we present the results of computing a path or homotopy between the
encodings for two sentences and decoding each intermediate code. The intermediate sentences are
generally ungrammatical and do not transition smoothly from one to the other. This suggests that
these models do not generally learn a smooth, interpretable feature system for sentence encoding. In
addition, since these models do not incorporate a prior over ~z, there is no practical way to use them
in a generative setting to assign probabilities to sentences or to sample novel sentences.
i went to the store to buy some groceries .
i store to buy some groceries .
i were to buy any groceries .
horses are to buy any groceries .
horses are to buy any animal .
horses the favorite any animal .
horses the favorite favorite animal .
horses are my favorite animal .
Table 1: Sentences produced by greedily decoding from points between two sentence encodings
with a conventional autoencoder. The intermediate sentences are not plausible English. 5
[Brock+ 18]
[Eslami+ 18]
[Bowman+ 15]
[Zhu + 17]
Published as a conference paper at ICLR 2016
A stop sign is flying in
blue skies.
A herd of elephants fly-
ing in the blue skies.
A toilet seat sits open in
the grass field.
Figure 1: Examples of generated images based on captions that describe novel s
highly unlikely to occur in real life. The captions describe a common object doin
strange location.
2 RELATED WORK
Deep Neural Networks have achieved significant success in various tasks s
(Krizhevsky et al., 2012), speech transcription (Graves et al., 2013), and m
danau et al., 2015). While most of the recent success has been achieved b
generative models have not yet enjoyed the same level of success. Most
[Mansimov+ 15]
[Ho+ 20]

⽣成モデル
𝑝!"#" 𝐱
観測データ
⽣成
データ分布
⽣成モデル
𝑝$ 𝑥近似
⽣成
6
𝑝! 𝐱 = $ 𝑝! 𝐱|𝐳 𝑝(𝐳)𝑑𝐳
⽣成モデル
パラメータ
観測変数潜在変数
𝐱
𝐳
𝐱 ~ 𝑝!(𝐱|𝐳)
𝐳 ~ 𝑝(𝐳)
¤ 観測されたデータが未知のデータ分布から⽣成されていると仮定し，その⽣成過程を確率分布に
よってモデル化する枠組み．
¤ データとして観測される観測変数の他に，その背景にある確率変数として潜在変数も仮定することが多
い（潜在変数モデル）．
¤ 「データがどのようにできているか︖」を明⽰的に設計することができ，モデルからデータを⽣
成（シミュレーション）することができる．
𝜃
𝒟 = 𝐱! !"#
$

⽣成モデルの学習
¤ ⽬標︓⽣成モデル𝑝!(𝐱)がデータ分布𝑝"#$#(𝐱)を近似するようにしたい．
¤ ⽣成モデルの構造を設計した上で，近似を実現するようにパラメータ 𝜃を選ぶ．
=> ⽣成モデルの学習
¤ 分布間の「距離」にカルバック・ライブラーダイバージェンスを選択すると，尤度最⼤化
に対応．
𝑝%(𝐱)𝑝&'('(𝐱)
7
近似
+𝜃 = arg max
%
2
)!∈𝒟
log 𝑝% 𝐱!

⽣成モデルでできること
¤ ⽣成︓
¤ ⽣成モデルが学習できれば，未知のデータを⽣成できる
¤ 「⽣成」モデルと呼ばれるのはここから
¤ 密度推定︓
¤ データを⼊⼒すると，それがどれだけ⽣成モデルと違うかがわかる．
¤ 外れ値検出や異常検知に⽤いられる．
¤ ⽋損値補完，ノイズ除去︓
¤ ⽋損やノイズのある⼊⼒を⼊れると「元のデータらしく」補完して
くれる．
http://jblomo.github.io/datamining290/slides/2013-04-26-
Outliers.html
8
⽣成モデル⽣成

⽣成モデルにおける推論
¤ （確率的）推論︓
¤ 確率変数（観測変数）が与えられた下で，任意の確率変数（潜在変数）の事後分布を求める．
¤ 潜在変数を持つ⽣成モデルにおける重要な概念（「結果」から「原因」を探る）．
¤ ⼀般のモデルでは，推論は計算困難なことが多い．
¤ 様々な近似推論が提案されている．
9
𝐱
𝐱~𝑝! (𝐱|𝐳)
𝐳
𝑝%(𝐳|𝐱)

深層⽣成モデル
¤ 観測変数が複雑な場合，単純な確率分布では直接表現できない．
¤ 特に観測変数がベクトルで，次元間の依存関係が⾮線形な場合（⾼解像度画像など）
¤ 従来の⽣成モデルは，複雑な観測データを直接⽣成することは意図していなかった．
複雑な関係性を表現するには︖-> 深層ニューラルネットワーク（DNN）
¤ 深層⽣成モデル（deep generative model）
¤ 確率分布をDNNで表現した⽣成モデル．
¤ モデルパラメータは勾配情報に基づき学習．
𝐱
𝐳
𝐱 ~ 𝑝!(𝐱|𝐳)
深層ニューラルネットワークによる確率分布の表現
𝐳 ~ 𝑝(𝐳)
⽣成モデルによって明⽰的に⽣成過程をモデル化できる
+
DNNによって複雑な変数間の関係性を捉えられる
10

深層⽣成モデルの種類
モデル⽣成モデルの尤度計算⽣成推論
VAE ⽣成モデル︓ 𝑝 𝐱, 𝐳 = ∫ 𝑝 𝐱 𝐳 𝑝 𝐳 𝑑𝐳
推論モデル︓ 𝑞 𝐳 𝐱
直接は不可能（対数尤度の
下界が計算可能）
低コスト可能（推論モデル）
GAN ⽣成器︓ 𝐺(𝐳)
識別器︓ 𝐷(𝐱)
不可能（識別器が真のモデ
ルとの尤度⽐を推定）
低コスト不可能（エンコーダを導
⼊すれば可能）
⾃⼰回帰モデル条件付きモデル︓∏! 𝑝(𝑥!|𝑥", … , 𝑥!#") 可能⾼コスト潜在変数がない
フローベースフロー（可逆な関数）︓ 𝐱 = 𝑓(𝐳) 可能低コスト可能（逆変換）
拡散モデル逆過程︓𝑝(𝐱$) ∏% 𝑝(𝐱%#"|𝐱%)
拡散過程︓∏% 𝑞(𝐱%|𝐱%#")
直接は不可能（対数尤度の
下界が計算可能）
⾼コスト
（反復）
可能（拡散過程）
スコアベーススコアネットワーク︓𝑠(𝐱) 直接は不可能（対数尤度の
勾配が計算可能）
⾼コスト
（反復）
潜在変数がない
エネルギーベースエネルギー関数︓𝐸(𝐱) 困難（分配関数の計算が困
難）
⾼コスト
（反復）
モデルの設計による
11
• 分布間の距離の選択や，モデルの設計，分布のパラメータ化⽅法などによって種類は様々

Variational Autoencoder
¤ Variational autoencoder（VAE） [Kingma+ 13, Rezende+ 14]
¤ 潜在変数モデルの確率分布をDNNで表現する（深層潜在変数モデル）．
¤ 潜在変数𝑧の近似事後分布（推論）を，観測𝑥を⼊⼒とした関数（DNN）で表現（amortized
variational inference）
𝐱
𝐳
𝑞,(𝐳|𝐱)
𝐱 ~ 𝑝5(𝐱|𝐳)
𝐳 ~ 𝑝(𝐳)
𝑞! 𝐳 𝐱 = 𝒩(𝐳|𝝁 = 𝑔&
'
𝐱 , 𝝈 = 𝑔&
(
(𝐱))
推論モデル（近似事後分布）
⽣成モデル
𝑝" 𝐱 𝐳 = ℬ(𝐱|𝝀 = 𝑓# 𝐳 )
𝐳
𝐱
𝝁 𝝈
𝝀
事前分布
𝑝(𝐱) = 𝒩(0, 𝑰)
※ 𝑝) 𝐱, 𝐳 = 𝑝) 𝐱 𝐳 𝑝(𝐳)が⽣成モデルだが，慣例上𝑝) 𝐱 𝐳 を⽣成モデルと呼ぶ
12

Variational Autoencoder
¤ ⽬的関数︓対数周辺尤度の変分下界（エビデンス下界，evidence lower bound︔ELBO）
¤ 分布のパラメータ化等の話を省略して，情報の流れを確認．
¤ VAEでは推論モデルで⼊⼒𝐱を𝐳にエンコードし，⽣成モデルで𝐳から𝐱をデコード（再構成）する．
¤ 推論モデルと⽣成モデルをオートエンコーダにおけるエンコーダとデコーダとみなせる．
13
log 𝑝%(𝐱) ≥ 𝔼/: 𝐳 𝐱 log 𝑝% 𝐱|𝐳 − 𝐷01[𝑞, 𝐳 𝐱 ∥ 𝑝 𝐳 ]
負の再構成誤差推論モデルの正則化
𝐳エンコーダ 𝑞3 𝐳 𝐱 デコーダ 𝑝! 𝐱|𝐳𝐱 𝐱
再構成⼊⼒

⽣成画像
¤ ランダムな𝐳からデコーダによって画像𝐱をサンプリング
¤ データ集合と同じような画像が⽣成できているが，輪郭等がぼやける傾向がある．
rmed through the inverse CDF of the Gaussian to produce
h of these values z, we plotted the corresponding generative
[Kingma+ 13] @AlecRad
14

⽣成画像
¤ Nouveau VAE（NVAE）[Vahdat+ 20]
¤ VAEの潜在変数を階層化する．
¤ 利点︓
¤ 階層的な表現を獲得できる．
¤ モデル全体の表現⼒を向上させることができる．
¤ より柔軟な推論が可能となる．
15

VAEと表現学習
¤ VAEでは，再構成だけでなく表現𝐳~𝑞;(𝐳|𝐱)も学習しているとみなせる．
¤ 深層⽣成モデルにおいては，表現学習は推論と等価
¤ ⼊⼒から潜在変数へ推論することで表現を獲得している．
¤ VAEは表現学習⼿法として優れた⼿法．
¤ 表現学習（representation learning）︓
¤ データから「良い表現」を（できれば教師なしで）獲得する．
¤ 「良い表現」とは︖
¤ 元のデータの性質をある程度保持しつつ，他のタスクにも使い回せるような表現．
¤ Meta-Prior [Bengio+ 13, Goodfellow+ 16]
¤ 同時に多くのタスクに使える表現の性質に関する仮定
¤ 多様体，Disentangle，概念の階層性，半教師あり学習，クラスタ性など
16
https://www.slideshare.net/lubaelliott/emily-denton-unsupervised-learning-
of-disentangled-representations-from-video-creative-ai-meetup

Disentangled representation
¤ Disentangled representation（もつれを解く表現）
¤ データは独⽴に変化する要素から⽣成されているという仮定
¤ 例) 物体の向き，光源の状態
¤ 利点︓
¤ ⼈間が解釈しやすい表現（「概念」の獲得）
¤ 様々なタスクに転⽤できる可能性
¤ 推論モデルへの正則化によってdisentangleな表現を獲得可能[Higgins+ 17]
https://www.slideshare.net/lubaelliott/emily-denton-unsupervised-learning-of-disentangled-
representations-from-video-creative-ai-meetup
17

条件付きVAE
¤ 観測変数 𝑦 （𝐱と異なる情報）で条件づけたVAE
¤ 𝒚 から𝐱への⽣成過程を表現．
18
𝐱
𝐳
𝐳𝐲
別の情報潜在変数
𝐱
𝑝 𝐱 = ∫ 𝑝 𝐱 𝐳 𝑝 𝐳 𝑑𝐳 𝑝 𝐱|𝐲 = ∫ 𝑝 𝐱 𝐳, 𝐲 𝑝 𝐳 𝑑𝐳
⼊⼒

条件付きVAE
¤ 属性𝐲から画像𝐱の⽣成[Larsen+ 15]
¤ ⽂書𝐲から画像𝐱の⽣成[Mansimov+ 15]
19
Published as a conference paper at ICLR 2016
A stop sign is flying in
blue skies.
A herd of elephants fly-
ing in the blue skies.
A toilet seat sits open in
the grass field.
A person skiing on sand
clad vast desert.
Autoencoding beyond pixels using a learned similarity metric
Input
Reconstruction
Bald
Bangs
Black hair
Blond hair
Bushy eyebrows
Eyeglasses
Gray hair
Heavy makeup
M
ale
M
ustache
Pale skin
Figure 5. Using the VAE/GAN model to reconstruct dataset samples with visual attribute vectors added to their latent representations.
as demonstrated by Denton et al. (2015); Radford et al.
(2015).
Lately, convolutional networks with upsampling have
shown useful for generating images from a latent rep-
resentation. This has sparked interest in learning im-
age embeddings where semantic relationships can be ex-
pressed using simple arithmetic – similar to the suprising
results of the word2vec model by Mikolov et al. (2013).
First, Dosovitskiy et al. (2015) used supervised training to
train convolutional network to generate chairs given high-
level information about the desired chair. Later, Kulkarni
et al. (2015); Yan et al. (2015); Reed et al. (2015) have
demonstrated encoder-decoder architectures with disentan-
gled feature representations, but their training schemes rely
on supervised information. Radford et al. (2015) inspect
the latent space of a GAN after training and find directions
5. Discussion
The problems with element-wise distance metrics are well
known in the literature and many attempts have been made
at going beyond pixels – typically using hand-engineered
measures. Much in the spirit of deep learning, we argue
that the similarity measure is yet another component which
can be replaced by a learned model capable of capturing
high-level structure relevant to the data distribution. In this
work, our main contribution is an unsupervised scheme for
learning and applying such a distance measure. With the
learned distance measure we are able to train an image
encoder-decoder network generating images of unprece-
dented visual fidelity as shown by our experiments. More-
over, we show that our network is able to disentangle fac-
tors of variation in the input data distribution and discover
visual attributes in the high-level representation of the la-

マルチモーダルVAE
¤ Joint Multimodal VAE（JMVAE） [Suzuki+ 17]
¤ 画像𝐱と⽂書𝐲を異なるモダリティと考え，それらの情報を統合した共有表現を推論するVAE．
¤ 単⼀モダリティからも推論するために，それぞれの推論モデルを⽤意してKL最⼩化で近づける．
𝐱
𝐳
𝐲 𝐲𝐱
𝐳 𝐳
𝐷*+𝐷*+
𝑞 𝐳 𝐲𝑞 𝐳 𝐱
𝑞 𝐳 𝐱, 𝐲
20
共有表現モダリティ間の双⽅向変換
58 4
Male : 0.95
Eyeglasses : -0.99
Young : 0.30
Smiling : -0.97
!
!
Male : 0.22
Eyeglasses : -0.99
Young : 0.87
Smiling : -1.00
!
!
Input
Generated
attributes Average face Reconstruction Not Male Eyeglasses Not Young Smiling
Mouth
slightly open
4.10 *6 *7
4.2 57
Random facesAverage face
Base
(random)
Not Male
Bald
Smiling
(b)
(a)
!
!

我々はどのように世界を知覚しているのか︖
¤ 我々は5感を経由して，外界から刺激を受けている（この場合視覚）
¤ こうした刺激を元に，それが何であるかを知覚（認識）している．
¤ しかし外界からの刺激は，知覚の情報としては不⼗分
¤ 上の画像は不完全な情報にもかかわらず，なぜ机や椅⼦があるとわかるのだろうか︖
¤ そもそも，なぜ2次元画像から3次元だと認識できているのだろうか︖
22

ヘルムホルツの無意識的推論
¤ 「知覚」は「刺激」に基づくが，同じではないのは明らか（刺激 ≠ 知覚）．
¤ 知覚が⽣じるのは，何か別の処理がある︖
¤ もし別の処理があるならば，これは「無意識」に⾏われているはず．
¤ ヘルムホルツの無意識推論（unconscious inference）
¤ 我々は，⼊ってきた知覚を⾃らの「経験」に基づき解釈している．
¤ この解釈は，帰納的推論によって実現される．
¤ 画像という「結果」から，それが何の画像であるかという「要因」を推論する．
¤ こうした処理を無意識に⾏うので「無意識」推論
?
要因結果（画像）
推論（知覚）
23

世界モデル
¤ 過去の経験はどのような形で獲得されているのか︖
¤ 推論するためには，経験は脳内にモデルとして存在しているはず．
¤ これまでの外界からの刺激に基づき，脳内で外界のモデルを学習によって獲得しているのでは︖
¤ 世界モデル（world model） ︓
¤ 外界からの刺激を元に，世界の構造を学習するモデル．
¤ 内部モデルや⼒学モデルともいう．
¤ 世界モデルを獲得することで，新たな刺激からの推論を⾏うことができる．
推論要因
世界モデル
24

表現学習としての世界モデル
¤ 脳内では，外界からの情報を空間的・時間的な表現に圧縮している．
¤ 要因を表現とすると，これは表現の階層的な推論に対応する＝＞DNNの利⽤
¤ 世界モデルは表現学習（⾃⼰教師あり学習）を⾏っている．
.
€)
a
2
｢ = Vp+ ep•
128
「感情とはそもそも何なのか」（乾敏郎著）より
25

世界モデルによる予測
¤ 世界モデルは，世界の構造をモデル化している．
¤ したがって，その世界の任意の刺激をシミュレーションすることができる．
¤ これは，世界モデルによる想像や予測と考えられる．
¤ ある要因があるときに，どのような刺激が⽣じるか︖（反実仮想）
¤ 推論（認識・知覚）とは逆の流れ．
推論
要因
予測
世界モデル
26

世界モデルによる予測の例
¤ バットを振ってボールに当てる
¤ ボールが⾶んでくる視覚情報が脳に到達する時間は，バットの振り⽅を決める時間よりも短い．
¤ 世界モデルによって無意識に予測を⾏い，それにしたがって筋⾁を動かしている．
¤ 錯視
¤ 実際には回っていない画像が回って⾒える（右）
¤ 世界モデルが「回転している」と予測している．
http://www.psy.ritsumei.ac.jp/~akitaoka/rotsnakes.html
27

世界モデルによる予測と知能
¤ 「今までの記憶から未来を予測する⼒．それが知能である．」
¤ 「On Intelligence（考える脳考えるコンピュータ）」（Jeff Hawkins著）より
¤ より正確に⾔うと，現在の運動や⾏動を使って将来の刺激を予測している．
¤ これは，学習した脳の世界モデルによって未来をシミュレーションしているということ．
¤ 我々はこれを常に⾏っていると考えられる．
28
-> 知能における世界モデルの重要性

⽣成モデルとしての世界モデル
¤ 世界モデルをどのように学習するか︖
¤ 観測される刺激が「環境（世界）」から⽣成されると仮定する．
¤ その環境を近似するように，世界モデルを学習する．
-> ⽣成モデルとしての世界モデル
推論
要因
予測
観測
近似
世界モデル
予測 ⇔ ⽣成
帰納的推論 ⇔ 確率的推論
刺激 ⇔ 観測変数
要因 ⇔ 潜在変数
環境
29

ヘルムホルツマシン
¤ ヘルムホルツマシン[Dayan+ 95]
¤ ヘルムホルツの無意識推論を元に，推論モデルと⽣成モデルを同時に学習するモデル．
¤ Wake-sleepアルゴリズムで学習．
¤ Wake-sleepアルゴリズム[Hinton+ 95]
¤ Wake phase︓推論モデル𝑞" 𝑥, 𝑧 = 𝑞" 𝑧 𝑥 ̂𝑝#$%$(𝑥)からのサンプルで⽣成モデル𝑝! 𝑥, 𝑧 を最尤学習．
¤ Sleep phase︓⽣成モデル𝑝! 𝑥, 𝑧 = 𝑝 𝑧 𝑝!(𝑥|𝑧)からのサンプルで推論モデル𝑞" 𝑧 𝑥 を最尤学習．
¤ ⽋点︓Wake phaseとsleep phaseで最適化している⽬的関数が異なる -> VAE[Kingma+ 13]に発展
𝑥
𝑧
𝑞!(𝑧|𝑥) 𝑥 ~ 𝑝"(𝑥|𝑧)
𝑧 ~ 𝑝(𝑧)
argmin! 𝐷&'(𝑞" 𝑥, 𝑧 ||𝑝! 𝑥, 𝑧 ) = argmax! 𝐸(, ),+ [log 𝑝! 𝑥, 𝑧 ]
argmin" 𝐷&'(𝑝! 𝑥, 𝑧 ||𝑞" 𝑥, 𝑧 ) = argmax" 𝐸,- ),+ [log 𝑞" 𝑥, 𝑧 ]
30

深層⽣成モデルと世界モデル
31

世界モデル
¤ 世界モデルはなぜ近年注⽬されるようになった︖
¤ 深層⽣成モデルや表現学習（⾃⼰教師あり学習）の進展（その他計算機性能の向上）により，⼤規模
なデータから世界モデルを学習できるようになった．
¤ 世界モデルの定義
¤ 固有のダイナミクスと⾏動によって，世界がどのように発展するかを予測する⾃⼰教師ありモデル
[Kim+ 20]
¤ 本発表では（時系列でなくても）限られた情報から外界をモデル化する枠組みを総称して世界モデル
とよんでいる．
¤ 世界モデルの種類
¤ Generative Query Network
¤ 構造化世界モデル
¤ 時系列世界モデル
32

Generative Query Network
¤ Generative Query Network（GQN）[Eslami+ 18]
¤ ある複数の視点における画像を元に，別の視点の画像を予測する世界モデル．
¤ 条件付きVAEの利⽤．
¤ 複数の視点𝐫 = 𝑓(𝐱-,…,/
, 𝐯-,…,/
)と別の視点𝐯(
で条件付けた画像𝐯(
の深層⽣成モデル．
33
Fig. 1. Schematic illustration of the Generative Query Network. (A) The agent observes
training scene ! from different viewpoints (in this example from &$
/
, &$
@
and &$
A
). (B) The inputs
to the representation network 2 are observations made from viewpoints &$
/
and &$
@
, and the
A B
r1
r2
r
h1 h2 hL
z
Generation network gRepresentation network f
···
v2
v3
v1
v2
v1
v3
Neural scene
representation
Query
Latent
Rendering steps
Predicted
view
+
i
i i
i i i
Observation 1
Observation 3Observation 2
⽣成ネットワーク
（⽣成モデル）
表現ネットワーク
（表現を推論する部分）
𝐱(
𝐳
𝑞 𝐳 𝐱<
, 𝐯<
, 𝐫
𝑝 𝐱<
𝐳, 𝐯<
, 𝐫𝜋(𝐳|𝐯<
, 𝐫)
𝐫
𝐯(

Generative Query Network
https://www.youtube.com/watch?v=RBJFngN33Qo
34

構造化世界モデル
¤ 世界は，様々な物体から構成されている．
¤ 我々は外界からの刺激に基づき，関係性や階層性について理解することができる．
¤ こうした認識は，教師なしで無意識に⾏われる．
¤ 構造化世界モデル（structured world model）
¤ 画像などのデータから物体やその関係を推論する世界モデル．
35

Attend-Infer-Repeat (AIR)
¤ 物体それぞれに該当する潜在変数（物体の種類や位置などを表す）があると仮定
して，⽣成モデルを設計．
¤ 観測情報から，各物体の潜在変数を⾃⼰回帰的に推論する．
¤ VAEの枠組みで，⽣成モデルと推論モデルを学習．
=> Attend-Infer-Repeat (AIR) [Eslami+ 16]
¤ AIRによる推論・再構成
36

構造化世界モデルの特徴
¤ 観測情報から，任意の複数の物体を教師なしで認識し⽣成することができる．
¤ GQNでは，個々の物体については認識していない．
¤ より複雑な環境での構造化世界モデル
¤ MONet[Burgess+ 19]（右図上）
¤ IODINE [Greff+ 19]（右図下）
¤ GENESIS [Engelcke+ 19]
¤ 課題︓
¤ 認識できる物体の個数に上限がある．
¤ ⼈間は，⽬に⾒える物体全てを完全に認識しているわけではない．
¤ 学習が不安定︖
¤ ⼈間は，完全に教師なしで物体認識をしているわけではない．
37

時系列情報と世界モデル
¤ 我々は時間発展する世界の中で⽣きている．
¤ したがって，世界から得られるデータは時系列情報
¤ 世界モデルでは，時間発展する世界を空間的+時間的に抽象化している．
¤ 世界モデルを⽤いて，⾃由に推論や予測を⾏なっている．
¤ 「⼈間の脳はタイムマシン」（ディーン・ブオノマーノ著）
38

深層状態空間モデル
¤ 状態（潜在）系列𝐳 = (𝑧:, …, 𝑧;)および観測系列𝐱 = (𝑥:, …, 𝑥;)が与えられたときに，
として，VAEの枠組み（ELBO最⼤化）で学習．
¤ ⼊⼒ 𝑥を確率的な状態（潜在変数）𝑧に圧縮する．
¤ 状態表現では，任意のタスクにおける時間遷移が容易になってほしい（状態表現学習）
39
同時分布（遷移モデルと⽣成モデル）︓𝑝(𝐱, 𝐳) = ∏= 𝑝 𝑧= 𝑧=>? 𝑝(𝑥=|𝑧=)
推論モデル︓𝑞(𝐳|𝐱) = ∏= 𝑞 𝑧= 𝑧=>?, 𝜙$(𝐱 )
𝑥%0-
𝑧%0-
𝑥%
𝑧%

（時系列）世界モデルと強化学習
¤ 未知の環境を学習する世界モデルを利⽤して，⽅策を最適化する（モデルベース強化学習）．
¤ 世界モデルを⽤いることで，⾼いサンプル効率やより良いタスク転移が期待される．
¤ 世界モデル + 強化学習で考えるべきこと
1. 強化学習を⾏う上でどのような世界モデルを設計・学習するべきか︖
¤ 世界モデルとして状態空間モデルを利⽤することが多い．
¤ 観測から強化学習にとって良い状態表現を獲得する（状態表現学習）．
2. 世界モデルを⽤いてどのように⽅策を学習するか︖
¤ 実際には，この２つは独⽴ではなく互いに関連している（右図）．
40

World Model
¤ World Model[Ha+ 18]
¤ VAEとMDN-RNN[Graves + 13, Ha+ 17]で，ゲーム環境の世界モデルを学習
41

World Model
¤ 学習した世界モデルの中で強化学習を⾏う
¤ ⼈間でいうイメージトレーニングや睡眠学習のようなもの
¤ 実世界とは違い，何回でも学習できる．
¤ 実世界（ゲーム）でテストすると，正しく⾏動できていることがわかる．
42

深層状態空間モデルと強化学習
¤ PlaNet [Hafner+ 18]
¤ 状態空間モデルに報酬予測を組み合わせたモデルベース強化学習モデル．
¤ 過去の⾏動𝑎%0-と状態𝑠%0-から次の状態𝑠%が決まる︓𝑠%~𝑝(𝑠%|𝑠%0-, 𝑎%0-)
¤ 報酬𝑟%は，現在の状態𝑠%から決定される︓𝑟%~𝑝(𝑟%|𝑠%)
¤ ⽅策は，推論した状態を元に決定する（潜在空間上でのプランニング）．
¤ 状態の推論モデル︓ 𝑞(𝑠%|𝑜1%, 𝑎2%)
¤ 実験結果︓
43

状態表現学習の確認
¤ Shaping Belief States with Generative Environment Models for RL [Gregor+ 19]
¤ PlaNetと類似したモデルベース強化学習
¤ 状態でどのような表現が獲得されているかを確認するために，画像へのデコーダを⽤意．
¤ 状態のデコード
¤ エージェントが歩き回ることによって，環境の地図が作成される．
¤ 潜在空間上で，⼀貫性のある表現が獲得できていることがわかる．
44

状態表現学習の確認
45
https://www.youtube.com/watch?v=dOnvAp_wxv0

推論としての⽅策最適化
¤ 強化学習における⽅策の最適化も，⽣成モデルにおける推論とみなすことができる．
¤ Control as Inference （CAI）[Levine+ 18]
¤ 状態𝑠%と⾏動𝑎%が最適なのかを評価する最適性変数𝑒% ∈ {0,1}を導⼊．
¤ 最適性変数が従う分布は，報酬関数𝑟を⽤いて𝑝 𝑒% = 1 𝑠%, 𝑎% = exp(𝑟(𝑠%, 𝑎%))とする．
¤ すると，最適⽅策𝑝3,% 𝑎%|𝑠% は最適性変数𝑒%:5と状態𝑠%からの推論となる．
𝑝<=$ 𝑎$|𝑠$ = 𝑝 𝑎$|𝑠$, 𝑒$:; = 1
46

⾃由エネルギー原理と能動推論
¤ 能動推論（active inference） [Friston]
¤ ⽣命は⾃由エネルギー（負のELBO）が最⼩になるような⾏動を選択する（⾃由エネルギー原理）．
¤ 直感的には，脳の世界モデルに基づき，なるべく驚きが減るような⾏動を選択する．
¤ 能動推論は⾃由エネルギー原理の考え⽅をプランニングに発展させたもの．
¤ CAIとの違い︓
¤ 能動学習では，情報利得が最⼤になるように探索する（新奇性の⾼い⾏動が促される）．
¤ 能動推論では「選好（preference）」が世界モデルの事前知識としてエンコードされている（世界モデ
ルの学習と強化学習は分離されない）
47

時間的抽象化
¤ Temporal abstraction
¤ 料理をする場合を想定 [Precup, DLRL Toronto 2018*]
¤ ⼤まかな⼿順︓レシピの選択，⾷料品リストの作成，⾷料品の⼊⼿，料理，など
¤ 中レベルの⼿順︓鍋を⼊⼿，材料を鍋に⼊れる，滑らかになるまで混ぜる，レシピをチェックす
る，など
¤ 低レベルの⼿順︓⾞の運転中の⼿⾸と腕の動き，かき混ぜる，など
¤ こうした（時間の幅の異なる）様々なレベルの⼿順を統合したい．
* http://videolectures.net/site/normal_dl/tag=1199094/DLRLsummerschool2018_precup_temporal_abstraction_01.pdf
48

TD-VAE
¤ TD-VAE [Gregor+ 18]
¤ 状態空間モデルに信念状態𝑝6(𝑧%|𝑏%)を導⼊．
¤ 任意の時間ステップの状態にジャンプできるモデルを設計する．
=>時間的抽象化につながる
¤ TD-VAEによって数ステップ⾶ばしても系列⽣成できる．
49
𝑥%0-
𝑧%0-
𝑥%
𝑧%
𝑏$%& 𝑏$
ELBO log p(x) (est.)
l 0.1169 ± 0.0003 0.0962 ± 0.0007
del 0.1987 ± 0.0004 0.1678 ± 0.0010
0.0773 ± 0.0002 0.0553 ± 0.0006
he game (size 15 ⇥ 19). Pacman (green) is
hile being chased by a ghost (red). Top right:
5 ⇥ 5 windows around Pacman. Bottom right:
set of MiniPacman sequences. Lower is better.
ng with the encoder as proposal.
Under review as a conference paper at ICLR 2019

Variational Temporal Abstraction
¤ Variational Temporal Abstraction（VTA）[Kim+ 19]
¤ 状態を抽象化した階層的な状態空間モデル（左）
¤ 上位の状態𝑧の例︓レシピの選択->⾷料品リストの作成->⾷料品の⼊⼿->料理
¤ これを実現するために，𝑧を遷移させるかを決める潜在変数𝑚 ∈ {0,1}を導⼊（右）．
¤ 「ゲート」のような役割を果たす
50

Variational Temporal Abstraction
¤ Navigation in 3D Maze
¤ 左︓⽣成されたナビゲーションのパス
¤ 右︓対応する時間⽅向に抽象化された系列データ
51

時間的抽象化の課題
¤ 時間的抽象化の研究
¤ TD-VAE，VTA
¤ 現状の時間的抽象化の課題︓
1. 構成的な抽象化ができない．
¤ 実際には様々なレベルの抽象化があり，⼈間はそれを混在した形で⽤いている．
2. ⾏動の抽象化ではない．
¤ TD-VAEやVTAは状態についての抽象化．
¤ ⼈間の⾏動は，⾮常に抽象化されている（料理をする，⾷べる，など）．
52

DreamCoder
¤ 帰納プログラミング問題を解く深層⽣成モデル [Ellis+ 20]
¤ 帰納プログラミング︓⼊出⼒例かなどから，そのプログラムを獲得する．
¤ ⼊出⼒例から，原始的なプログラムを組み合わせて，プログラムを設計する．
¤ 1から原始プログラムを組み合わせると膨⼤な時間がかかるため，プログラムの抽象化を⾏う（⽣成
モデルの学習）．
¤ 抽象化したプログラムは，新たな原始プログラムとして扱われる（構成的な抽象化）．
¤ ⾼速にプログラムを推論するため，推論モデルも同時に学習．
53

DreamCoder
¤ Wake-sleepアルゴリズムを⽤いて，⽣成モデルと推論モデルを交互に学習する．
¤ 起きているときに，⼊出⼒例からプログラムを探索．
¤ 寝ているときに，原始プログラムを抽象化しつつ，推論モデルを「夢」から学習する．
54

DreamCoder
¤ 様々な例から，抽象化した関数を⾼速に獲得し，それらを組み合わせて例を⽣成できる．
55
訓練データの例
獲得した抽象的な関数
⽣成した例

オプションの推論
¤ オプション [Sutton+ 99]︓
¤ 低レベルの⽅策から構成される，より⾼レベルの⽅策（スキルとも）．
¤ オプションを潜在変数とし，推論問題とみなす[Shankar+ 20]
¤ 低レベルの⽅策と⾼レベルの⽅策を同時に教師なしで獲得．
¤ 獲得したオプションの潜在表現を可視化．
¤ ⾏動が時間的に抽象化され，似た⾏動はまとまっている．
56

その他の世界モデルの課題
¤ 3つの領域（GQNと世界モデル，構造的世界モデル，時系列世界モデル）をどのように融合する
か︖
¤ 融合する場合，どのようなモデル・⽬的関数を設計すればいいか︖
¤ 不完全な世界モデルの中でどのように振る舞うべきか︖
¤ 我々の世界モデルは常に「不完全」（世界の全てを知っているわけではない）
¤ 世界モデルの活⽤と更新のバランス．
¤ 他者をどのようにモデル化するか︖
¤ 環境のダイナミクスの中から「他者」を特定して，内部的にモデル化するには︖
¤ マルチモーダル情報をどのように扱うか︖
¤ 我々は視覚だけでなく，⾔語など様々な種類の情報（マルチモーダル情報）から世界を構築している．
¤ あるモダリティから別のモダリティを⽣成することもできる．
¤ 別のモダリティの⽣成によって表現獲得が加速する．
[Shi+ 19]
57

システム1とシステム2
¤ 「ファスト&スロー（by ダニエル・カーネマン）」より
¤ 古典的な⼈⼯知能は，探索やシンボルに基づく推論が中⼼的（システム2）
¤ 深層学習によって，外界から直感的な振る舞いを学習できるようになった（システム1）
世界モデルと古典的な⼈⼯知能の融合が重要になる＝＞深層⽣成モデルによってシステム1側からシステム2を再構築する
https://drive.google.com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view
58

Pixyz
¤ Pixyz [Suzuki+ 18]︓深層⽣成モデルに特化した確率プログラミングライブラリ
¤ 複雑な深層⽣成モデルを簡潔に実装できることが特徴
¤ PyTorch（深層学習ライブラリ）ベース
¤ 直感的な実装を実現するために，DNNと確率モデルの設計が分離していることが特徴．
¤ DNNを意識せずに確率モデルの実装に集中できる．
¤ Pixyzの構成図（実装の流れ）︓
DNN modules
(torch.nn.modules)
𝑝 𝑥, 𝑧 = 𝑝 𝑥 𝑧 𝑝 𝑧
𝑞(𝑧|𝑥)
ℒ(𝑥; 𝜃, 𝜙) = −𝐸!!(#|%)[log
𝑝'(𝑥, 𝑧)
𝑞((𝑧|𝑥)
]
𝜃 ← 𝜃 − 𝛼
𝜕ℒ(𝑥; 𝜃, 𝜙)
𝜕𝜃
Flow modules
(pixyz.flows)
Autoregression modules
(pixyz.autoregressions)
Loss API (pixyz.losses)
確率モデルの誤差関数を定義
Distribution API (pixyz.distributions)
DNNから確率分布，確率モデルを定義
Model API (pixyz.models)
定義した誤差関数をもとに学習
59
DNN部分
確率モデル部分

複雑な深層⽣成モデルの実装
¤ TD-VAE[Gregor+ 18]
¤ 従来の深層確率プログラミング⾔語では実装困難
¤ Pixyzでの実装（確率モデリング部分のみ表⽰）
60
E
q(zt1 ,zt2 |bt1 ,bt2 )
[log p (xt2 |zt2 ) + log pB (zt1 |bt1 ) + log p (zt2 |zt1 ) log pB (zt2 |bt2 ) log q (zt1 |zt2 , bt1 , bt2 )]
<latexit sha1_base64="6RhHIi8IQtIi6ez2digkBHP4zjY=">AAADrnichVHLbtNAFL2ueZTwaAobJDYWUVERJRpHSK1YVUVIXfZB0kpxZHncSTLq+IE9iWgG/wA/wIIVSAghFnwEG36gi25gjVgWiQ0Lrh8orgtlLM+9c+acM/fO0FDwWBJypM3o585fuDh7qXb5ytVrc/X56504GEUua7uBCKJd6sRMcJ+1JZeC7YYRczwq2A7df5Tu74xZFPPAfyIPQtbznIHP+9x1JEL2vLZujfw9JDCpnlqC9eXixFbSVmaSLBl52koS47lBpzD9A1sRHwzl3URZniOHlKrHiKUmXUsEAyPMDZ+VXCYV6b2caKu1pHJ6+ciT5DKx7Dol3v+7a7mRVoVcbb5c69JZzRt57Nn1BmmSbBinE7NIGlCMjaD+DizYgwBcGIEHDHyQmAtwIMavCyYQCBHrgUIswoxn+wwSqKF2hCyGDAfRfZwHuOoWqI/r1DPO1C6eIvCPUGnAAjkk78kx+Uw+kG/k1z+9VOaR1nKAkeZaFtpzL25u//yvysMoYThVnVmzhD6sZLVyrD3MkLQLN9ePJy+Ptx9uLag75A35jvW/JkfkE3bgj3+4bzfZ1iuo4QOY1es+nXRaTZM0zc0HjdW14ilm4RbchkW872VYhXXYgDa42kftUPuifdWJ3tF7up1TZ7RCcwNODH34G3CkCLY=</latexit><latexit sha1_base64="6RhHIi8IQtIi6ez2digkBHP4zjY=">AAADrnichVHLbtNAFL2ueZTwaAobJDYWUVERJRpHSK1YVUVIXfZB0kpxZHncSTLq+IE9iWgG/wA/wIIVSAghFnwEG36gi25gjVgWiQ0Lrh8orgtlLM+9c+acM/fO0FDwWBJypM3o585fuDh7qXb5ytVrc/X56504GEUua7uBCKJd6sRMcJ+1JZeC7YYRczwq2A7df5Tu74xZFPPAfyIPQtbznIHP+9x1JEL2vLZujfw9JDCpnlqC9eXixFbSVmaSLBl52koS47lBpzD9A1sRHwzl3URZniOHlKrHiKUmXUsEAyPMDZ+VXCYV6b2caKu1pHJ6+ciT5DKx7Dol3v+7a7mRVoVcbb5c69JZzRt57Nn1BmmSbBinE7NIGlCMjaD+DizYgwBcGIEHDHyQmAtwIMavCyYQCBHrgUIswoxn+wwSqKF2hCyGDAfRfZwHuOoWqI/r1DPO1C6eIvCPUGnAAjkk78kx+Uw+kG/k1z+9VOaR1nKAkeZaFtpzL25u//yvysMoYThVnVmzhD6sZLVyrD3MkLQLN9ePJy+Ptx9uLag75A35jvW/JkfkE3bgj3+4bzfZ1iuo4QOY1es+nXRaTZM0zc0HjdW14ilm4RbchkW872VYhXXYgDa42kftUPuifdWJ3tF7up1TZ7RCcwNODH34G3CkCLY=</latexit><latexit sha1_base64="6RhHIi8IQtIi6ez2digkBHP4zjY=">AAADrnichVHLbtNAFL2ueZTwaAobJDYWUVERJRpHSK1YVUVIXfZB0kpxZHncSTLq+IE9iWgG/wA/wIIVSAghFnwEG36gi25gjVgWiQ0Lrh8orgtlLM+9c+acM/fO0FDwWBJypM3o585fuDh7qXb5ytVrc/X56504GEUua7uBCKJd6sRMcJ+1JZeC7YYRczwq2A7df5Tu74xZFPPAfyIPQtbznIHP+9x1JEL2vLZujfw9JDCpnlqC9eXixFbSVmaSLBl52koS47lBpzD9A1sRHwzl3URZniOHlKrHiKUmXUsEAyPMDZ+VXCYV6b2caKu1pHJ6+ciT5DKx7Dol3v+7a7mRVoVcbb5c69JZzRt57Nn1BmmSbBinE7NIGlCMjaD+DizYgwBcGIEHDHyQmAtwIMavCyYQCBHrgUIswoxn+wwSqKF2hCyGDAfRfZwHuOoWqI/r1DPO1C6eIvCPUGnAAjkk78kx+Uw+kG/k1z+9VOaR1nKAkeZaFtpzL25u//yvysMoYThVnVmzhD6sZLVyrD3MkLQLN9ePJy+Ptx9uLag75A35jvW/JkfkE3bgj3+4bzfZ1iuo4QOY1es+nXRaTZM0zc0HjdW14ilm4RbchkW872VYhXXYgDa42kftUPuifdWJ3tF7up1TZ7RCcwNODH34G3CkCLY=</latexit><latexit sha1_base64="6RhHIi8IQtIi6ez2digkBHP4zjY=">AAADrnichVHLbtNAFL2ueZTwaAobJDYWUVERJRpHSK1YVUVIXfZB0kpxZHncSTLq+IE9iWgG/wA/wIIVSAghFnwEG36gi25gjVgWiQ0Lrh8orgtlLM+9c+acM/fO0FDwWBJypM3o585fuDh7qXb5ytVrc/X56504GEUua7uBCKJd6sRMcJ+1JZeC7YYRczwq2A7df5Tu74xZFPPAfyIPQtbznIHP+9x1JEL2vLZujfw9JDCpnlqC9eXixFbSVmaSLBl52koS47lBpzD9A1sRHwzl3URZniOHlKrHiKUmXUsEAyPMDZ+VXCYV6b2caKu1pHJ6+ciT5DKx7Dol3v+7a7mRVoVcbb5c69JZzRt57Nn1BmmSbBinE7NIGlCMjaD+DizYgwBcGIEHDHyQmAtwIMavCyYQCBHrgUIswoxn+wwSqKF2hCyGDAfRfZwHuOoWqI/r1DPO1C6eIvCPUGnAAjkk78kx+Uw+kG/k1z+9VOaR1nKAkeZaFtpzL25u//yvysMoYThVnVmzhD6sZLVyrD3MkLQLN9ePJy+Ptx9uLag75A35jvW/JkfkE3bgj3+4bzfZ1iuo4QOY1es+nXRaTZM0zc0HjdW14ilm4RbchkW872VYhXXYgDa42kftUPuifdWJ3tF7up1TZ7RCcwNODH34G3CkCLY=</latexit>
実装したモデルは
式として可視化できる

Pixyzの公開・利⽤状況
¤ 公開・利⽤状況
¤ リポジトリ︓https://github.com/masa-su/pixyz
¤ Star数388，ダウンロード数11,450（11/20現在）
¤ 今回紹介した様々な深層⽣成モデル・世界モデルをPixyz
で実装済み．
¤ Pixyzoo（ https://github.com/masa-su/pixyzoo ）
¤ GQN[Eslami+ 18]の再現実装（by 松尾研⾕⼝くん）
は第⼀著者にも紹介されている．
61
-> 世界モデルの記述⾔語としてのPixyz

まとめ
¤ 深層⽣成モデルと世界モデルの最近の研究について話しました．
¤ 深層⽣成モデル︓確率分布をDNNで表現した⽣成モデル．
¤ 世界モデル︓限られた情報から外界をモデル化する枠組み．
¤ GQN，構造的世界モデル，時系列世界モデル
¤ 時間的抽象化の重要性
¤ 参考（今回の内容をより詳しく説明したスライド）︓
¤ 「世界モデル」と関連研究について
¤ https://www.slideshare.net/masa_s/ss-97848402
¤ GQNと関連研究，世界モデルとの関係について
¤ https://www.slideshare.net/DeepLearningJP2016/dlgqn-111725780
¤ 確率的推論と⾏動選択
¤ https://www.slideshare.net/masa_s/ss-239199456
¤ 謝辞︓
¤ この成果は，JSPS科研費18H06458および国⽴研究開発法⼈新エネルギー・産業技術総合開発機構（ＮＥＤＯ）の
委託業務の結果得られたものです。
62

深層生成モデルと世界モデル（2020/11/20版）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 深層生成モデルと世界モデル（2020/11/20版）

Similar to 深層生成モデルと世界モデル（2020/11/20版） (20)

More from Masahiro Suzuki

More from Masahiro Suzuki (17)

深層生成モデルと世界モデル（2020/11/20版）