[DL輪読会]Temporal DifferenceVariationalAuto-Encoder

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Temporal DifferenceVariational Auto-Encoder
Presenter: Masahiro Suzuki, Matsuo Lab
2018/11/30（発表後一部修正）

輪読内容について
• Temporal Difference Variational Auto-Encoder
– Karol Gregor, Frederic Besse
• GregorさんはDRAWを提案した人
• ICLRに採録（オーラル，スコアが8,9,7）
• TD-VAEを提案した論文
– 系列情報を扱う深層生成モデル
– ある任意ステップまで「飛び越えて」推論ができる点がすごい
-> 汎用AIの大きな課題の一つである「時系列の抽象化」に挑んだ研究
• 本論文についての私見
– 強化学習（特にPOMDP）との関係を意識しており，世界モデル研究の1つと位置づけられる．
• どうでもいいけど最近「世界モデル」がバズワード化しないか勝手に心配している．
– 非常に素直なモデルだが，ぱっと見分かりづらい．
• ICLR版でだいぶ改善されている．
• 謝罪
– 関連研究についてあまり調べられませんでした．
– 完全版はまた別の勉強会（強化学習アーキテクチャとか）で話すかもしれない．
2

論文に載ってるTD-VAEの概要図
3
ちょっとよくわからない・・・

研究背景
• 系列の生成モデルは様々な領域で応用されている．
– 音声合成（WaveNet，PixelRNN）
– 翻訳（NMT）
– 画像キャプショニング
• 本研究では部分観測環境の強化学習の問題を考える
– エージェントはこれまで収集した情報から計算した，世界の不確実性を表現する必要がある．
– モデルベースで考えると，エージェントは過去と一貫性のある遠い未来を想像しなければならない．
• ステップごとにプランニングするのは認知学的にも計算量的にも現実的ではない．
-> これらを一気に解決できるような世界モデルを考えたい
5

部分観測環境における世界モデルに求められること
• 著者らは次の3つの性質を同時に持つことが必要であるとしている．
1. データから抽象的な状態表現を学習して，状態表現を利用した予測を行える必要がある．
2. ある時間までの全ての観測データが与えられた下での，状態のフィルタリング分布の決定論的かつコード化され
た表現（信念状態）を学習しなければならない．
• この信念状態にはエージェントが世界について知っている全ての情報が含まれている．
• つまり，最適化するための行動に関する情報も含まれている．
3. 時間方向について抽象化している必要がある．
• ステップを飛び越えて（jumpy）未来を予測することができる．
• 時間的に離れたデータから（その間のステップを誤差逆伝播せずに）学習できる必要がある．
• 既存研究ではこれらをすべて満たす研究は存在しない．
-> Temporal Difference Variational Auto-Encoder （TD-VAE）を提案
6

系列情報の扱い方：自己回帰モデル
系列データ(𝑥1, … , 𝑥 𝑇)をモデル化する方法としては，自己回帰モデルと状態空間モデ
ルが知られている．
• 自己回帰モデル
– 尤度を条件付き分布の積で表す．
log 𝑝(𝑥1, … , 𝑥 𝑇) =
𝑡
log 𝑝(𝑥𝑡|𝑥1, … , 𝑥𝑡−1)
– RNNをつかって，これまでのデータを内部状態ℎにまとめることで簡単に計算できる．
• 欠点：
– 元の観測空間でしか学習しない（圧縮した表現を学習しない）．
– 計算コストがかかる（各ステップでデコードとエンコードを繰り返す必要性）．
– 不安定（実データを入れるRNNには，テスト時に前の予測が入ってくる）． 8
ℎ 𝑡 = 𝑓(ℎ 𝑡−1, 𝑥𝑡)

系列情報の扱い方：状態空間モデル
• 状態空間モデル
– 状態系列𝐳 = (𝑧1, … , 𝑧 𝑇)および観測系列𝐱 = (𝑥1, … , 𝑥 𝑇)が与えられたときに，
とすると，ELBO（変分下界）は次のようになる．
• 特徴：
– 入力𝑥を確率的な状態（潜在変数）𝑧に圧縮する．
• ちなみに，この辺りの研究ではxとzを逆にしたりするらしい．
– 状態空間内での遷移が可能（自己回帰モデルのように毎回エンコードとデコードをする必要がない）
9
同時分布：𝑝(𝐱, 𝐳) = 𝑡 𝑝 𝑧𝑡 𝑧𝑡−1 𝑝(𝑥𝑡|𝑧𝑡)
推論分布：𝑞(𝐳|𝐱) = 𝑡 𝑞 𝑧𝑡 𝑧𝑡−1, 𝜙 𝑡(𝐱) （自己回帰）
log 𝑝(𝐱) ≥ 𝐸 𝑧~𝑞 𝑧|𝑥
𝑡
log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝 𝑧𝑡 𝑧𝑡−1 − log 𝑞 𝑧𝑡 𝑧𝑡−1, 𝜙 𝑡(𝐱)
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡

状態空間モデルにおける未来の入力の予測
• 時系列モデルでは，過去の入力が与えられた下での未来の入力を予測したい．
– つまり条件付き分布𝑝(𝑥𝑡+1, … , 𝑥 𝑇|𝑥1, … , 𝑥𝑡) の推論
• 状態空間モデルでは，推論分布を使って入力𝐱から𝑧を推論してから未来の入力を
生成する
– 𝑧への推論は自己回帰的な事後分布𝑞 𝐳 𝐱 = 𝑡 𝑞(𝑧𝑡|𝑧𝑡−1, 𝐱)で計算していた．
– しかし，入力𝐱における状態𝑧𝑡を得るためには，𝑧𝑡−1の再サンプリングが必要であり，𝑧𝑡−1について
も・・・と考えると，𝑧1から全て再サンプリングしなければならない．
11
𝑥 𝑡−1
𝑧𝑡−1
𝑥 𝑡
𝑧𝑡

フィルタリング分布と信念状態
• そこで，新たにフィルタリング分布 𝑝(𝑧𝑡|𝑥1, … , 𝑥𝑡) を導入する．
– 𝑧𝑡の推論は現在までの入力（𝑥1, … , 𝑥𝑡）のみに依存する（未来の𝑥や他の時点の𝑧には依存しない）．
– 強化学習（POMDP）における信念状態といわれるものに相当．
• フィルタリング分布を使うと，未来の入力の予測分布は次のように導出できる．
• 信念状態とPOMDP
– POMDPにおける最適方策との関わりでこれまでも知られていたが，学習した深層モデルにおける信念状態
を考える研究は殆どなかった．
12
𝑥 𝑡−1
𝑧𝑡−1
𝑥 𝑡
𝑧𝑡
𝑝 𝑥𝑡+1, … , 𝑥 𝑇 𝑥1, … , 𝑥𝑡 = 𝑝 𝑥𝑡+1, … , 𝑥 𝑇 𝑧𝑡 𝑝 𝑧𝑡 𝑥1, . . , 𝑥𝑡 𝑑𝑧𝑡
𝑝 𝑧𝑡 𝑥1, . . , 𝑥 𝑡

信念状態のコードの導入
• 信念状態の「コード」𝑏𝑡 = 𝑓(𝑏𝑡−1, 𝑥𝑡)を導入する．
– 𝑓は任意の関数（RNNとか）
– すると信念状態は𝑝 𝑧𝑡 𝑥≤𝑡 = 𝑝(𝑧𝑡|𝑏𝑡)と表せる（入力が𝑏になる）．
– また，推論分布はコードを使って𝑞 𝑧𝑡−1 𝑧𝑡, 𝑥≤𝑡 = 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑏𝑡−1, 𝑏𝑡)と
なる．
• 以上より，目的関数（ELBO）は次のようになる．
14
信念状態推論モデル
信念状態
− log 𝑝 𝐵 𝑧𝑡 𝑏𝑡 − log 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑏𝑡−1, 𝑏𝑡)]
生成モデル生成モデル
ℒ = 𝔼 𝑝 𝐵(𝑧 𝑡|𝑏 𝑡)𝑞(𝑧 𝑡−1|𝑧 𝑡,𝑏 𝑡−1,𝑏 𝑡)[log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝 𝐵(𝑧𝑡−1|𝑏𝑡−1) + log 𝑝(𝑧𝑡|𝑧𝑡−1)
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
𝑏𝑡−1 𝑏𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡

Jumpy状態のモデリング
• ここまで導出したモデルは，あるステップから次のステップで状態がどのように変わる
かを表したモデル
• しかし実際のプランニングでは，各ステップで観測を受け取って単純に行動する訳では
ない．
– 例：海外旅行のプランニングでは，旅行オプションの議論，目的地の選択，チケット購入など
– それぞれは異なるタイムスケールになっており，一秒ごとにプランニングを立てる訳ではない．
-> 直接将来の状態を想像できる（jumpy）モデルが必要
• その他にも未来を直接モデル化する幾つかのモチベーションがある．
– 未来からの訓練信号は時間ステップ間の小さな変化に対して頑健であるべき．
– 時間を任意に取りたい場合，データの時間的なサブサンプリングと独立であるべき．
– Jumpy予測は，時間効率的にもいい．
• 類似の研究はあるが，状態の学習を行わず，完全観測問題のみに焦点を当てている．
15

TD-VAE
• 前ページの議論から，時間について抽象化できるようにモデルを拡張する．
– 𝑡から𝑡 + 1の遷移をモデル化するのではなく，任意のステップ 𝑡1 ，𝑡2 間の状態をjumpyに推論するモデルを考える．
– ELBOは次のように変わる（時間ステップが変わっただけ）
– 学習するときには𝑡2 − 𝑡1として[1, 𝐷]の任意の範囲をサンプリングして学習する．
• 𝑝(𝑧𝑡2
|𝑧𝑡1
)と𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)はどう設計するの？？？？
– これらの分布は任意の時間幅で飛べるらしい（𝑡2 − 𝑡1 = 𝛿𝑡として𝑝(𝑧2|𝑧1, 𝛿𝑡)といった感じ）
– arXiv版をみると，
という感じでパラメータ化している．
16
ℒ 𝑡1,𝑡2
= 𝔼 𝑝 𝐵(𝑧 𝑡2|𝑏 𝑡2)𝑞(𝑧 𝑡1|𝑧 𝑡2,𝑏 𝑡1,𝑏 𝑡2)[log 𝑝 𝑥𝑡2
𝑧𝑡2
+ log 𝑝 𝐵(𝑧𝑡1
|𝑏𝑡1
) + log 𝑝(𝑧𝑡2
|𝑧𝑡1
)
− log 𝑝 𝐵 𝑧𝑡2
𝑏𝑡2
− log 𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)]

改めて図をみる
17
やっぱりよくわからん・・・
Gregor先生のお気持ち解説（4.2節）を読むといいかも

ポイント
• 重要なのは，第2項と第5項
– 学習するときには（先ほどの図では）KLダイバージェンスになっている．
– これはつまり，現在の推論を未来からの推論と近づけているということ
– 𝑡1の時点で利用可能な情報だけを使って，どれだけ未来からの推論と同じくらいの推論ができたか？を評価して
いる
-> CVAEやGQNなどと共通する考え方
– “TD”-VAEという名前は，このあたりとTD誤差との関連性から． 18
𝑥 𝑡−1
𝑧𝑡−1
𝑥 𝑡
𝑧𝑡
ℒ 𝑡1,𝑡2
= 𝔼 𝑝 𝐵(𝑧 𝑡2|𝑏 𝑡2)𝑞(𝑧 𝑡1|𝑧 𝑡2,𝑏 𝑡1,𝑏 𝑡2)[log 𝑝 𝑥 𝑡2
𝑧𝑡2
+ log 𝑝 𝐵(𝑧𝑡1
|𝑏𝑡1
) + log 𝑝(𝑧𝑡2
|𝑧𝑡1
)
− log 𝑝 𝐵 𝑧𝑡2
𝑏𝑡2
− log 𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)]
𝐷 𝐾𝐿[𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)| 𝑝(𝑧𝑡1
𝑏𝑡1
)]

補足：VAE×RNN Zoo
• VAE×RNNの研究一覧（生成モデル（上段）で分類，VSMC系は載せていない）
※分布（矢印）は概ね時刻𝑡に関するもののみ描画
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
Deep Markov Model [Krishnan+ 17]
（Deep Kalman Filter [Krishnan+ 15]）
※推論分布は論文内でいくつか提案されている
ℎ 𝑡−1 ℎ 𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
SRNN [Fraccaro+ 16]
𝑑 𝑡−1 𝑑 𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
TD-VAE [Gregor+ 18]
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
VRNN [Chung+ 16]
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
STORN [Bayer+ 15]
𝑑 𝑡−1 𝑑 𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
Z-forcing [Goyal+ 17]
𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡|𝑧1:𝑡−1, 𝑥1:𝑡−1)
𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡) 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡|𝑧𝑡−1, 𝑥)
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
状態空間モデル
※actionは省略
𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡 𝑧𝑡 𝑝 𝑧𝑡 𝑧𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
𝑥𝑡−1
𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡 𝑥1:𝑡−1, 𝑧1:𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡)
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
𝑥𝑡−1
𝑝 𝑥, 𝑧
= Π 𝑡 𝑝 𝑥𝑡+1 𝑥1:𝑡, 𝑧1:𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡)
19

実験1
• 部分観測なMiniPacman [Racanière et al., 2017]
– エージェントは幽霊を避けながら迷路内のすべての食物を食べようとする．
– 観測できるのは5×5のウィンドウ（右）
-> 高いスコアを達成するためには（過去の経験や環境の不確実性を考慮しつつ）信念状態を形成する必要がある．
• この実験では，non-jumpyなTD-VAEが適切に学習できるか確認する．
– 標準的なELBOの下での2つの状態空間モデルと比較
-> TD-VAEのELBOの有効性を評価
21
Under review as aconference paper at ICLR 2019
ELBO − logp(x) (est.)
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-ﬁeld model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
navigating the mazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right:
A sequence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
Log probability isestimated using importance sampling with theencoder as proposal.
Under review asaconference paper at ICLR 2019
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-ﬁeld model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
navigating themazetrying to eat all thefood (blue) whilebeing chased by aghost (red). Top right:
A sequenceof observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
Log probability isestimated using importance sampling with theencoder asproposal.

実験1
• 実験結果
– テスト集合に対する（恐らく負の）変分下界と負の対数尤度での評価
– 小さい方が良いモデル．
– TD-VAEが最も良い結果
– 平均場モデルが低い結果になっている
• 平均場モデルでは𝑏𝑡が信念状態のコードになっているが，フィルタリングモデルではそうなっていないことに注意（フィルタリングモデルでは，
エンコーダで前のステップの𝑧に依存しているので）
信念状態を得るために単純にエンコーダを制限するだけでは精度が下がる
22
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-ﬁeld model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
navigating themazetrying to eat all thefood (blue) whilebeing chased by aghost (red). Top right:
A sequenceof observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:

実験2
• Moving MNIST
– 各ステップで移動するMNIST
– [1,4]の範囲でステップを飛び越えて学習し，生成できるかを実験
• 実験結果：
– ステップ数を飛ばしても生成できた．
– （明示的に書いてないが恐らく）一番左が元画像で各列が飛ばしたステップ数[1,4]に対応している
23
navigating themazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right:
A sequence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
Figure 3: Moving MNIST. Left: Rowsare example input sequences. Right: Jumpy rollouts from
themodel. Weseethat themodel isable to roll forward by skipping frames, keeping thecorrect digit
and thedirection of motion.
5.2 MOVING MNIST
In thisexperiment, weshow that themodel isable to learn thestateand roll forward in jumps. We
consider sequencesof length 20 of images of MNIST digits. For each sequence, arandom digit from
thedataset ischosen, aswell asthedirection of movement (left or right). At each timestep, thedigit
movesby one pixel in the chosen direction, asshown in Figure 3. Wetrain the model with t1 and
t2 separated by arandom amount t2 − t1 from theinterval [1, 4]. Wewould liketo seewhether the
model at agiven timecan roll out asimulated experience in timesteps t1 = t + δ1, t2 = t1 + δ2, . . .
with δ1, δ2, . . . > 1, without considering theinputsin between thesetimepoints. Notethat it isnot
sufﬁcient to predict thefuture inputs xt 1 , . . . asthey do not contain information about whether the
digit movesleft or right. Weneed to sample astate that contains this information.
Weroll out asequence from themodel asfollows: (a) bt iscomputed by the aggregation recurrent
network from observations up to time t; (b) a state zt is sampled from pB (zt | bt ); (c) a sequence
0 0
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-ﬁeld model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
re 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
gating themazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right:
quence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
O and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
probability isestimated using importance sampling with theencoder asproposal.
re 3: Moving MNIST. Left: Rowsare example input sequences. Right: Jumpy rollouts from
model. Wesee that themodel isable to roll forward by skipping frames, keeping thecorrect digit
the direction of motion.

実験3
• ノイズの多い高調波発振器から得られた1次元シーケンス
– 各観測で情報がほとんどなくても（ノイズが入っていても）モデルが状態を構築できることを示す．
– RNNにはLSTMを用いて，階層TD-VAEを使って学習．
• bが階層化している（説明は省略）
– ステップ幅は確率0.8で[1,10]の間，確率0.2で[1,120]の間として学習
• 実験結果：
– 20ステップ及び100ステップ飛ばした結果
– ノイズが多い観測データでも生成できている．
24
Figure4: Skip-state prediction for 1D signal. Theinput isgenerated by anoisy harmonic oscillator.
Rollouts consist of (a) ajumpy state transition with either dt = 20 or dt = 100, followed by 20 state
transitions with dt = 1. The model is able to create a state and predict it into the future, correctly
predicting frequency and magnitude of thesignal.
predict asmuch aspossible about thestate, which consists of frequency, magnitude and position, and
it isonly theposition that cannot beaccurately predicted.

実験4
• DeepMInd Lab環境
– アーキテクチャはConvDRAWを参考したものに変更（恐らくGQNと同じ使い方）
• 実験結果：
– モデルの信念の確認（ある信念からランダムに𝑧を生成）
– 左の画像：それぞれの𝑧サンプルから画像を生成
-> 同じフレームが生成できている
– 右の画像：それぞれの𝑧サンプルから任意にステップを飛んで生成
• 各信念内では同じような画像が生成されているが，信念によって出てくるフレームが異なる
->各信念で取りうる未来が異なっている
25

実験4
• 実験結果：
– ステップを飛び越えて行動を進めることができる．
– 図をどう見ればいいかは正直不明（rolloutと書いているので，多分MNISTと同じ感じ）
26

まとめ
• 本研究では，時系列を扱う世界モデルとしてTD-VAEを提案した．
– 特に，時間方向の抽象化を意識している．
– arXiv版ではあまり強調されていなかった気がする．
• 感想：
– 世界モデルにおいて「時間を抽象化」できるようになった初めての研究（ICLR的には結構受けそう）
– 個人的にはGQNよりも好き．
– 細かい記述がなかったりするので，とりあえずPixyzとかで実装して動作確認してみたい（公式の実装は公開され
ていない）．
28

[DL輪読会]Temporal DifferenceVariationalAuto-Encoder

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]Temporal DifferenceVariationalAuto-Encoder

Similar to [DL輪読会]Temporal DifferenceVariationalAuto-Encoder (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

[DL輪読会]Temporal DifferenceVariationalAuto-Encoder