SlideShare a Scribd company logo
1 of 28
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Temporal DifferenceVariational Auto-Encoder
Presenter: Masahiro Suzuki, Matsuo Lab
2018/11/30(発表後一部修正)
輪読内容について
• Temporal Difference Variational Auto-Encoder
– Karol Gregor, Frederic Besse
• GregorさんはDRAWを提案した人
• ICLRに採録(オーラル,スコアが8,9,7)
• TD-VAEを提案した論文
– 系列情報を扱う深層生成モデル
– ある任意ステップまで「飛び越えて」推論ができる点がすごい
-> 汎用AIの大きな課題の一つである「時系列の抽象化」に挑んだ研究
• 本論文についての私見
– 強化学習(特にPOMDP)との関係を意識しており,世界モデル研究の1つと位置づけられる.
• どうでもいいけど最近「世界モデル」がバズワード化しないか勝手に心配している.
– 非常に素直なモデルだが,ぱっと見分かりづらい.
• ICLR版でだいぶ改善されている.
• 謝罪
– 関連研究についてあまり調べられませんでした.
– 完全版はまた別の勉強会(強化学習アーキテクチャとか)で話すかもしれない.
2
論文に載ってるTD-VAEの概要図
3
ちょっとよくわからない・・・
背景
4
研究背景
• 系列の生成モデルは様々な領域で応用されている.
– 音声合成(WaveNet,PixelRNN)
– 翻訳(NMT)
– 画像キャプショニング
• 本研究では部分観測環境の強化学習の問題を考える
– エージェントはこれまで収集した情報から計算した,世界の不確実性を表現する必要がある.
– モデルベースで考えると,エージェントは過去と一貫性のある遠い未来を想像しなければならない.
• ステップごとにプランニングするのは認知学的にも計算量的にも現実的ではない.
-> これらを一気に解決できるような世界モデルを考えたい
5
部分観測環境における世界モデルに求められること
• 著者らは次の3つの性質を同時に持つことが必要であるとしている.
1. データから抽象的な状態表現を学習して,状態表現を利用した予測を行える必要がある.
2. ある時間までの全ての観測データが与えられた下での,状態のフィルタリング分布の決定論的かつコード化され
た表現(信念状態)を学習しなければならない.
• この信念状態にはエージェントが世界について知っている全ての情報が含まれている.
• つまり,最適化するための行動に関する情報も含まれている.
3. 時間方向について抽象化している必要がある.
• ステップを飛び越えて(jumpy)未来を予測することができる.
• 時間的に離れたデータから(その間のステップを誤差逆伝播せずに)学習できる必要がある.
• 既存研究ではこれらをすべて満たす研究は存在しない.
-> Temporal Difference Variational Auto-Encoder (TD-VAE)を提案
6
既存の系列モデル
7
系列情報の扱い方:自己回帰モデル
系列データ(𝑥1, … , 𝑥 𝑇)をモデル化する方法としては,自己回帰モデルと状態空間モデ
ルが知られている.
• 自己回帰モデル
– 尤度を条件付き分布の積で表す.
log 𝑝(𝑥1, … , 𝑥 𝑇) =
𝑡
log 𝑝(𝑥𝑡|𝑥1, … , 𝑥𝑡−1)
– RNNをつかって,これまでのデータを内部状態ℎにまとめることで簡単に計算できる.
• 欠点:
– 元の観測空間でしか学習しない(圧縮した表現を学習しない).
– 計算コストがかかる(各ステップでデコードとエンコードを繰り返す必要性).
– 不安定(実データを入れるRNNには,テスト時に前の予測が入ってくる). 8
ℎ 𝑡 = 𝑓(ℎ 𝑡−1, 𝑥𝑡)
系列情報の扱い方:状態空間モデル
• 状態空間モデル
– 状態系列𝐳 = (𝑧1, … , 𝑧 𝑇)および観測系列𝐱 = (𝑥1, … , 𝑥 𝑇)が与えられたときに,
とすると,ELBO(変分下界)は次のようになる.
• 特徴:
– 入力𝑥を確率的な状態(潜在変数)𝑧に圧縮する.
• ちなみに,この辺りの研究ではxとzを逆にしたりするらしい.
– 状態空間内での遷移が可能(自己回帰モデルのように毎回エンコードとデコードをする必要がない)
9
同時分布:𝑝(𝐱, 𝐳) = 𝑡 𝑝 𝑧𝑡 𝑧𝑡−1 𝑝(𝑥𝑡|𝑧𝑡)
推論分布:𝑞(𝐳|𝐱) = 𝑡 𝑞 𝑧𝑡 𝑧𝑡−1, 𝜙 𝑡(𝐱) (自己回帰)
log 𝑝(𝐱) ≥ 𝐸 𝑧~𝑞 𝑧|𝑥
𝑡
log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝 𝑧𝑡 𝑧𝑡−1 − log 𝑞 𝑧𝑡 𝑧𝑡−1, 𝜙 𝑡(𝐱)
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
TD-VAE
10
状態空間モデルにおける未来の入力の予測
• 時系列モデルでは,過去の入力が与えられた下での未来の入力を予測したい.
– つまり条件付き分布𝑝(𝑥𝑡+1, … , 𝑥 𝑇|𝑥1, … , 𝑥𝑡) の推論
• 状態空間モデルでは,推論分布を使って入力𝐱から𝑧を推論してから未来の入力を
生成する
– 𝑧への推論は自己回帰的な事後分布𝑞 𝐳 𝐱 = 𝑡 𝑞(𝑧𝑡|𝑧𝑡−1, 𝐱)で計算していた.
– しかし,入力𝐱における状態𝑧𝑡を得るためには,𝑧𝑡−1の再サンプリングが必要であり,𝑧𝑡−1について
も・・・と考えると,𝑧1から全て再サンプリングしなければならない.
11
𝑥 𝑡−1
𝑧𝑡−1
𝑥 𝑡
𝑧𝑡
フィルタリング分布と信念状態
• そこで,新たにフィルタリング分布 𝑝(𝑧𝑡|𝑥1, … , 𝑥𝑡) を導入する.
– 𝑧𝑡の推論は現在までの入力(𝑥1, … , 𝑥𝑡)のみに依存する(未来の𝑥や他の時点の𝑧には依存しない).
– 強化学習(POMDP)における信念状態といわれるものに相当.
• フィルタリング分布を使うと,未来の入力の予測分布は次のように導出できる.
• 信念状態とPOMDP
– POMDPにおける最適方策との関わりでこれまでも知られていたが,学習した深層モデルにおける信念状態
を考える研究は殆どなかった.
12
𝑥 𝑡−1
𝑧𝑡−1
𝑥 𝑡
𝑧𝑡
𝑝 𝑥𝑡+1, … , 𝑥 𝑇 𝑥1, … , 𝑥𝑡 = 𝑝 𝑥𝑡+1, … , 𝑥 𝑇 𝑧𝑡 𝑝 𝑧𝑡 𝑥1, . . , 𝑥𝑡 𝑑𝑧𝑡
𝑝 𝑧𝑡 𝑥1, . . , 𝑥 𝑡
状態空間モデルにおける条件付き分布のELBO
• 状態空間モデルの尤度を条件付き分布の積で表す(自己回帰的に分解).
– このとき条件付き分布のELBOは,信念状態𝑝(𝑧𝑡|𝑥≤𝑡)を導入することで,2つの潜在変数( 𝑧𝑡−1 , 𝑧𝑡)だけを
使って表現できる.
13
信念状態 推論モデル
信念状態
さりげなく過去への推論になってる
log 𝑝 𝐱 =
𝑡
log 𝑝(𝑥 𝑡|𝑥<𝑡)
log 𝑝(𝑥𝑡|𝑥<𝑡) ≥ 𝔼 𝑞(𝑧 𝑡−1 𝑧 𝑡|𝑥≤𝑡) log
𝑝(𝑥𝑡, 𝑧𝑡−1 𝑧𝑡|𝑥<𝑡)
𝑞 𝑧𝑡−1, 𝑧𝑡 𝑥≤𝑡
= 𝔼 𝑞(𝑧 𝑡|𝑥≤𝑡)𝑞(𝑧 𝑡−1|𝑧 𝑡,𝑥≤𝑡)[log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝(𝑧𝑡−1|𝑥<𝑡) + log 𝑝(𝑧𝑡|𝑧𝑡−1)
− log 𝑞 𝑧𝑡 𝑥≤𝑡 − log 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑥≤𝑡)]
生成モデル生成モデル
𝑥 𝑡−1
𝑧𝑡−1
𝑥 𝑡
𝑧𝑡
信念状態のコードの導入
• 信念状態の「コード」𝑏𝑡 = 𝑓(𝑏𝑡−1, 𝑥𝑡)を導入する.
– 𝑓は任意の関数(RNNとか)
– すると信念状態は𝑝 𝑧𝑡 𝑥≤𝑡 = 𝑝(𝑧𝑡|𝑏𝑡)と表せる(入力が𝑏になる).
– また,推論分布はコードを使って𝑞 𝑧𝑡−1 𝑧𝑡, 𝑥≤𝑡 = 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑏𝑡−1, 𝑏𝑡)と
なる.
• 以上より,目的関数(ELBO)は次のようになる.
14
信念状態 推論モデル
信念状態
− log 𝑝 𝐵 𝑧𝑡 𝑏𝑡 − log 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑏𝑡−1, 𝑏𝑡)]
生成モデル生成モデル
ℒ = 𝔼 𝑝 𝐵(𝑧 𝑡|𝑏 𝑡)𝑞(𝑧 𝑡−1|𝑧 𝑡,𝑏 𝑡−1,𝑏 𝑡)[log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝 𝐵(𝑧𝑡−1|𝑏𝑡−1) + log 𝑝(𝑧𝑡|𝑧𝑡−1)
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
𝑏𝑡−1 𝑏𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
Jumpy状態のモデリング
• ここまで導出したモデルは,あるステップから次のステップで状態がどのように変わる
かを表したモデル
• しかし実際のプランニングでは,各ステップで観測を受け取って単純に行動する訳では
ない.
– 例:海外旅行のプランニングでは,旅行オプションの議論,目的地の選択,チケット購入など
– それぞれは異なるタイムスケールになっており,一秒ごとにプランニングを立てる訳ではない.
-> 直接将来の状態を想像できる(jumpy)モデルが必要
• その他にも未来を直接モデル化する幾つかのモチベーションがある.
– 未来からの訓練信号は時間ステップ間の小さな変化に対して頑健であるべき.
– 時間を任意に取りたい場合,データの時間的なサブサンプリングと独立であるべき.
– Jumpy予測は,時間効率的にもいい.
• 類似の研究はあるが,状態の学習を行わず,完全観測問題のみに焦点を当てている.
15
TD-VAE
• 前ページの議論から,時間について抽象化できるようにモデルを拡張する.
– 𝑡から𝑡 + 1の遷移をモデル化するのではなく,任意のステップ 𝑡1 ,𝑡2 間の状態をjumpyに推論するモデルを考える.
– ELBOは次のように変わる(時間ステップが変わっただけ)
– 学習するときには𝑡2 − 𝑡1として[1, 𝐷]の任意の範囲をサンプリングして学習する.
• 𝑝(𝑧𝑡2
|𝑧𝑡1
)と𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)はどう設計するの????
– これらの分布は任意の時間幅で飛べるらしい(𝑡2 − 𝑡1 = 𝛿𝑡として𝑝(𝑧2|𝑧1, 𝛿𝑡)といった感じ)
– arXiv版をみると,
という感じでパラメータ化している.
16
ℒ 𝑡1,𝑡2
= 𝔼 𝑝 𝐵(𝑧 𝑡2|𝑏 𝑡2)𝑞(𝑧 𝑡1|𝑧 𝑡2,𝑏 𝑡1,𝑏 𝑡2)[log 𝑝 𝑥𝑡2
𝑧𝑡2
+ log 𝑝 𝐵(𝑧𝑡1
|𝑏𝑡1
) + log 𝑝(𝑧𝑡2
|𝑧𝑡1
)
− log 𝑝 𝐵 𝑧𝑡2
𝑏𝑡2
− log 𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)]
改めて図をみる
17
やっぱりよくわからん・・・
Gregor先生のお気持ち解説(4.2節)を読むといいかも
ポイント
• 重要なのは,第2項と第5項
– 学習するときには(先ほどの図では)KLダイバージェンスになっている.
– これはつまり,現在の推論を未来からの推論と近づけているということ
– 𝑡1の時点で利用可能な情報だけを使って,どれだけ未来からの推論と同じくらいの推論ができたか?を評価して
いる
-> CVAEやGQNなどと共通する考え方
– “TD”-VAEという名前は,このあたりとTD誤差との関連性から. 18
𝑥 𝑡−1
𝑧𝑡−1
𝑥 𝑡
𝑧𝑡
𝑏𝑡−1 𝑏𝑡
ℒ 𝑡1,𝑡2
= 𝔼 𝑝 𝐵(𝑧 𝑡2|𝑏 𝑡2)𝑞(𝑧 𝑡1|𝑧 𝑡2,𝑏 𝑡1,𝑏 𝑡2)[log 𝑝 𝑥 𝑡2
𝑧𝑡2
+ log 𝑝 𝐵(𝑧𝑡1
|𝑏𝑡1
) + log 𝑝(𝑧𝑡2
|𝑧𝑡1
)
− log 𝑝 𝐵 𝑧𝑡2
𝑏𝑡2
− log 𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)]
𝐷 𝐾𝐿[𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)| 𝑝(𝑧𝑡1
𝑏𝑡1
)]
補足:VAE×RNN Zoo
• VAE×RNNの研究一覧(生成モデル(上段)で分類,VSMC系は載せていない)
※分布(矢印)は概ね時刻𝑡に関するもののみ描画
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
Deep Markov Model [Krishnan+ 17]
(Deep Kalman Filter [Krishnan+ 15])
※推論分布は論文内でいくつか提案されている
ℎ 𝑡−1 ℎ 𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
SRNN [Fraccaro+ 16]
ℎ 𝑡−1 ℎ 𝑡
𝑑 𝑡−1 𝑑 𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
TD-VAE [Gregor+ 18]
𝑏𝑡−1 𝑏𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
VRNN [Chung+ 16]
ℎ 𝑡−1 ℎ 𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
STORN [Bayer+ 15]
ℎ 𝑡−1 ℎ 𝑡
𝑑 𝑡−1 𝑑 𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
Z-forcing [Goyal+ 17]
ℎ 𝑡−1 ℎ 𝑡
𝑏𝑡−1 𝑏𝑡
𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡|𝑧1:𝑡−1, 𝑥1:𝑡−1)
𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡) 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡|𝑧𝑡−1, 𝑥)
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
状態空間モデル
※actionは省略
𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡 𝑧𝑡 𝑝 𝑧𝑡 𝑧𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
𝑥𝑡−1
𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡 𝑥1:𝑡−1, 𝑧1:𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡)
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
𝑥𝑡−1
𝑝 𝑥, 𝑧
= Π 𝑡 𝑝 𝑥𝑡+1 𝑥1:𝑡, 𝑧1:𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡)
19
実験
20
実験1
• 部分観測なMiniPacman [Racanière et al., 2017]
– エージェントは幽霊を避けながら迷路内のすべての食物を食べようとする.
– 観測できるのは5×5のウィンドウ(右)
-> 高いスコアを達成するためには(過去の経験や環境の不確実性を考慮しつつ)信念状態を形成する必要がある.
• この実験では,non-jumpyなTD-VAEが適切に学習できるか確認する.
– 標準的なELBOの下での2つの状態空間モデルと比較
-> TD-VAEのELBOの有効性を評価
21
Under review as aconference paper at ICLR 2019
ELBO − logp(x) (est.)
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-field model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
navigating the mazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right:
A sequence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
Log probability isestimated using importance sampling with theencoder as proposal.
Under review asaconference paper at ICLR 2019
ELBO − logp(x) (est.)
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-field model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
navigating themazetrying to eat all thefood (blue) whilebeing chased by aghost (red). Top right:
A sequenceof observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
Log probability isestimated using importance sampling with theencoder asproposal.
実験1
• 実験結果
– テスト集合に対する(恐らく負の)変分下界と負の対数尤度での評価
– 小さい方が良いモデル.
– TD-VAEが最も良い結果
– 平均場モデルが低い結果になっている
• 平均場モデルでは𝑏𝑡が信念状態のコードになっているが,フィルタリングモデルではそうなっていないことに注意(フィルタリングモデルでは,
エンコーダで前のステップの𝑧に依存しているので)
信念状態を得るために単純にエンコーダを制限するだけでは精度が下がる
22
Under review asaconference paper at ICLR 2019
ELBO − logp(x) (est.)
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-field model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
navigating themazetrying to eat all thefood (blue) whilebeing chased by aghost (red). Top right:
A sequenceof observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
Log probability isestimated using importance sampling with theencoder asproposal.
実験2
• Moving MNIST
– 各ステップで移動するMNIST
– [1,4]の範囲でステップを飛び越えて学習し,生成できるかを実験
• 実験結果:
– ステップ数を飛ばしても生成できた.
– (明示的に書いてないが恐らく)一番左が元画像で各列が飛ばしたステップ数[1,4]に対応している
23
Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
navigating themazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right:
A sequence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
Log probability isestimated using importance sampling with theencoder asproposal.
Figure 3: Moving MNIST. Left: Rowsare example input sequences. Right: Jumpy rollouts from
themodel. Weseethat themodel isable to roll forward by skipping frames, keeping thecorrect digit
and thedirection of motion.
5.2 MOVING MNIST
In thisexperiment, weshow that themodel isable to learn thestateand roll forward in jumps. We
consider sequencesof length 20 of images of MNIST digits. For each sequence, arandom digit from
thedataset ischosen, aswell asthedirection of movement (left or right). At each timestep, thedigit
movesby one pixel in the chosen direction, asshown in Figure 3. Wetrain the model with t1 and
t2 separated by arandom amount t2 − t1 from theinterval [1, 4]. Wewould liketo seewhether the
model at agiven timecan roll out asimulated experience in timesteps t1 = t + δ1, t2 = t1 + δ2, . . .
with δ1, δ2, . . . > 1, without considering theinputsin between thesetimepoints. Notethat it isnot
sufficient to predict thefuture inputs xt 1 , . . . asthey do not contain information about whether the
digit movesleft or right. Weneed to sample astate that contains this information.
Weroll out asequence from themodel asfollows: (a) bt iscomputed by the aggregation recurrent
network from observations up to time t; (b) a state zt is sampled from pB (zt | bt ); (c) a sequence
0 0
ELBO − logp(x) (est.)
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-field model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
re 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
gating themazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right:
quence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
O and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
probability isestimated using importance sampling with theencoder asproposal.
re 3: Moving MNIST. Left: Rowsare example input sequences. Right: Jumpy rollouts from
model. Wesee that themodel isable to roll forward by skipping frames, keeping thecorrect digit
the direction of motion.
実験3
• ノイズの多い高調波発振器から得られた1次元シーケンス
– 各観測で情報がほとんどなくても(ノイズが入っていても)モデルが状態を構築できることを示す.
– RNNにはLSTMを用いて,階層TD-VAEを使って学習.
• bが階層化している(説明は省略)
– ステップ幅は確率0.8で[1,10]の間,確率0.2で[1,120]の間として学習
• 実験結果:
– 20ステップ及び100ステップ飛ばした結果
– ノイズが多い観測データでも生成できている.
24
Under review asaconference paper at ICLR 2019
Figure4: Skip-state prediction for 1D signal. Theinput isgenerated by anoisy harmonic oscillator.
Rollouts consist of (a) ajumpy state transition with either dt = 20 or dt = 100, followed by 20 state
transitions with dt = 1. The model is able to create a state and predict it into the future, correctly
predicting frequency and magnitude of thesignal.
predict asmuch aspossible about thestate, which consists of frequency, magnitude and position, and
it isonly theposition that cannot beaccurately predicted.
実験4
• DeepMInd Lab環境
– アーキテクチャはConvDRAWを参考したものに変更(恐らくGQNと同じ使い方)
• 実験結果:
– モデルの信念の確認(ある信念からランダムに𝑧を生成)
– 左の画像:それぞれの𝑧サンプルから画像を生成
-> 同じフレームが生成できている
– 右の画像:それぞれの𝑧サンプルから任意にステップを飛んで生成
• 各信念内では同じような画像が生成されているが,信念によって出てくるフレームが異なる
->各信念で取りうる未来が異なっている
25
実験4
• 実験結果:
– ステップを飛び越えて行動を進めることができる.
– 図をどう見ればいいかは正直不明(rolloutと書いているので,多分MNISTと同じ感じ)
26
まとめ
27
まとめ
• 本研究では,時系列を扱う世界モデルとしてTD-VAEを提案した.
– 特に,時間方向の抽象化を意識している.
– arXiv版ではあまり強調されていなかった気がする.
• 感想:
– 世界モデルにおいて「時間を抽象化」できるようになった初めての研究(ICLR的には結構受けそう)
– 個人的にはGQNよりも好き.
– 細かい記述がなかったりするので,とりあえずPixyzとかで実装して動作確認してみたい(公式の実装は公開され
ていない).
28

More Related Content

What's hot

[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019Deep Learning JP
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列Kenjiro Sugimoto
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
[DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装
[DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装 [DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装
[DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装 Deep Learning JP
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門irrrrr
 

What's hot (20)

[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
[DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装
[DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装 [DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装
[DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
 

Similar to [DL輪読会]Temporal DifferenceVariationalAuto-Encoder

LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
Analyze by StatsModels or Numpy
Analyze by StatsModels or NumpyAnalyze by StatsModels or Numpy
Analyze by StatsModels or NumpyToshiki NOGUCHI
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...Deep Learning JP
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』koji ochiai
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Masaya Kaneko
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習Kenta Ishii
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムTakuya Akiba
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙Satoshi Hara
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Yuya Unno
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Yuya Unno
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろHiroshi Yamashita
 

Similar to [DL輪読会]Temporal DifferenceVariationalAuto-Encoder (20)

GANの基本
GANの基本GANの基本
GANの基本
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
Analyze by StatsModels or Numpy
Analyze by StatsModels or NumpyAnalyze by StatsModels or Numpy
Analyze by StatsModels or Numpy
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
KDD2014 勉強会
KDD2014 勉強会KDD2014 勉強会
KDD2014 勉強会
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
Maeshori missing
Maeshori missingMaeshori missing
Maeshori missing
 
Machine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEEMachine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEE
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

[DL輪読会]Temporal DifferenceVariationalAuto-Encoder

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Temporal DifferenceVariational Auto-Encoder Presenter: Masahiro Suzuki, Matsuo Lab 2018/11/30(発表後一部修正)
  • 2. 輪読内容について • Temporal Difference Variational Auto-Encoder – Karol Gregor, Frederic Besse • GregorさんはDRAWを提案した人 • ICLRに採録(オーラル,スコアが8,9,7) • TD-VAEを提案した論文 – 系列情報を扱う深層生成モデル – ある任意ステップまで「飛び越えて」推論ができる点がすごい -> 汎用AIの大きな課題の一つである「時系列の抽象化」に挑んだ研究 • 本論文についての私見 – 強化学習(特にPOMDP)との関係を意識しており,世界モデル研究の1つと位置づけられる. • どうでもいいけど最近「世界モデル」がバズワード化しないか勝手に心配している. – 非常に素直なモデルだが,ぱっと見分かりづらい. • ICLR版でだいぶ改善されている. • 謝罪 – 関連研究についてあまり調べられませんでした. – 完全版はまた別の勉強会(強化学習アーキテクチャとか)で話すかもしれない. 2
  • 5. 研究背景 • 系列の生成モデルは様々な領域で応用されている. – 音声合成(WaveNet,PixelRNN) – 翻訳(NMT) – 画像キャプショニング • 本研究では部分観測環境の強化学習の問題を考える – エージェントはこれまで収集した情報から計算した,世界の不確実性を表現する必要がある. – モデルベースで考えると,エージェントは過去と一貫性のある遠い未来を想像しなければならない. • ステップごとにプランニングするのは認知学的にも計算量的にも現実的ではない. -> これらを一気に解決できるような世界モデルを考えたい 5
  • 6. 部分観測環境における世界モデルに求められること • 著者らは次の3つの性質を同時に持つことが必要であるとしている. 1. データから抽象的な状態表現を学習して,状態表現を利用した予測を行える必要がある. 2. ある時間までの全ての観測データが与えられた下での,状態のフィルタリング分布の決定論的かつコード化され た表現(信念状態)を学習しなければならない. • この信念状態にはエージェントが世界について知っている全ての情報が含まれている. • つまり,最適化するための行動に関する情報も含まれている. 3. 時間方向について抽象化している必要がある. • ステップを飛び越えて(jumpy)未来を予測することができる. • 時間的に離れたデータから(その間のステップを誤差逆伝播せずに)学習できる必要がある. • 既存研究ではこれらをすべて満たす研究は存在しない. -> Temporal Difference Variational Auto-Encoder (TD-VAE)を提案 6
  • 8. 系列情報の扱い方:自己回帰モデル 系列データ(𝑥1, … , 𝑥 𝑇)をモデル化する方法としては,自己回帰モデルと状態空間モデ ルが知られている. • 自己回帰モデル – 尤度を条件付き分布の積で表す. log 𝑝(𝑥1, … , 𝑥 𝑇) = 𝑡 log 𝑝(𝑥𝑡|𝑥1, … , 𝑥𝑡−1) – RNNをつかって,これまでのデータを内部状態ℎにまとめることで簡単に計算できる. • 欠点: – 元の観測空間でしか学習しない(圧縮した表現を学習しない). – 計算コストがかかる(各ステップでデコードとエンコードを繰り返す必要性). – 不安定(実データを入れるRNNには,テスト時に前の予測が入ってくる). 8 ℎ 𝑡 = 𝑓(ℎ 𝑡−1, 𝑥𝑡)
  • 9. 系列情報の扱い方:状態空間モデル • 状態空間モデル – 状態系列𝐳 = (𝑧1, … , 𝑧 𝑇)および観測系列𝐱 = (𝑥1, … , 𝑥 𝑇)が与えられたときに, とすると,ELBO(変分下界)は次のようになる. • 特徴: – 入力𝑥を確率的な状態(潜在変数)𝑧に圧縮する. • ちなみに,この辺りの研究ではxとzを逆にしたりするらしい. – 状態空間内での遷移が可能(自己回帰モデルのように毎回エンコードとデコードをする必要がない) 9 同時分布:𝑝(𝐱, 𝐳) = 𝑡 𝑝 𝑧𝑡 𝑧𝑡−1 𝑝(𝑥𝑡|𝑧𝑡) 推論分布:𝑞(𝐳|𝐱) = 𝑡 𝑞 𝑧𝑡 𝑧𝑡−1, 𝜙 𝑡(𝐱) (自己回帰) log 𝑝(𝐱) ≥ 𝐸 𝑧~𝑞 𝑧|𝑥 𝑡 log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝 𝑧𝑡 𝑧𝑡−1 − log 𝑞 𝑧𝑡 𝑧𝑡−1, 𝜙 𝑡(𝐱) 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡
  • 11. 状態空間モデルにおける未来の入力の予測 • 時系列モデルでは,過去の入力が与えられた下での未来の入力を予測したい. – つまり条件付き分布𝑝(𝑥𝑡+1, … , 𝑥 𝑇|𝑥1, … , 𝑥𝑡) の推論 • 状態空間モデルでは,推論分布を使って入力𝐱から𝑧を推論してから未来の入力を 生成する – 𝑧への推論は自己回帰的な事後分布𝑞 𝐳 𝐱 = 𝑡 𝑞(𝑧𝑡|𝑧𝑡−1, 𝐱)で計算していた. – しかし,入力𝐱における状態𝑧𝑡を得るためには,𝑧𝑡−1の再サンプリングが必要であり,𝑧𝑡−1について も・・・と考えると,𝑧1から全て再サンプリングしなければならない. 11 𝑥 𝑡−1 𝑧𝑡−1 𝑥 𝑡 𝑧𝑡
  • 12. フィルタリング分布と信念状態 • そこで,新たにフィルタリング分布 𝑝(𝑧𝑡|𝑥1, … , 𝑥𝑡) を導入する. – 𝑧𝑡の推論は現在までの入力(𝑥1, … , 𝑥𝑡)のみに依存する(未来の𝑥や他の時点の𝑧には依存しない). – 強化学習(POMDP)における信念状態といわれるものに相当. • フィルタリング分布を使うと,未来の入力の予測分布は次のように導出できる. • 信念状態とPOMDP – POMDPにおける最適方策との関わりでこれまでも知られていたが,学習した深層モデルにおける信念状態 を考える研究は殆どなかった. 12 𝑥 𝑡−1 𝑧𝑡−1 𝑥 𝑡 𝑧𝑡 𝑝 𝑥𝑡+1, … , 𝑥 𝑇 𝑥1, … , 𝑥𝑡 = 𝑝 𝑥𝑡+1, … , 𝑥 𝑇 𝑧𝑡 𝑝 𝑧𝑡 𝑥1, . . , 𝑥𝑡 𝑑𝑧𝑡 𝑝 𝑧𝑡 𝑥1, . . , 𝑥 𝑡
  • 13. 状態空間モデルにおける条件付き分布のELBO • 状態空間モデルの尤度を条件付き分布の積で表す(自己回帰的に分解). – このとき条件付き分布のELBOは,信念状態𝑝(𝑧𝑡|𝑥≤𝑡)を導入することで,2つの潜在変数( 𝑧𝑡−1 , 𝑧𝑡)だけを 使って表現できる. 13 信念状態 推論モデル 信念状態 さりげなく過去への推論になってる log 𝑝 𝐱 = 𝑡 log 𝑝(𝑥 𝑡|𝑥<𝑡) log 𝑝(𝑥𝑡|𝑥<𝑡) ≥ 𝔼 𝑞(𝑧 𝑡−1 𝑧 𝑡|𝑥≤𝑡) log 𝑝(𝑥𝑡, 𝑧𝑡−1 𝑧𝑡|𝑥<𝑡) 𝑞 𝑧𝑡−1, 𝑧𝑡 𝑥≤𝑡 = 𝔼 𝑞(𝑧 𝑡|𝑥≤𝑡)𝑞(𝑧 𝑡−1|𝑧 𝑡,𝑥≤𝑡)[log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝(𝑧𝑡−1|𝑥<𝑡) + log 𝑝(𝑧𝑡|𝑧𝑡−1) − log 𝑞 𝑧𝑡 𝑥≤𝑡 − log 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑥≤𝑡)] 生成モデル生成モデル 𝑥 𝑡−1 𝑧𝑡−1 𝑥 𝑡 𝑧𝑡
  • 14. 信念状態のコードの導入 • 信念状態の「コード」𝑏𝑡 = 𝑓(𝑏𝑡−1, 𝑥𝑡)を導入する. – 𝑓は任意の関数(RNNとか) – すると信念状態は𝑝 𝑧𝑡 𝑥≤𝑡 = 𝑝(𝑧𝑡|𝑏𝑡)と表せる(入力が𝑏になる). – また,推論分布はコードを使って𝑞 𝑧𝑡−1 𝑧𝑡, 𝑥≤𝑡 = 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑏𝑡−1, 𝑏𝑡)と なる. • 以上より,目的関数(ELBO)は次のようになる. 14 信念状態 推論モデル 信念状態 − log 𝑝 𝐵 𝑧𝑡 𝑏𝑡 − log 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑏𝑡−1, 𝑏𝑡)] 生成モデル生成モデル ℒ = 𝔼 𝑝 𝐵(𝑧 𝑡|𝑏 𝑡)𝑞(𝑧 𝑡−1|𝑧 𝑡,𝑏 𝑡−1,𝑏 𝑡)[log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝 𝐵(𝑧𝑡−1|𝑏𝑡−1) + log 𝑝(𝑧𝑡|𝑧𝑡−1) 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 𝑏𝑡−1 𝑏𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡
  • 15. Jumpy状態のモデリング • ここまで導出したモデルは,あるステップから次のステップで状態がどのように変わる かを表したモデル • しかし実際のプランニングでは,各ステップで観測を受け取って単純に行動する訳では ない. – 例:海外旅行のプランニングでは,旅行オプションの議論,目的地の選択,チケット購入など – それぞれは異なるタイムスケールになっており,一秒ごとにプランニングを立てる訳ではない. -> 直接将来の状態を想像できる(jumpy)モデルが必要 • その他にも未来を直接モデル化する幾つかのモチベーションがある. – 未来からの訓練信号は時間ステップ間の小さな変化に対して頑健であるべき. – 時間を任意に取りたい場合,データの時間的なサブサンプリングと独立であるべき. – Jumpy予測は,時間効率的にもいい. • 類似の研究はあるが,状態の学習を行わず,完全観測問題のみに焦点を当てている. 15
  • 16. TD-VAE • 前ページの議論から,時間について抽象化できるようにモデルを拡張する. – 𝑡から𝑡 + 1の遷移をモデル化するのではなく,任意のステップ 𝑡1 ,𝑡2 間の状態をjumpyに推論するモデルを考える. – ELBOは次のように変わる(時間ステップが変わっただけ) – 学習するときには𝑡2 − 𝑡1として[1, 𝐷]の任意の範囲をサンプリングして学習する. • 𝑝(𝑧𝑡2 |𝑧𝑡1 )と𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )はどう設計するの???? – これらの分布は任意の時間幅で飛べるらしい(𝑡2 − 𝑡1 = 𝛿𝑡として𝑝(𝑧2|𝑧1, 𝛿𝑡)といった感じ) – arXiv版をみると, という感じでパラメータ化している. 16 ℒ 𝑡1,𝑡2 = 𝔼 𝑝 𝐵(𝑧 𝑡2|𝑏 𝑡2)𝑞(𝑧 𝑡1|𝑧 𝑡2,𝑏 𝑡1,𝑏 𝑡2)[log 𝑝 𝑥𝑡2 𝑧𝑡2 + log 𝑝 𝐵(𝑧𝑡1 |𝑏𝑡1 ) + log 𝑝(𝑧𝑡2 |𝑧𝑡1 ) − log 𝑝 𝐵 𝑧𝑡2 𝑏𝑡2 − log 𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )]
  • 18. ポイント • 重要なのは,第2項と第5項 – 学習するときには(先ほどの図では)KLダイバージェンスになっている. – これはつまり,現在の推論を未来からの推論と近づけているということ – 𝑡1の時点で利用可能な情報だけを使って,どれだけ未来からの推論と同じくらいの推論ができたか?を評価して いる -> CVAEやGQNなどと共通する考え方 – “TD”-VAEという名前は,このあたりとTD誤差との関連性から. 18 𝑥 𝑡−1 𝑧𝑡−1 𝑥 𝑡 𝑧𝑡 𝑏𝑡−1 𝑏𝑡 ℒ 𝑡1,𝑡2 = 𝔼 𝑝 𝐵(𝑧 𝑡2|𝑏 𝑡2)𝑞(𝑧 𝑡1|𝑧 𝑡2,𝑏 𝑡1,𝑏 𝑡2)[log 𝑝 𝑥 𝑡2 𝑧𝑡2 + log 𝑝 𝐵(𝑧𝑡1 |𝑏𝑡1 ) + log 𝑝(𝑧𝑡2 |𝑧𝑡1 ) − log 𝑝 𝐵 𝑧𝑡2 𝑏𝑡2 − log 𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )] 𝐷 𝐾𝐿[𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )| 𝑝(𝑧𝑡1 𝑏𝑡1 )]
  • 19. 補足:VAE×RNN Zoo • VAE×RNNの研究一覧(生成モデル(上段)で分類,VSMC系は載せていない) ※分布(矢印)は概ね時刻𝑡に関するもののみ描画 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 Deep Markov Model [Krishnan+ 17] (Deep Kalman Filter [Krishnan+ 15]) ※推論分布は論文内でいくつか提案されている ℎ 𝑡−1 ℎ 𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 SRNN [Fraccaro+ 16] ℎ 𝑡−1 ℎ 𝑡 𝑑 𝑡−1 𝑑 𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 TD-VAE [Gregor+ 18] 𝑏𝑡−1 𝑏𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 VRNN [Chung+ 16] ℎ 𝑡−1 ℎ 𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 STORN [Bayer+ 15] ℎ 𝑡−1 ℎ 𝑡 𝑑 𝑡−1 𝑑 𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 Z-forcing [Goyal+ 17] ℎ 𝑡−1 ℎ 𝑡 𝑏𝑡−1 𝑏𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡|𝑧1:𝑡−1, 𝑥1:𝑡−1) 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡) 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡|𝑧𝑡−1, 𝑥) 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 状態空間モデル ※actionは省略 𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡 𝑧𝑡 𝑝 𝑧𝑡 𝑧𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 𝑥𝑡−1 𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡 𝑥1:𝑡−1, 𝑧1:𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 𝑥𝑡−1 𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡+1 𝑥1:𝑡, 𝑧1:𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) 19
  • 21. 実験1 • 部分観測なMiniPacman [Racanière et al., 2017] – エージェントは幽霊を避けながら迷路内のすべての食物を食べようとする. – 観測できるのは5×5のウィンドウ(右) -> 高いスコアを達成するためには(過去の経験や環境の不確実性を考慮しつつ)信念状態を形成する必要がある. • この実験では,non-jumpyなTD-VAEが適切に学習できるか確認する. – 標準的なELBOの下での2つの状態空間モデルと比較 -> TD-VAEのELBOの有効性を評価 21 Under review as aconference paper at ICLR 2019 ELBO − logp(x) (est.) Filtering model 0.1169± 0.0003 0.0962± 0.0007 Mean-field model 0.1987± 0.0004 0.1678± 0.0010 TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006 Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is navigating the mazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right: A sequence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right: ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter. Log probability isestimated using importance sampling with theencoder as proposal. Under review asaconference paper at ICLR 2019 ELBO − logp(x) (est.) Filtering model 0.1169± 0.0003 0.0962± 0.0007 Mean-field model 0.1987± 0.0004 0.1678± 0.0010 TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006 Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is navigating themazetrying to eat all thefood (blue) whilebeing chased by aghost (red). Top right: A sequenceof observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right: ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter. Log probability isestimated using importance sampling with theencoder asproposal.
  • 22. 実験1 • 実験結果 – テスト集合に対する(恐らく負の)変分下界と負の対数尤度での評価 – 小さい方が良いモデル. – TD-VAEが最も良い結果 – 平均場モデルが低い結果になっている • 平均場モデルでは𝑏𝑡が信念状態のコードになっているが,フィルタリングモデルではそうなっていないことに注意(フィルタリングモデルでは, エンコーダで前のステップの𝑧に依存しているので) 信念状態を得るために単純にエンコーダを制限するだけでは精度が下がる 22 Under review asaconference paper at ICLR 2019 ELBO − logp(x) (est.) Filtering model 0.1169± 0.0003 0.0962± 0.0007 Mean-field model 0.1987± 0.0004 0.1678± 0.0010 TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006 Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is navigating themazetrying to eat all thefood (blue) whilebeing chased by aghost (red). Top right: A sequenceof observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right: ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter. Log probability isestimated using importance sampling with theencoder asproposal.
  • 23. 実験2 • Moving MNIST – 各ステップで移動するMNIST – [1,4]の範囲でステップを飛び越えて学習し,生成できるかを実験 • 実験結果: – ステップ数を飛ばしても生成できた. – (明示的に書いてないが恐らく)一番左が元画像で各列が飛ばしたステップ数[1,4]に対応している 23 Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is navigating themazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right: A sequence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right: ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter. Log probability isestimated using importance sampling with theencoder asproposal. Figure 3: Moving MNIST. Left: Rowsare example input sequences. Right: Jumpy rollouts from themodel. Weseethat themodel isable to roll forward by skipping frames, keeping thecorrect digit and thedirection of motion. 5.2 MOVING MNIST In thisexperiment, weshow that themodel isable to learn thestateand roll forward in jumps. We consider sequencesof length 20 of images of MNIST digits. For each sequence, arandom digit from thedataset ischosen, aswell asthedirection of movement (left or right). At each timestep, thedigit movesby one pixel in the chosen direction, asshown in Figure 3. Wetrain the model with t1 and t2 separated by arandom amount t2 − t1 from theinterval [1, 4]. Wewould liketo seewhether the model at agiven timecan roll out asimulated experience in timesteps t1 = t + δ1, t2 = t1 + δ2, . . . with δ1, δ2, . . . > 1, without considering theinputsin between thesetimepoints. Notethat it isnot sufficient to predict thefuture inputs xt 1 , . . . asthey do not contain information about whether the digit movesleft or right. Weneed to sample astate that contains this information. Weroll out asequence from themodel asfollows: (a) bt iscomputed by the aggregation recurrent network from observations up to time t; (b) a state zt is sampled from pB (zt | bt ); (c) a sequence 0 0 ELBO − logp(x) (est.) Filtering model 0.1169± 0.0003 0.0962± 0.0007 Mean-field model 0.1987± 0.0004 0.1678± 0.0010 TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006 re 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is gating themazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right: quence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right: O and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter. probability isestimated using importance sampling with theencoder asproposal. re 3: Moving MNIST. Left: Rowsare example input sequences. Right: Jumpy rollouts from model. Wesee that themodel isable to roll forward by skipping frames, keeping thecorrect digit the direction of motion.
  • 24. 実験3 • ノイズの多い高調波発振器から得られた1次元シーケンス – 各観測で情報がほとんどなくても(ノイズが入っていても)モデルが状態を構築できることを示す. – RNNにはLSTMを用いて,階層TD-VAEを使って学習. • bが階層化している(説明は省略) – ステップ幅は確率0.8で[1,10]の間,確率0.2で[1,120]の間として学習 • 実験結果: – 20ステップ及び100ステップ飛ばした結果 – ノイズが多い観測データでも生成できている. 24 Under review asaconference paper at ICLR 2019 Figure4: Skip-state prediction for 1D signal. Theinput isgenerated by anoisy harmonic oscillator. Rollouts consist of (a) ajumpy state transition with either dt = 20 or dt = 100, followed by 20 state transitions with dt = 1. The model is able to create a state and predict it into the future, correctly predicting frequency and magnitude of thesignal. predict asmuch aspossible about thestate, which consists of frequency, magnitude and position, and it isonly theposition that cannot beaccurately predicted.
  • 25. 実験4 • DeepMInd Lab環境 – アーキテクチャはConvDRAWを参考したものに変更(恐らくGQNと同じ使い方) • 実験結果: – モデルの信念の確認(ある信念からランダムに𝑧を生成) – 左の画像:それぞれの𝑧サンプルから画像を生成 -> 同じフレームが生成できている – 右の画像:それぞれの𝑧サンプルから任意にステップを飛んで生成 • 各信念内では同じような画像が生成されているが,信念によって出てくるフレームが異なる ->各信念で取りうる未来が異なっている 25
  • 26. 実験4 • 実験結果: – ステップを飛び越えて行動を進めることができる. – 図をどう見ればいいかは正直不明(rolloutと書いているので,多分MNISTと同じ感じ) 26
  • 28. まとめ • 本研究では,時系列を扱う世界モデルとしてTD-VAEを提案した. – 特に,時間方向の抽象化を意識している. – arXiv版ではあまり強調されていなかった気がする. • 感想: – 世界モデルにおいて「時間を抽象化」できるようになった初めての研究(ICLR的には結構受けそう) – 個人的にはGQNよりも好き. – 細かい記述がなかったりするので,とりあえずPixyzとかで実装して動作確認してみたい(公式の実装は公開され ていない). 28