SlideShare a Scribd company logo
1 of 20
Download to read offline
VIDEO PIXEL NETWORKS
NAL KALCHBRENNER, A¨ARON VAN DEN OORD, KAREN SIMONYAN
IVO DANIHELKA, ORIOL VINYALS, ALEX GRAVES, KORAY KAVUKCUOGLU
2016/10/28 河野 慎
1
PIXEL VIDEO NETWORKS
書誌情報
▸ 2016年10月3日ArXivに投稿
• まだ被引用はなし
▸ Deep Mind
• PixelRNN, PixelCNN, Wavenetの著者Äaron van den Oordが共著にいる
• ついに映像予測にも手を出した
2
VIDEO PIXEL NETWORKS
背景
▸ 映像のモデリングの難しさ
• 内在する複雑性と曖昧さによって難化
• 今までのアプローチ:
- 平均二乗誤差とDNNの組み合わせ
- 量子化された画像のパッチ(穴埋め?)
- incorporate motion priors
- adversarial lossを使う?
• MovingMNISTなどの単純な予測でも構造的人工物(ぼけなど)をのぞけない
3
VIDEO PIXEL NETWORKS
提案モデル
▸ 映像のピクセルのRGB値の同時確率をモデル化
• x:映像
• xt:t番目のフレーム
• i, j:行・列のインデックス
• RGB:赤緑青の値(0-255)
- 各分布は256次元の離散多項分布(Softmax出力)
• x<:x(t, <i, <j, :) x(<t, :, :, :)
• 分解順は,時系列かつPixelCNNの知見
4
x(t, <i, <j, :)
x(<t, :, :, :)
これを求めるために
VIDEO PIXEL NETWORKS
Video Pixel Networks (VPN)
▸ 2つの構造を有している
• Resolution Preserving CNN Encoders
- データの時系列情報をモデリング
- Convolutional LSTMで構成される

• PixelCNN Decoders
- 映像の空間と色の依存性をモデリング
- PixelCNNで構成されている
5
VIDEO PIXEL NETWORKS
Resolution Preserving CNN Encoders
▸ フレームF0,...,FTを与えられた時
• F0,…,FT-1をまずCNNに入力する
- CNNは8個のResidual Blocksで構成されている(実験則)
✓ 解像度を保持->表現力を失わずにピクセルを生成できるから
- Dilation(Wavenetにも出てきた受容野をコストかけずに広げる方法)
✓ [1, 2, 4, 8] * 2
• T個の出力をConvolutional LSTMに入力する
6
VIDEO PIXEL NETWORKS
PixelCNN Decoders
▸ エンコーダのT個の出力をそれぞれPixelCNNに入力
• PixelCNNは12個のResidual Blocksで構成される
• 出力は,Softmax層で各ピクセルの各色の強さの値(256)
7
Conditional Image Generation 

with PixelCNN DecodersからフレームFtでそれまでに出力したピクセルの値
VIDEO PIXEL NETWORKS
Multiplicative Units
▸ 独自のユニットを定義
• LSTMのゲートを参考
- LSTMのようにセルとメモリは区別しない
- Highway NetworksやGrid LSTMのように恒等写像するゲートはない
✓ 常に非線形に処理される
• W1-4は3 3のカーネル
8
VIDEO PIXEL NETWORKS
Residual Multiplicative Blocks
▸ MUを2つ積んだresidual blocks
• チャンネル数は内部で半分になる
• 一応MUではなくReLUを使った普通のresidual blocksも使う
9
VIDEO PIXEL NETWORKS
ベースラインモデル
10
ない
▸ 前のフレームから次のフレームを予測
• ただし,同フレーム内のピクセル同士の色・位置依存は無視
• 例:ロボットアームの映像
- 時刻tに写っているアームは時刻t+1に左か右に移動
✓ 隣接してるピクセルを考慮しないと

ピクセルxは左に移動,ピクセルyは右に移動

と生成してしまう
✓ VPNなら考慮するから一貫性の取れた生成ができる
VIDEO PIXEL NETWORKS
Moving MNIST
▸ 64 64の20フレーム
• 2つのMNISTの数字が重なったりしながら一定速度で動く動画
• 最初の10フレームを与えて次の10フレームを予想する
▸ MNISTはグレースケールなので,PixelCNNの出力は2値で,損失関数も
• 予測yが完全に正解zと一致した場合(zi = yi)
- H(z, y) = 86.3 nats/frame
11
※実装の詳細は論文参照
VIDEO PIXEL NETWORKS
▸ ベースライン
▸ VPN
▸ 正解
12
あらかじめ与えられたフレーム 予測するべきフレーム
Moving MNISTの結果
VIDEO PIXEL NETWORKS
Moving MNISTの結果
▸ VPNの方がかなり良い
• ボケも少ない
▸ ベースラインはボケ多い
• フレームを生成するに

つれて,不確かさが

増えていくため
13
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ 64 64の20フレーム
• カゴの中でロボットアームがものを押す動画
- 各フレームには,ロボットアームの状態と望まれる動作のベクトルが付与
• 学習時
- 2フレームに2状態,2動作を条件付けて,入力
- 動作ベクトルを条件付けて10フレームを予測する
• テスト時は,動作は条件付けて18フレームを予測する
14
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ 学習データにあった物体:アームと背景を区別できてる
15
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ 学習データにない物体
• ちゃんと物体も生成できているし,もっともらしい動きをさせてる
16
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ 同じ2フレームから3パターンのフレーム生成
• 汎化性能の良さを示す
17
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ ベースラインによる生成
• かなりのノイズが含まれている→空間と色の依存関係を考慮してないから
18
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ ベースライン(1, 2),VPN(3, 4),正解データ(5)
19
VIDEO PIXEL NETWORKS
まとめと感想
▸ ビデオの同時確率をモデリングするVideo Pixel Networksを提案
• 動作の事前情報やsurrogate lossesなしにMoving MNISTでSOTA
• Robotic Pushingにおいて,ベースラインよりすぐれている
- 将来予測は,ぼけなどの人工物なしかつ詳細に可能
- 対角の空間依存によって,ロバストで一般的な方法を実現
▸ 順当にPixelRNN->PixelCNN->WaveNet->VPNと発展・拡張してきている
• 研究の流れとして参考にしたい
20

More Related Content

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 

Recently uploaded (12)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

[Dl輪読会]video pixel networks

  • 1. VIDEO PIXEL NETWORKS NAL KALCHBRENNER, A¨ARON VAN DEN OORD, KAREN SIMONYAN IVO DANIHELKA, ORIOL VINYALS, ALEX GRAVES, KORAY KAVUKCUOGLU 2016/10/28 河野 慎 1
  • 2. PIXEL VIDEO NETWORKS 書誌情報 ▸ 2016年10月3日ArXivに投稿 • まだ被引用はなし ▸ Deep Mind • PixelRNN, PixelCNN, Wavenetの著者Äaron van den Oordが共著にいる • ついに映像予測にも手を出した 2
  • 3. VIDEO PIXEL NETWORKS 背景 ▸ 映像のモデリングの難しさ • 内在する複雑性と曖昧さによって難化 • 今までのアプローチ: - 平均二乗誤差とDNNの組み合わせ - 量子化された画像のパッチ(穴埋め?) - incorporate motion priors - adversarial lossを使う? • MovingMNISTなどの単純な予測でも構造的人工物(ぼけなど)をのぞけない 3
  • 4. VIDEO PIXEL NETWORKS 提案モデル ▸ 映像のピクセルのRGB値の同時確率をモデル化 • x:映像 • xt:t番目のフレーム • i, j:行・列のインデックス • RGB:赤緑青の値(0-255) - 各分布は256次元の離散多項分布(Softmax出力) • x<:x(t, <i, <j, :) x(<t, :, :, :) • 分解順は,時系列かつPixelCNNの知見 4 x(t, <i, <j, :) x(<t, :, :, :) これを求めるために
  • 5. VIDEO PIXEL NETWORKS Video Pixel Networks (VPN) ▸ 2つの構造を有している • Resolution Preserving CNN Encoders - データの時系列情報をモデリング - Convolutional LSTMで構成される
 • PixelCNN Decoders - 映像の空間と色の依存性をモデリング - PixelCNNで構成されている 5
  • 6. VIDEO PIXEL NETWORKS Resolution Preserving CNN Encoders ▸ フレームF0,...,FTを与えられた時 • F0,…,FT-1をまずCNNに入力する - CNNは8個のResidual Blocksで構成されている(実験則) ✓ 解像度を保持->表現力を失わずにピクセルを生成できるから - Dilation(Wavenetにも出てきた受容野をコストかけずに広げる方法) ✓ [1, 2, 4, 8] * 2 • T個の出力をConvolutional LSTMに入力する 6
  • 7. VIDEO PIXEL NETWORKS PixelCNN Decoders ▸ エンコーダのT個の出力をそれぞれPixelCNNに入力 • PixelCNNは12個のResidual Blocksで構成される • 出力は,Softmax層で各ピクセルの各色の強さの値(256) 7 Conditional Image Generation 
 with PixelCNN DecodersからフレームFtでそれまでに出力したピクセルの値
  • 8. VIDEO PIXEL NETWORKS Multiplicative Units ▸ 独自のユニットを定義 • LSTMのゲートを参考 - LSTMのようにセルとメモリは区別しない - Highway NetworksやGrid LSTMのように恒等写像するゲートはない ✓ 常に非線形に処理される • W1-4は3 3のカーネル 8
  • 9. VIDEO PIXEL NETWORKS Residual Multiplicative Blocks ▸ MUを2つ積んだresidual blocks • チャンネル数は内部で半分になる • 一応MUではなくReLUを使った普通のresidual blocksも使う 9
  • 10. VIDEO PIXEL NETWORKS ベースラインモデル 10 ない ▸ 前のフレームから次のフレームを予測 • ただし,同フレーム内のピクセル同士の色・位置依存は無視 • 例:ロボットアームの映像 - 時刻tに写っているアームは時刻t+1に左か右に移動 ✓ 隣接してるピクセルを考慮しないと
 ピクセルxは左に移動,ピクセルyは右に移動
 と生成してしまう ✓ VPNなら考慮するから一貫性の取れた生成ができる
  • 11. VIDEO PIXEL NETWORKS Moving MNIST ▸ 64 64の20フレーム • 2つのMNISTの数字が重なったりしながら一定速度で動く動画 • 最初の10フレームを与えて次の10フレームを予想する ▸ MNISTはグレースケールなので,PixelCNNの出力は2値で,損失関数も • 予測yが完全に正解zと一致した場合(zi = yi) - H(z, y) = 86.3 nats/frame 11 ※実装の詳細は論文参照
  • 12. VIDEO PIXEL NETWORKS ▸ ベースライン ▸ VPN ▸ 正解 12 あらかじめ与えられたフレーム 予測するべきフレーム Moving MNISTの結果
  • 13. VIDEO PIXEL NETWORKS Moving MNISTの結果 ▸ VPNの方がかなり良い • ボケも少ない ▸ ベースラインはボケ多い • フレームを生成するに
 つれて,不確かさが
 増えていくため 13
  • 14. VIDEO PIXEL NETWORKS Robotic Pushing ▸ 64 64の20フレーム • カゴの中でロボットアームがものを押す動画 - 各フレームには,ロボットアームの状態と望まれる動作のベクトルが付与 • 学習時 - 2フレームに2状態,2動作を条件付けて,入力 - 動作ベクトルを条件付けて10フレームを予測する • テスト時は,動作は条件付けて18フレームを予測する 14
  • 15. VIDEO PIXEL NETWORKS Robotic Pushing ▸ 学習データにあった物体:アームと背景を区別できてる 15
  • 16. VIDEO PIXEL NETWORKS Robotic Pushing ▸ 学習データにない物体 • ちゃんと物体も生成できているし,もっともらしい動きをさせてる 16
  • 17. VIDEO PIXEL NETWORKS Robotic Pushing ▸ 同じ2フレームから3パターンのフレーム生成 • 汎化性能の良さを示す 17
  • 18. VIDEO PIXEL NETWORKS Robotic Pushing ▸ ベースラインによる生成 • かなりのノイズが含まれている→空間と色の依存関係を考慮してないから 18
  • 19. VIDEO PIXEL NETWORKS Robotic Pushing ▸ ベースライン(1, 2),VPN(3, 4),正解データ(5) 19
  • 20. VIDEO PIXEL NETWORKS まとめと感想 ▸ ビデオの同時確率をモデリングするVideo Pixel Networksを提案 • 動作の事前情報やsurrogate lossesなしにMoving MNISTでSOTA • Robotic Pushingにおいて,ベースラインよりすぐれている - 将来予測は,ぼけなどの人工物なしかつ詳細に可能 - 対角の空間依存によって,ロバストで一般的な方法を実現 ▸ 順当にPixelRNN->PixelCNN->WaveNet->VPNと発展・拡張してきている • 研究の流れとして参考にしたい 20