SlideShare a Scribd company logo
1 of 25
Download to read offline
DEEP LEARNING JP
[DL Papers] Fast and Slow Learning of
Recurrent Independent Mechanisms
XIN ZHANG, Matsuo Lab
http://deeplearning.jp/
書誌情報
● タイトル:
○ Fast and Slow Learning of Recurrent Independent Mechanisms
● 著者
○ Kanika Madan, Rosemary Nan Ke, Anirudh Goyal, Bernhard Scholkopfm, Yoshua
Bengio.
● ICLR 2021
● 概要
○ 脳に存在する機能毎に独立な部分を,Modular Networkで実現しようと...
○ Recurrent Independent Mechanisms(RIM)はその一種.
○ RIMの学習を異なるStepで行う仕組みを提案し, 手法を改良した研究. 2
Introduction
Introduction:Modular Networks
4
Deep Compositional Question Answering with Neural Module Networks 2016
➢ VQA:Parserで再利用な可能なModuleを選び, Networkを作成.
5
Introduction:Modular Networks
➢ 多めにネットワークを生成して, 進化論の思想で, 役立つModuleを残していく.
6
Learning Modular Neural Network Policies for Multi-Task and Multi-Robot Transfer 2016
Introduction:Modular Networks
➢ ロボットのModule, タスクのModuleを学習して, 新たな組み合わせに汎化できる.
Meta Learning of Recurrent Independent Mechanisms
RIM:Recurrent Independent Mechanisms
8
➢ Inputを潜在空間にEncode, RIMを通すことで, Inputに関連したMemoryをOutput.
○ OutputをValue, Policyに分割して,PPOの学習に使う.
➢ RIMは, 独立したNこのModule, AttentionでInputに関連したK個のRIMを更新.
Meta Learning of RIM
9
➢ Fast Inner:RIM, Policy head.
➢ SLOW:Input Attention & Communication Attention, Value head.
提案手法:MIR
10
➢ PPOのLoss.
➢ θM, θA,でAttentionとModuleの更新異なるStepで行う.
- Modular Networks(Introdcution)
Related Work
11
- Meta Learning
- Modular meta-learning 2018
- Meta-Learning to Disentangle Causal Mechanisms
- A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms
- Learning neural causal models from unknown interventions
Experiment
a: Improve sample efficiency?
13
➢ YES, 赤い線が提案手法, 横軸がFrame数.
b: Lead to policy that generalize better?
14
➢ Yes, More DifficultはZero shot Transfer, Baselineを大きくリード.
c: Fast adaptation to new distributions?
15
➢ 簡単な環境でPre-trainして,target 環境で成功率を測る.
○ もっと効率的に知識のピースを再利用していると言える.
Ablation: Meta-Learning setupが大事?
16
➢ Meta-learningの重要さを示す? Meta-LSTMがvanillaより良い図.
Ablation: Sparsity, Slow-factor of Outer loop
17
➢ 全部使うより, SparsityがModuleの機能性を向上させる.
n=4, k=2の例..
Ablation: Value function Visualization
18
➢ 左の図, Valueが上がったり下がったり...ゴールが見えている時は, 高い値を示す.
➢ Frame 12はゴールの目の前にいて,すごく高い, 13はタスク終了なので,低くなる.
Ablation: Visualizing Module Activations
19
➢ 左のInputで,活性化されるModuleを示している. n=5, k=3.
➢ F7のところで左の緑の点が見えて,M5が活性化される..
Ablation: Importance of Fast and Slow Update Loops.
20
➢ Inner loop, Outer loopの役割を交換すると,精度は落ちる. Vanilaと同じ程度に.
➢ AttentionのLearning rateだけを落としても,うまくいかない.(slowLR)
Ablation: Roles of the Active Modules
21
➢ Active Modulesを減らしたら,エピソードを完成するのに,より長い時間をかけた.
Conclusion
まとめ:
- 知識の分解と再利用を実現するのに, 必要なアーキテクチャに関する研究.
- 多くの関連分野(meta RL, HRL, time scale in RL, attention)をうまく繋げた面白い研
究.(OpenReview.)
- 具体的にはRIMをMete-Learning的な考え方で実現してみた.
- Meta-learningの活用で,汎化性能を挙げられることに期待.
まとめ&感想
23
感想:
- Modular Networkの研究が面白い, RIMはBengio先生が推してて重要な研究.
- それぞれのModuleが異なる役割をもっと明確に担当させるのに, 方法がありそう.
- DADS の
Appendix
- 関連研究:
- Learning to Combine Top-Down and Bottom-Up Signals in Recurrent Neural Networks with
Attention over Modules
- ブログ RIM:
- https://www.zhihu.com/search?type=content&q=Recurrent%20independent%20mechanism
s
Appendix:PPO

More Related Content

What's hot

What's hot (20)

【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
Active Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkActive Learning と Bayesian Neural Network
Active Learning と Bayesian Neural Network
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 

Similar to [DL輪読会]Fast and Slow Learning of Recurrent Independent Mechanisms

Similar to [DL輪読会]Fast and Slow Learning of Recurrent Independent Mechanisms (7)

[DL輪読会]Manipulation-Independent Representations(MIR) for Successful Cross Emb...
[DL輪読会]Manipulation-Independent Representations(MIR) for Successful Cross Emb...[DL輪読会]Manipulation-Independent Representations(MIR) for Successful Cross Emb...
[DL輪読会]Manipulation-Independent Representations(MIR) for Successful Cross Emb...
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
 
ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
 
【DL輪読会】TIMs:Transformers with Competitive Ensembles of Independent Mechanisms
【DL輪読会】TIMs:Transformers with Competitive Ensembles of Independent Mechanisms【DL輪読会】TIMs:Transformers with Competitive Ensembles of Independent Mechanisms
【DL輪読会】TIMs:Transformers with Competitive Ensembles of Independent Mechanisms
 
深層学習②
深層学習②深層学習②
深層学習②
 
Neuroscience inspired artificial intelligence
Neuroscience inspired artificial intelligenceNeuroscience inspired artificial intelligence
Neuroscience inspired artificial intelligence
 

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

Recently uploaded

Recently uploaded (10)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 

[DL輪読会]Fast and Slow Learning of Recurrent Independent Mechanisms

  • 1. DEEP LEARNING JP [DL Papers] Fast and Slow Learning of Recurrent Independent Mechanisms XIN ZHANG, Matsuo Lab http://deeplearning.jp/
  • 2. 書誌情報 ● タイトル: ○ Fast and Slow Learning of Recurrent Independent Mechanisms ● 著者 ○ Kanika Madan, Rosemary Nan Ke, Anirudh Goyal, Bernhard Scholkopfm, Yoshua Bengio. ● ICLR 2021 ● 概要 ○ 脳に存在する機能毎に独立な部分を,Modular Networkで実現しようと... ○ Recurrent Independent Mechanisms(RIM)はその一種. ○ RIMの学習を異なるStepで行う仕組みを提案し, 手法を改良した研究. 2
  • 4. Introduction:Modular Networks 4 Deep Compositional Question Answering with Neural Module Networks 2016 ➢ VQA:Parserで再利用な可能なModuleを選び, Networkを作成.
  • 5. 5 Introduction:Modular Networks ➢ 多めにネットワークを生成して, 進化論の思想で, 役立つModuleを残していく.
  • 6. 6 Learning Modular Neural Network Policies for Multi-Task and Multi-Robot Transfer 2016 Introduction:Modular Networks ➢ ロボットのModule, タスクのModuleを学習して, 新たな組み合わせに汎化できる.
  • 7. Meta Learning of Recurrent Independent Mechanisms
  • 8. RIM:Recurrent Independent Mechanisms 8 ➢ Inputを潜在空間にEncode, RIMを通すことで, Inputに関連したMemoryをOutput. ○ OutputをValue, Policyに分割して,PPOの学習に使う. ➢ RIMは, 独立したNこのModule, AttentionでInputに関連したK個のRIMを更新.
  • 9. Meta Learning of RIM 9 ➢ Fast Inner:RIM, Policy head. ➢ SLOW:Input Attention & Communication Attention, Value head.
  • 10. 提案手法:MIR 10 ➢ PPOのLoss. ➢ θM, θA,でAttentionとModuleの更新異なるStepで行う.
  • 11. - Modular Networks(Introdcution) Related Work 11 - Meta Learning - Modular meta-learning 2018 - Meta-Learning to Disentangle Causal Mechanisms - A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms - Learning neural causal models from unknown interventions
  • 13. a: Improve sample efficiency? 13 ➢ YES, 赤い線が提案手法, 横軸がFrame数.
  • 14. b: Lead to policy that generalize better? 14 ➢ Yes, More DifficultはZero shot Transfer, Baselineを大きくリード.
  • 15. c: Fast adaptation to new distributions? 15 ➢ 簡単な環境でPre-trainして,target 環境で成功率を測る. ○ もっと効率的に知識のピースを再利用していると言える.
  • 16. Ablation: Meta-Learning setupが大事? 16 ➢ Meta-learningの重要さを示す? Meta-LSTMがvanillaより良い図.
  • 17. Ablation: Sparsity, Slow-factor of Outer loop 17 ➢ 全部使うより, SparsityがModuleの機能性を向上させる. n=4, k=2の例..
  • 18. Ablation: Value function Visualization 18 ➢ 左の図, Valueが上がったり下がったり...ゴールが見えている時は, 高い値を示す. ➢ Frame 12はゴールの目の前にいて,すごく高い, 13はタスク終了なので,低くなる.
  • 19. Ablation: Visualizing Module Activations 19 ➢ 左のInputで,活性化されるModuleを示している. n=5, k=3. ➢ F7のところで左の緑の点が見えて,M5が活性化される..
  • 20. Ablation: Importance of Fast and Slow Update Loops. 20 ➢ Inner loop, Outer loopの役割を交換すると,精度は落ちる. Vanilaと同じ程度に. ➢ AttentionのLearning rateだけを落としても,うまくいかない.(slowLR)
  • 21. Ablation: Roles of the Active Modules 21 ➢ Active Modulesを減らしたら,エピソードを完成するのに,より長い時間をかけた.
  • 23. まとめ: - 知識の分解と再利用を実現するのに, 必要なアーキテクチャに関する研究. - 多くの関連分野(meta RL, HRL, time scale in RL, attention)をうまく繋げた面白い研 究.(OpenReview.) - 具体的にはRIMをMete-Learning的な考え方で実現してみた. - Meta-learningの活用で,汎化性能を挙げられることに期待. まとめ&感想 23 感想: - Modular Networkの研究が面白い, RIMはBengio先生が推してて重要な研究. - それぞれのModuleが異なる役割をもっと明確に担当させるのに, 方法がありそう. - DADS の
  • 24. Appendix - 関連研究: - Learning to Combine Top-Down and Bottom-Up Signals in Recurrent Neural Networks with Attention over Modules - ブログ RIM: - https://www.zhihu.com/search?type=content&q=Recurrent%20independent%20mechanism s