SlideShare a Scribd company logo
1 of 23
DEEP Q-LEARNING FROM
DEMONSTRATIONS
AI Lab 阿部拳之
2019/06/21
Summary
■ Todd Hester, MatejVecerik, Olivier Pietquin, Marc Lanctot,Tom Schaul, Bilal Piot, Dan
Horgan, John Quan, Andrew Sendonaris, Ian Osband, Gabriel Dulac-Arnold, John
Agapiou, Joel Z. Leibo, Audrunas Gruslys
– DeepMind
■ AAAI 2018
■ Contribution
– 少量のdemonstration dataを用いて強化学習のpolicyをpre-trainingする
– Demonstration dataを用いたDeep Q-Learningのアルゴリズム(DQfD)を提
案
INTRODUCTION
強化学習と実世界
Simulator RealWorld
Training
Test
Simulatorで学習をして,real worldへとデプロイ
強化学習と実世界
Simulator RealWorld
Training
Test
正確なsimulatorを持っていることは稀
→Offline環境での強化学習ができないことが多い
強化学習と実世界
RealWorld
Training
Offline環境での学習ができない場合,
Onlineでの学習を行うことになるが・・・
学習初期の性能が悪いので,破壊的な振る
舞いをする可能性が・・・
強化学習と実世界
RealWorld
Pre-training
Train andTest
なるべくOnline環境での学習スタート時の性能
を上げておきたい!!
→Simulatorも持ってないので,誰かの経験の履
歴をデータとしてpre-trainingする
trajectory
関連研究
Imitation Learning
■ Demonstration dataを模倣できるようなpolicyを学習
■ 主なアプローチ
– Behavior Cloning
■ (状態,行動)対を教師データとして,policyを教師あり学習
– 逆強化学習
■ Expertな政策に学習できるような報酬関数を学習
→基本的にはDemonstration dataを作ったexpert policyを超えることはない
→DQfDはoff-policy RL的なlossを用いて学習するので,expertを超えるかも?
AlphaGo
■ 強化学習,MCTSを用いた囲碁AI
■ 学習フェーズ
1. demonstration dataによってpre-training
2. self-play強化学習
→3000万ものdemonstration dataをpre-trainingに使った
→DQfDはもっと少ないデータ数でもpre-trainingができる
DEEP Q-LEARNING FROM
DEMONSTRATIONS
Deep Q-learning from Demonstrations
1. Demonstration dataを用いてDeep Q-
Networkをpre-training
2. 環境とのインタラクションを行ってDeep
Q-Networkをさらにtraining
– インタラクションによって得たデー
タだけでなく,Demonstration dataも
用いる
Deep Q-learning from Demonstrations
1. Demonstration dataを用いてDeep Q-
Networkをpre-training
2. 環境とのインタラクションを行ってDeep
Q-Networkをさらにtraining
– インタラクションによって得たデー
タだけでなく,Demonstration dataも
用いる
Deep Q-learning from Demonstrations
1. Demonstration dataを用いてDeep Q-
Networkをpre-training
2. 環境とのインタラクションを行ってDeep
Q-Networkをさらにtraining
– インタラクションによって得たデー
タだけでなく,Demonstration dataも
用いる
Pre-training phase
■ Demonstration dataを用いてDeep Q-Networkをpre-training
■ Demonstration dataを模倣する(Demonstrationが取った行動以外の価値を相対的
に下げる)ように学習するlossを導入
■ 模倣用のlossと,DQN本来のlossを組み合わせることで最終的なlossを定義
Large margin classification loss(𝑎 = 𝑎 𝐸なら0,それ以外なら0.8)
1-step loss n-step loss L2 losssupervised
loss
Q値の推定誤差 Demonstration data
との誤差
Training phase
■ Demonstration data+環境とのインタラクションによって得たデータ(self-
generated data)を用いてDeep Q-Networkをtraining
■ Demonstration dataとself-generated dataのそれぞれのデータがmini-batchとして
サンプルされる確率は,prioritized replay mechanismによって決定
■ Loss functionはpre-training phaseと同じ
– ただし,インタラクションによって得たデータに対しては𝜆2 = 0とする
1-step loss n-step loss L2 losssupervised
loss
Q値の推定誤差 Demonstration data
との誤差
実験
Experimental Setup
■ Baselines
– Prioritized Dueling Double Deep Q-Networks (PDD DQN)
■ DQNの派生系
– Supervised imitation from demonstration data without any environment
interaction
■ Cross-entropy lossとL2 lossによるbehavior cloning
■ 人間によるプレイデータをdemonstrations dataとして用いる(ゲーム毎のデータ
数は5,574〜75,472個)
Results
• ほとんどのゲームでPDD DQN, Imitation Learningより良い性能で学習をスタートできた
導入したlossの効果
• Supervised lossを入れると性能が上がった
既存手法との比較
• 既存のdemonstration dataを用いて学習する手法よりも高い性能
まとめ
■ Demonstration dataを用いてQ-Networkを学習させる方法を提案した
■ 既存手法よりもpre-trainingにおける性能が向上した
■ Pre-training後のtrainingでもdemonstration dataを使うことでいくつかのゲームで
の性能が向上した
余談
■ Demonstration dataから最適なpolicyを学習するのはみんなの夢
それに一歩近づいた
– Off-policy RL的なlossの貢献が大きい

More Related Content

More from Kenshi Abe

二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価Kenshi Abe
 
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...Kenshi Abe
 
Deep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationDeep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationKenshi Abe
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~Kenshi Abe
 
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Kenshi Abe
 
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasMulti-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasKenshi Abe
 
Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradientsKenshi Abe
 

More from Kenshi Abe (7)

二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価
 
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
 
Deep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationDeep Counterfactual Regret Minimization
Deep Counterfactual Regret Minimization
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
 
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
 
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasMulti-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
 
Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradients
 

Deep Q-learning from Demonstrations