Deep Q-learning from Demonstrations

DEEP Q-LEARNING FROM
DEMONSTRATIONS
AI Lab 阿部拳之
2019/06/21

Summary
■ Todd Hester, MatejVecerik, Olivier Pietquin, Marc Lanctot,Tom Schaul, Bilal Piot, Dan
Horgan, John Quan, Andrew Sendonaris, Ian Osband, Gabriel Dulac-Arnold, John
Agapiou, Joel Z. Leibo, Audrunas Gruslys
– DeepMind
■ AAAI 2018
■ Contribution
– 少量のdemonstration dataを用いて強化学習のpolicyをpre-trainingする
– Demonstration dataを用いたDeep Q-Learningのアルゴリズム（DQfD）を提
案

強化学習と実世界
Simulator RealWorld
Training
Test
Simulatorで学習をして，real worldへとデプロイ

Simulator RealWorld
Training
Test
正確なsimulatorを持っていることは稀
→Offline環境での強化学習ができないことが多い

RealWorld
Training
Offline環境での学習ができない場合，
Onlineでの学習を行うことになるが・・・
学習初期の性能が悪いので，破壊的な振る
舞いをする可能性が・・・

RealWorld
Pre-training
Train andTest
なるべくOnline環境での学習スタート時の性能
を上げておきたい！！
→Simulatorも持ってないので，誰かの経験の履
歴をデータとしてpre-trainingする
trajectory

Imitation Learning
■ Demonstration dataを模倣できるようなpolicyを学習
■ 主なアプローチ
– Behavior Cloning
■ （状態，行動）対を教師データとして，policyを教師あり学習
– 逆強化学習
■ Expertな政策に学習できるような報酬関数を学習
→基本的にはDemonstration dataを作ったexpert policyを超えることはない
→DQfDはoff-policy RL的なlossを用いて学習するので，expertを超えるかも？

AlphaGo
■ 強化学習，MCTSを用いた囲碁AI
■ 学習フェーズ
1. demonstration dataによってpre-training
2. self-play強化学習
→3000万ものdemonstration dataをpre-trainingに使った
→DQfDはもっと少ないデータ数でもpre-trainingができる

DEEP Q-LEARNING FROM
DEMONSTRATIONS

Deep Q-learning from Demonstrations
1. Demonstration dataを用いてDeep Q-
Networkをpre-training
2. 環境とのインタラクションを行ってDeep
Q-Networkをさらにtraining
– インタラクションによって得たデー
タだけでなく，Demonstration dataも
用いる

Pre-training phase
■ Demonstration dataを用いてDeep Q-Networkをpre-training
■ Demonstration dataを模倣する（Demonstrationが取った行動以外の価値を相対的
に下げる）ように学習するlossを導入
■ 模倣用のlossと，DQN本来のlossを組み合わせることで最終的なlossを定義
Large margin classification loss（𝑎 = 𝑎 𝐸なら0，それ以外なら0.8）
1-step loss n-step loss L2 losssupervised
loss
Q値の推定誤差 Demonstration data
との誤差

Training phase
■ Demonstration data+環境とのインタラクションによって得たデータ（self-
generated data）を用いてDeep Q-Networkをtraining
■ Demonstration dataとself-generated dataのそれぞれのデータがmini-batchとして
サンプルされる確率は，prioritized replay mechanismによって決定
■ Loss functionはpre-training phaseと同じ
– ただし，インタラクションによって得たデータに対しては𝜆2 = 0とする
1-step loss n-step loss L2 losssupervised
loss
Q値の推定誤差 Demonstration data
との誤差

Experimental Setup
■ Baselines
– Prioritized Dueling Double Deep Q-Networks (PDD DQN)
■ DQNの派生系
– Supervised imitation from demonstration data without any environment
interaction
■ Cross-entropy lossとL2 lossによるbehavior cloning
■ 人間によるプレイデータをdemonstrations dataとして用いる（ゲーム毎のデータ
数は5,574〜75,472個）

Results
• ほとんどのゲームでPDD DQN， Imitation Learningより良い性能で学習をスタートできた

導入したlossの効果
• Supervised lossを入れると性能が上がった

既存手法との比較
• 既存のdemonstration dataを用いて学習する手法よりも高い性能

まとめ
■ Demonstration dataを用いてQ-Networkを学習させる方法を提案した
■ 既存手法よりもpre-trainingにおける性能が向上した
■ Pre-training後のtrainingでもdemonstration dataを使うことでいくつかのゲームで
の性能が向上した

余談
■ Demonstration dataから最適なpolicyを学習するのはみんなの夢
それに一歩近づいた
– Off-policy RL的なlossの貢献が大きい

Deep Q-learning from Demonstrations

Recommended

Recommended

More Related Content

More from Kenshi Abe

More from Kenshi Abe (7)

Deep Q-learning from Demonstrations