SlideShare a Scribd company logo
1 of 28
論文紹介
“Playing Atari with Deep Reinforcement Learning”
2014年6月3日(火)塚原裕史
https://sites.google.com/site/deeplearningworkshopnips2013/accepted-papers
Deep Learning Workshop NIPS 2013
Summary
• この論文の貢献
– 最近、発展が目覚ましいDeep LearningとQ-Learning的
な方法を融合した新しい強化学習の方法を提案
• そのメリット
– Deep networkにより、特徴量や戦略を手で与えること
なく自動獲得される(Model-Free)
• その効果
– ビデオゲームに適用してみたら、な、なんと、従来
手法を凌駕する性能を実現(人をも超える場合があ
り、びっくり!)
Atari 2600
http://nonciclopedia.wikia.com/wiki/Atari_2600
• Atari 2600 Emulator
Stella http://stella.sourceforge.net/docs/index.html#Games
Supervised Learning
vs
Reinforcement Learning
Supervised Learning (狩猟文明)
• 狩猟の技は伝授され、行動の結果は即時に得る
Reinforcement Learning (農耕文明)
• 愛情を注ぎ、紆余曲折の後、恵みが得られる
?
• 教師付き学習
→ ナンパ
• 強化学習
→ 恋愛
男女で例えるなら・・・
Deep Learning and
Reinforcement Learning
Deep Learning and RL
• モチベーション
– 最近のDeep Learningの発展の恩恵に肖りたい
• 課題
– Deep Learningの方法をそのままでは適用できない
• 正解データが作れない(遅延報酬)
• 学習データ間に高い相関がある
• データの発生源の分布が学習過程で変化する
• データがスパース(似た経験を何度も繰り返さない)
– Model-Free RL with Q-Learningの問題
• Nonlinear value function approximation and off-policy
Learning could cause divergence.
• 最近の発展
– Gradient temporal-difference methodにより、その発散
の問題が部分的に解消できることが証明された(2009)
– Experience replay technique (1993)により、学習データ
がスパースである問題に対処
Deep Reinforcement Learning
• TD-Gammon (G. Tesauro, 1995)
History
http://www.bkgm.com/articles/tesauro/tdl.html
• 観測空間
– Atariのゲーム画面の画像
• アクション
–
• 状態空間
–
• 報酬
–
この論文でのModel
1 1 2 1, , , ..., ,t t ts x a x a x
 1,2, ,ta A K 
T
t t
t t
t t
R r 


 
tx
• 過去の履歴全体(無限長)が状態の信念と同等
とみなせばPOMDPとなるだろう。
• しかし、エミュレーターは、必ず有限回の操作
でゲームが完了すると考えられる(仮定する)
ので、履歴は有限長となり、全ての状態間の遷
移を考えることでMDPとみなすことができる。
POMDP or MDP?
観測
信念
危険 安全
戦況
• Optimal Value Function
• Bellman equation
Optimal Value Function
 *
, max , ,t t tQ s a E R s s a a

    
   * *
, max , ,s
a
Q s a E r Q s a s a 

   
 
• Solving Bellman equation iteratively
– Converges to optimal value function as I goes to infinity
• 問題
– すべての 毎に、上の式を解く必要がある
Q-Learning
   1 , max , ,i s i
a
Q s a E r Q s a s a 

   
 
 ,s a
• Parameterizing the value function
– 価値関数を関数近似して、 全体に汎化させる
• Q-Network
– 関数近似にDeep Networkを使う
– 今回、状態量(入力)が画像なので、CNNを使う
• 特徴量が自動的に学習される
Approximate Value Function by Q-Network
   *
, ; ,Q s a Q s a 
 ,s a
• Deep Q-Learning Loss function
– Off-policy sampling: Behavior distribution
• ε-greedy探索(on-policyとランダムサンプルの組合せ)
• Remarks
– 学習データでありながら、出力がパラメタに依存しているのが
特徴的
Deep Q-Learning
      
2
, 1 , ;i i s a i iL E y Q s a  
    
   1 1max , ; ,i s i
a
y E r Q s a s a   

   
 
 ,s a
 arg max , ;
a
a Q s a 
• Gradient of Loss Function
Minibatch Update
        , 1max , ; , , ; , ; ,i ii i s a s s i i i
a
L E E E r Q s a s a Q s a Q s a s a          

              
• 学習データとして、過去に経験したことを蓄え
ておき、何度も利用する
– ローカルなエピソード
– Replay memory
Experience Replay
 1, , ,t t t t te s a r s 
1 2, , , ND e e e
Algorithm
※画像は粗視化して処理を軽くしておく
• 画像の切り出しと粗視化
– 計算を軽くする
– 既存プログラムをそのまま利用
• 固定長の履歴で近似
– 入力データのサイズを揃える(過去の4フレーム)
– データ間の相関を低下させる効果
実際の学習における工夫
• Training and Stability
Experiments
• Frames and Predicted Value Functions
Experiments
• Performance
Experiments
• Introduced a new deep learning model for
reinforcement Learning
– Demonstrated its ability to master difficult policies for
Atari 2600 computer games
• Also presented a variant of online Q-learning that
combines stochastic minibatch updates with
experience replay memory
– Ease the training of deep networks for RL
Conclusion
• 従来技術にはすべて勝っているが、人に勝てる
ゲームは、単純な物ばかりな気がする。
– 囲碁とかに適用してみたらどうなるか?(試してみ
たいが)
• 報酬が環境から明確に得られない問題へ適用す
るには、どのように行えば良いだろうか?
– 報酬自体もDeep Learning?
• POMDPの近似解法としても使えないか?
– 過去の履歴を信念の代用にして
– 中間層に信念分布相当の物が形成される?
所感

More Related Content

What's hot

ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題Kenta Oono
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingYasunori Ozaki
 
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことJiro Nishitoba
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 
ChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なことChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なことRetrieva inc.
 
実装ディープラーニング
実装ディープラーニング実装ディープラーニング
実装ディープラーニングYurie Oka
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII
 
Tf勉強会(4)
Tf勉強会(4)Tf勉強会(4)
Tf勉強会(4)tak9029
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)Kenta Oono
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装Shinya Akiba
 
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7Kotaro Nakayama
 
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)Kotaro Nakayama
 

What's hot (20)

ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
深層強化学習入門
深層強化学習入門深層強化学習入門
深層強化学習入門
 
ChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なことChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なこと
 
実装ディープラーニング
実装ディープラーニング実装ディープラーニング
実装ディープラーニング
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
 
Tf勉強会(4)
Tf勉強会(4)Tf勉強会(4)
Tf勉強会(4)
 
Deep learning入門
Deep learning入門Deep learning入門
Deep learning入門
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
 
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
 
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
 

Similar to Paper intoduction "Playing Atari with deep reinforcement learning"

北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3CTomoya Oda
 
TensorFlow User Group #1
TensorFlow User Group #1TensorFlow User Group #1
TensorFlow User Group #1陽平 山口
 
JAWS FESTA TOKAIDO 2016
JAWS FESTA TOKAIDO 2016JAWS FESTA TOKAIDO 2016
JAWS FESTA TOKAIDO 2016陽平 山口
 
Dots deep learning部_20161221
Dots deep learning部_20161221Dots deep learning部_20161221
Dots deep learning部_20161221陽平 山口
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the FutureDeep Learning JP
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回Kohei Wakamatsu
 
Playing Atari with Six Neurons
Playing Atari with Six NeuronsPlaying Atari with Six Neurons
Playing Atari with Six Neuronsharmonylab
 
GCPUG Sapporo vol.2 ML Night
GCPUG Sapporo vol.2 ML NightGCPUG Sapporo vol.2 ML Night
GCPUG Sapporo vol.2 ML Night陽平 山口
 
iOS_Consortium_20170120
iOS_Consortium_20170120iOS_Consortium_20170120
iOS_Consortium_20170120陽平 山口
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningharmonylab
 
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object DetectionDeep Learning JP
 
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎kunihikokaneko1
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...cvpaper. challenge
 
Getting Started with Deep Learning using Scala
Getting Started with Deep Learning using ScalaGetting Started with Deep Learning using Scala
Getting Started with Deep Learning using ScalaTaisuke Oe
 
スライド作成入門
スライド作成入門スライド作成入門
スライド作成入門Takahiko Ito
 

Similar to Paper intoduction "Playing Atari with deep reinforcement learning" (16)

北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C
 
TensorFlow User Group #1
TensorFlow User Group #1TensorFlow User Group #1
TensorFlow User Group #1
 
JAWS FESTA TOKAIDO 2016
JAWS FESTA TOKAIDO 2016JAWS FESTA TOKAIDO 2016
JAWS FESTA TOKAIDO 2016
 
Dots deep learning部_20161221
Dots deep learning部_20161221Dots deep learning部_20161221
Dots deep learning部_20161221
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
Playing Atari with Six Neurons
Playing Atari with Six NeuronsPlaying Atari with Six Neurons
Playing Atari with Six Neurons
 
GCPUG Sapporo vol.2 ML Night
GCPUG Sapporo vol.2 ML NightGCPUG Sapporo vol.2 ML Night
GCPUG Sapporo vol.2 ML Night
 
iOS_Consortium_20170120
iOS_Consortium_20170120iOS_Consortium_20170120
iOS_Consortium_20170120
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
 
深層学習入門
深層学習入門深層学習入門
深層学習入門
 
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...
 
Getting Started with Deep Learning using Scala
Getting Started with Deep Learning using ScalaGetting Started with Deep Learning using Scala
Getting Started with Deep Learning using Scala
 
スライド作成入門
スライド作成入門スライド作成入門
スライド作成入門
 

Paper intoduction "Playing Atari with deep reinforcement learning"