SlideShare a Scribd company logo
1 of 16
Download to read offline
“Playing Atari with Deep Reinforcement Learning”

藤田康博

January 23, 2014
自己紹介

• 名前:藤田康博
• 修士 1 年

AI,強化学習
• NIPS 読 会初参加
•

◦

2 / 14

手柔

願
読

論文

• Playing Atari with Deep Reinforcement Learning
◦ Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex
Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller
NIPS Deep Learning Workshop, 2013.
•

本会議

…

• 選
理由
◦
+深層学習+強化学習
◦ 深層学習+強化学習 少
◦ 結果

3 / 14

(

)初
要旨
• 深層学習+強化学習(Deep Q-Learning)
◦ 行動価値関数 Q(s, a) 畳 込
現(Deep Q-Network)
• Atari 2600

4 / 14

7

評価

表
要旨
• 深層学習+強化学習(Deep Q-Learning)
◦ 行動価値関数 Q(s, a) 畳 込
現(Deep Q-Network)
• Atari 2600

7

→(既存研究
存研究 勝利!

4 / 14

表

評価

背景削除

)6/7

既
要旨
• 深層学習+強化学習(Deep Q-Learning)
◦ 行動価値関数 Q(s, a) 畳 込
現(Deep Q-Network)
• Atari 2600

7

評価

→(既存研究
背景削除
存研究 勝利!
→
3/7 Expert Human Player
4 / 14

表

)6/7
勝利! 優秀!

既
Arcade Learning Environment
+学習用

• Atari 2600
•

観測

画面

◦ 210 × 160 & 128 colors

• 現在

• 終了判定

• http://www.arcadelearningenvironment.org/

5 / 14
強化学習

ALE

• ALE 部分観測
決定過程(POMDP)
◦ 観測
画面
現在 状況
•
時間
t
状態 次
◦ st = x1 , a1 , x2 , · · · , at−1 , xt
◦ x 観測
画面,a 入力
行動

→ 有限
手法 使

6 / 14

決定過程

,

定義

強化学習
行動価値関数
• 最大化

:将来 (割引)報酬 Rt =

T
t ′ =t

′

γ t −t rt ′

• 方策 π : S → A

• (最適)行動価値関数

Q ∗ (s, a) = max E [Rt |st = s, at = a, π]
π

有限

決定過程

,

Bellman 方程式 唯一解

Q ∗ (s, a) = E [rt+1 + γ max Q ∗ (st+1 , a′ )|st = s, at = a]
′
a

7 / 14
行動価値関数 関数近似
• Q(s, a; θ) ≈ Q ∗ (s, a)

,Bellman 方程式 誤差 最小化

Li (θi ) = E [(yi − Q(s, a; θi )2 ]
yi = E [rt+1 + γ max Q(st+1 , a′ ; θi−1 )|st = s, at = a]
′
a

∇θi Li (θi )
= E [(rt+1 + γ max Q(st+1 , a′ ; θi−1 ) − Q(s, a; θi ))∇θi Q(s, a; θi )]
′
a

• 今回
8 / 14

RMSProp

使

逆伝搬
Rprop
• 勾配 大
見 符号
見 重
更新
逆伝搬法
•
更新量
決
?
◦ 符号 2 連続 同
更新量 増
e.g. 1.2 倍
◦
減
e.g. 0.5 倍
• 利点
◦ 勾配 小
場所(plateau)
速
脱出
• 欠点
◦
学習
e.g. 9 個
勾配 +0.1,10 個目 −0.9 場合
9 / 14
RMSProp

• Rprop
◦ 勾配 大

学習

使

2 乗 移動平均 MeanSquare(w , t)

保持

MeanSquare(w , t) = 0.9MeanSquare(w , t − 1) + 0.1(
◦ 勾配
MeanSquare(w , t) 割
◦
論文
,Coursera
•

10 / 14

講義

“Neural Networks for Machine Learning”

Lecture 6.5

∂E
(t))2
∂w
Experience Replay

• 過去

遷移 (st , at , rt , st+1 )

•

• 利点
◦

11 / 14

振 舞
過去
振動・発散

replay memory 保存
遷移 対
誤差最小化

防

平均化
効果

,
Deep Q-Network
1st hidden
layer

input

• 入力:

• 出力:各
12 / 14

fully
connected

4x4x16 filter
stride 2

20x20x16

4

3rd hidden
output
layer

fully
connected

8x8x4 filter
stride 4

84x84x4

2nd hidden
layer

9x9x32

画面(縮小
行動価値

256

4~18

化)
結果

• 人間 勝利:Breakout,Pong,Enduro
• 人間 全 敵
:Q*bert, Seaquest,Space Invaders
◦ 比較的長期的 戦略 必要
13 / 14
感想

•

• 他
◦
◦

14 / 14

AI
使
先読
使

波 来
…
? e.g. 将棋,囲碁,StarCraft,etc.
重要

難
使

More Related Content

What's hot

ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用gree_tech
 
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装MITSUNARI Shigeo
 
強化学習その1
強化学習その1強化学習その1
強化学習その1nishio
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオンTech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオンTakahiro Kubo
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門Fixstars Corporation
 
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介Yusuke Nakata
 
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement LearningDeep Learning JP
 
組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門Norishige Fukushima
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling ProblemDeep Learning JP
 
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based ModelDeep Learning JP
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
遺伝的アルゴリズム(Genetic Algorithm)を始めよう!遺伝的アルゴリズム(Genetic Algorithm)を始めよう!
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!Kazuhide Okamura
 

What's hot (20)

ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
 
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオンTech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
 
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
 
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
 
組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
Soft Actor Critic 解説
Soft Actor Critic 解説Soft Actor Critic 解説
Soft Actor Critic 解説
 
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
遺伝的アルゴリズム(Genetic Algorithm)を始めよう!遺伝的アルゴリズム(Genetic Algorithm)を始めよう!
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
 

More from mooopan

Clipped Action Policy Gradient
Clipped Action Policy GradientClipped Action Policy Gradient
Clipped Action Policy Gradientmooopan
 
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017mooopan
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介mooopan
 
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement LearningSafe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learningmooopan
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話mooopan
 
最近のDQN
最近のDQN最近のDQN
最近のDQNmooopan
 
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value GradientsLearning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradientsmooopan
 
Trust Region Policy Optimization
Trust Region Policy OptimizationTrust Region Policy Optimization
Trust Region Policy Optimizationmooopan
 
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...mooopan
 

More from mooopan (9)

Clipped Action Policy Gradient
Clipped Action Policy GradientClipped Action Policy Gradient
Clipped Action Policy Gradient
 
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
 
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement LearningSafe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learning
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
 
最近のDQN
最近のDQN最近のDQN
最近のDQN
 
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value GradientsLearning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradients
 
Trust Region Policy Optimization
Trust Region Policy OptimizationTrust Region Policy Optimization
Trust Region Policy Optimization
 
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
 

"Playing Atari with Deep Reinforcement Learning"

  • 1. “Playing Atari with Deep Reinforcement Learning” 藤田康博 January 23, 2014
  • 2. 自己紹介 • 名前:藤田康博 • 修士 1 年 AI,強化学習 • NIPS 読 会初参加 • ◦ 2 / 14 手柔 願
  • 3. 読 論文 • Playing Atari with Deep Reinforcement Learning ◦ Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller NIPS Deep Learning Workshop, 2013. • 本会議 … • 選 理由 ◦ +深層学習+強化学習 ◦ 深層学習+強化学習 少 ◦ 結果 3 / 14 ( )初
  • 4. 要旨 • 深層学習+強化学習(Deep Q-Learning) ◦ 行動価値関数 Q(s, a) 畳 込 現(Deep Q-Network) • Atari 2600 4 / 14 7 評価 表
  • 5. 要旨 • 深層学習+強化学習(Deep Q-Learning) ◦ 行動価値関数 Q(s, a) 畳 込 現(Deep Q-Network) • Atari 2600 7 →(既存研究 存研究 勝利! 4 / 14 表 評価 背景削除 )6/7 既
  • 6. 要旨 • 深層学習+強化学習(Deep Q-Learning) ◦ 行動価値関数 Q(s, a) 畳 込 現(Deep Q-Network) • Atari 2600 7 評価 →(既存研究 背景削除 存研究 勝利! → 3/7 Expert Human Player 4 / 14 表 )6/7 勝利! 優秀! 既
  • 7. Arcade Learning Environment +学習用 • Atari 2600 • 観測 画面 ◦ 210 × 160 & 128 colors • 現在 • 終了判定 • http://www.arcadelearningenvironment.org/ 5 / 14
  • 8. 強化学習 ALE • ALE 部分観測 決定過程(POMDP) ◦ 観測 画面 現在 状況 • 時間 t 状態 次 ◦ st = x1 , a1 , x2 , · · · , at−1 , xt ◦ x 観測 画面,a 入力 行動 → 有限 手法 使 6 / 14 決定過程 , 定義 強化学習
  • 9. 行動価値関数 • 最大化 :将来 (割引)報酬 Rt = T t ′ =t ′ γ t −t rt ′ • 方策 π : S → A • (最適)行動価値関数 Q ∗ (s, a) = max E [Rt |st = s, at = a, π] π 有限 決定過程 , Bellman 方程式 唯一解 Q ∗ (s, a) = E [rt+1 + γ max Q ∗ (st+1 , a′ )|st = s, at = a] ′ a 7 / 14
  • 10. 行動価値関数 関数近似 • Q(s, a; θ) ≈ Q ∗ (s, a) ,Bellman 方程式 誤差 最小化 Li (θi ) = E [(yi − Q(s, a; θi )2 ] yi = E [rt+1 + γ max Q(st+1 , a′ ; θi−1 )|st = s, at = a] ′ a ∇θi Li (θi ) = E [(rt+1 + γ max Q(st+1 , a′ ; θi−1 ) − Q(s, a; θi ))∇θi Q(s, a; θi )] ′ a • 今回 8 / 14 RMSProp 使 逆伝搬
  • 11. Rprop • 勾配 大 見 符号 見 重 更新 逆伝搬法 • 更新量 決 ? ◦ 符号 2 連続 同 更新量 増 e.g. 1.2 倍 ◦ 減 e.g. 0.5 倍 • 利点 ◦ 勾配 小 場所(plateau) 速 脱出 • 欠点 ◦ 学習 e.g. 9 個 勾配 +0.1,10 個目 −0.9 場合 9 / 14
  • 12. RMSProp • Rprop ◦ 勾配 大 学習 使 2 乗 移動平均 MeanSquare(w , t) 保持 MeanSquare(w , t) = 0.9MeanSquare(w , t − 1) + 0.1( ◦ 勾配 MeanSquare(w , t) 割 ◦ 論文 ,Coursera • 10 / 14 講義 “Neural Networks for Machine Learning” Lecture 6.5 ∂E (t))2 ∂w
  • 13. Experience Replay • 過去 遷移 (st , at , rt , st+1 ) • • 利点 ◦ 11 / 14 振 舞 過去 振動・発散 replay memory 保存 遷移 対 誤差最小化 防 平均化 効果 ,
  • 14. Deep Q-Network 1st hidden layer input • 入力: • 出力:各 12 / 14 fully connected 4x4x16 filter stride 2 20x20x16 4 3rd hidden output layer fully connected 8x8x4 filter stride 4 84x84x4 2nd hidden layer 9x9x32 画面(縮小 行動価値 256 4~18 化)
  • 15. 結果 • 人間 勝利:Breakout,Pong,Enduro • 人間 全 敵 :Q*bert, Seaquest,Space Invaders ◦ 比較的長期的 戦略 必要 13 / 14
  • 16. 感想 • • 他 ◦ ◦ 14 / 14 AI 使 先読 使 波 来 … ? e.g. 将棋,囲碁,StarCraft,etc. 重要 難 使