4. 4
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ
モデルフリー
モデルベース(ゲームAI)
Monte-Carlo
Tree Search
Alpha o Alpha o ero Alpha ero
Alpha ol AlphaStar
M ero
※厳密には
モデルフリー
※厳密には
モデルフリーが導入されている
信頼区間法に基づく方策改善
並列化
LSTMの導入
並列化
近接勾配法に基づく方策改善
決定的方策勾配への変更
Off-Policy化
深層学習の導入
並列化・Advantageの導入
補助タスクの導入
データ収集と学習の分割
方策のエントロピー最大化による
探索の効率化
Off-Policy化
Experience Replay
複数のtarget networkの導入
価値評価のための
別モデル導入
Advantageの導入
報酬の期待値を計算
ノイズ付与による
探索の効率化
サンプリングの優先順位を導入
深層学習の導入
デモンストレーションによる事前学習
全てを統合 並列化 LSTMの
導入
内部報酬による
探索の効率化
2つを統合
内部報酬と
並列化
Meta-Controller
13. 13
強化学習の用語(2)
• 行動価値 (Q値) :エージェントの行動の良さを表す数値・指標
(ゴールへ近づく方向への移動では+10,離れる方向への移動は-1 )
• 状態価値 (V値):状態がどの程度良いかを表す数値・指標
(ゴール付近のマス(状態)では+8,壁のマスでは-10 )
• エピソード:行動の開始 ~ 終了までの一連の動作
(スタートからゴールに到達するまで)
(スタートから壁にぶつかって終了するまで)
G G
S S
G G
S S
Q( ↓ ) = +10 Q( ← ) = -1
V = +8 V = -10
G G
S S
スタート ~ ゴール
(目的を達成して終了)
スタート ~ 壁に衝突
(目的を達成せず終了)
19. 19
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ
モデルフリー
モデルベース(ゲームAI)
Monte-Carlo
Tree Search
Alpha o Alpha o ero Alpha ero
Alpha ol AlphaStar
M ero
※厳密には
モデルフリー
※厳密には
モデルフリーが導入されている
信頼区間法に基づく方策改善
並列化
LSTMの導入
並列化
近接勾配法に基づく方策改善
決定的方策勾配への変更
Off-Policy化
深層学習の導入
並列化・Advantageの導入
補助タスクの導入
データ収集と学習の分割
方策のエントロピー最大化による
探索の効率化
Off-Policy化
Experience Replay
複数のtarget networkの導入
価値評価のための
別モデル導入
Advantageの導入
報酬の期待値を計算
ノイズ付与による
探索の効率化
サンプリングの優先順位を導入
深層学習の導入
デモンストレーションによる事前学習
全てを統合 並列化 LSTMの
導入
内部報酬による
探索の効率化
2つを統合
内部報酬と
並列化
Meta-Controller
22. 22
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ 価値ベース・方策ベース ~
モデルフリー
今回のチュートリアルでは,価値ベースと方策ベースの分類に着目して順番に説明していきます
24. 24
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ 価値ベース・Q学習とSARSA ~
• 価値ベース手法の基本的な考え方
• 探索の方法(ε-greedy法)
• Off-PolicyとOn-Policy
- Q学習とSARSAの違い
32. 32
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ 価値ベース・Q学習とSARSA ~
モデルフリー
モデルベース(ゲームAI)
Monte-Carlo
Tree Search
Alpha o Alpha o ero Alpha ero
Alpha ol AlphaStar
M ero
※厳密には
モデルフリー
On-Policy Off-Policy
※厳密には
強化学習が導入されている
33. 33
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ Deep Q-Networkの登場 ~
• ニューラルネットワークによるQ関数(Qテーブル)の関数近似
• Deep Q-Network
• 深層強化学習の難しいところ
- 難しさを改善する基本の工夫
50. 50
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ 分散強化学習と効率的な経験の活用 ~
• 分散強化学習
- GORILA
• Prioritized Experience Replay
• それらを組み合わせた手法
- Ape-X
56. 56
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ 内部報酬の活用と人間を超えたスコアの達成 ~
• 内部報酬の考え方
• 内部報酬を導入した手法
- ICM
- RND
- NGU
- Agent57
63. 63
Never Give Up (NGU) [Baida+, 2020] (1)
• Life-long novelty module
- RNDと同じ
- 生涯(学習期間全体)で新しい状況に出会うと高い内部報酬を出力
• Episodic novelty module
- 1エピソード内で訪れた状態をエピソード記憶(Episodic memory)に保持
- エピソード内で新しい状況に出会うと高い内部報酬を出力
• 各モジュールからの値を以下の式で統合
• 外部報酬𝑟"
)
と内部報酬𝑟"
(
の和を全体の報酬とする
embedding network
RND predi tion network
RND r ndom network
epi odi memor
k ne re t
neig bor
ontro b e t te
epi odi no e t
mod e
i e ong no e t
mod e
m tip i ti e
mod tion
𝑟!
,
= 𝑟!
-.,/01-
× min(max 𝛼!, 1 , 𝐿)
𝑟! = 𝑟!
-
+ 𝛽𝑟!
,
※ 𝛽:内部報酬の重み
71. 71
GORILA R D
DQ D
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
強化学習アルゴリズムマップ ~ 方策ベースの強化学習 ~
• ここで学ぶこと
- 方策ベースの強化学習の考え方
• Policy Gradient
• REINFORCE
• TRPO
• PPO
86. 86
CVタスクへの応用: Data Augmentation
• AutoAugment: Learning Augmentation Policies from Data [Cubuk+, 2018]
- 最適なAugmentationを強化学習で選択
• 従来は手動で設計
- 認識性能が大きく向上(2018年当時にSoTA)
元画像
We formulate the problem of finding the best augment
In our search space, a policy consists of 5 sub-policies
operations to be applied in sequence, each operation is al
the probability of applying the operation, and 2) the mag
Figure 1 shows an example of a policy with 5-sub-polici
specifies a sequential application of ShearX followed by
is 0.9, and when applied, has a magnitude of 7 out of 10.
The Invert operation does not use the magnitude informat
applied in the specified order.
3 AutoAugment
We formulate the problem of finding the best augmentation policy as a discrete sear
In our search space, a policy consists of 5 sub-policies, each sub-policy consisting o
operations to be applied in sequence, each operation is also associated with two hyperpa
the probability of applying the operation, and 2) the magnitude of the operation.
Figure 1 shows an example of a policy with 5-sub-policies in our search space. The firs
specifies a sequential application of ShearX followed by Invert. The probability of appl
is 0.9, and when applied, has a magnitude of 7 out of 10. We then apply Invert with proba
The Invert operation does not use the magnitude information. We emphasize that these o
applied in the specified order.
3 AutoAugment
We formulate the problem of finding the best augmentation policy as a d
In our search space, a policy consists of 5 sub-policies, each sub-policy c
operations to be applied in sequence, each operation is also associated with
the probability of applying the operation, and 2) the magnitude of the opera
Figure 1 shows an example of a policy with 5-sub-policies in our search sp
specifies a sequential application of ShearX followed by Invert. The probab
is 0.9, and when applied, has a magnitude of 7 out of 10. We then apply Inve
The Invert operation does not use the magnitude information. We emphasize
applied in the specified order.
3 AutoAugment
We formulate the problem of finding the best augmentation policy as a d
In our search space, a policy consists of 5 sub-policies, each sub-policy c
operations to be applied in sequence, each operation is also associated with t
the probability of applying the operation, and 2) the magnitude of the operat
Figure 1 shows an example of a policy with 5-sub-policies in our search spa
specifies a sequential application of ShearX followed by Invert. The probabi
is 0.9, and when applied, has a magnitude of 7 out of 10. We then apply Inver
The Invert operation does not use the magnitude information. We emphasize t
applied in the specified order.
3 AutoAugment
We formulate the problem of finding the best augmentation policy as a discrete search problem.
In our search space, a policy consists of 5 sub-policies, each sub-policy consisting of two image
operations to be applied in sequence, each operation is also associated with two hyperparameters: 1)
the probability of applying the operation, and 2) the magnitude of the operation.
Figure 1 shows an example of a policy with 5-sub-policies in our search space. The first sub-policy
specifies a sequential application of ShearX followed by Invert. The probability of applying ShearX
is 0.9, and when applied, has a magnitude of 7 out of 10. We then apply Invert with probability of 0.8.
The Invert operation does not use the magnitude information. We emphasize that these operations are
applied in the specified order.
強化学習で自動的にAugmentationした画像
101. 4
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ DQNの発展手法 ~
• 基本のDQNを改良した手法
- Double DQN
- Dueling DQN
- Categorical DQN
- Rainbow
113. 16
Rainbow [Hessel+, 2017](2)
• 従来手法を圧倒
- DQNのスコアを7M 回で上回る
- 他の手法の中で一番良いDistributional (Categorical) DQNも44M 回で上回る
Rainbow: Combining Improvements in Deep Reinforcement Learning
Matteo Hessel
DeepMind
Joseph Modayil
DeepMind
Hado van Hasselt
DeepMind
Tom Schaul
DeepMind
Georg Ostrovski
DeepMind
Will Dabney
DeepMind
Dan Horgan
DeepMind
Bilal Piot
DeepMind
Mohammad Azar
DeepMind
David Silver
DeepMind
Abstract
The deep reinforcement learning community has made sev-
eral independent improvements to the DQN algorithm. How-
ever, it is unclear which of these extensions are complemen-
tary and can be fruitfully combined. This paper examines
six extensions to the DQN algorithm and empirically studies
their combination. Our experiments show that the combina-
tion provides state-of-the-art performance on the Atari 2600
benchmark, both in terms of data efficiency and final perfor-
mance. We also provide results from a detailed ablation study
that shows the contribution of each component to overall per-
formance.
Introduction
The many recent successes in scaling reinforcement learn-
ing (RL) to complex sequential decision-making problems
were kick-started by the Deep Q-Networks algorithm (DQN;
Mnih et al. 2013, 2015). Its combination of Q-learning with
convolutional neural networks and experience replay en-
abled it to learn, from raw pixels, how to play many Atari
2298v1
[cs.AI]
6
Oct
2017
学習回数 [millions]
ゲームのスコア(人間のスコアが100%)
114. 17
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ DQNの発展手法 ~
• 再帰型ニューラルネットワークを導入した手法
- DRQN
- R2D2
115. 18
Deep Recurrent Q-Network (DRQN) [Hausknecht and Stone, 2015]
• 通常のDQN
- 直近4フレームの情報をまとめて入力
FC
状態価値 𝑄(𝑠, 𝑎)
CNN
• DRQN
- 状態の時系列変化を考慮するためにLSTMを導入
𝑡 − 3
𝑡 − 2
𝑡 − 1
𝑡
LSTM
CNN
FC
LSTM
CNN
FC
LSTM
CNN
FC
LSTM
CNN
FC
状態価値 𝑄(𝑠, 𝑎)
…
𝑡
𝑡 − 1
𝑡 − 2
𝑡 − 𝑇
そこまで大きな性能改善はないが,RNN(LSTM)を取り入れた最初の手法
117. 20
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ デモンストレーションの活用 ~
• ここで学ぶこと
- デモンストレーションデータを用いた強化学習の考え方
• DQfD
• R2D3
123. 26
Double Q-Learning Double DQN
GORILA
DRQN
Prioritized
Experience Replay Rainbow APE- NG
R D
R D
DQ D
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
強化学習アルゴリズムマップ ~ 価値+方策ベース ~
• 価値+方策ベースの強化学習の考え方
- Actor-Critic
- A3C
- IMPALA
131. 34
UNREAL [Jaderberg, et al., 2016](2)
• A3Cをベースに補助タスクを同時に学習
- Pixel Control … 画像の画素値が大きく変動する動きを学習
- Value Function Replay … 過去の経験をシャッフルして学習
- Reward Prediction … 現在の状態から報酬を予測
132. 35
Double Q-Learning Double DQN
GORILA
DRQN
Prioritized
Experience Replay Rainbow APE- NG
R D
R D
DQ D
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
強化学習アルゴリズムマップ ~ 決定的方策勾配に基づく手法 ~
• 確率的方策勾配と決定的方策勾配の違い
- DPG
- DDPG
- TD3
- Soft Actor-Critic