SlideShare a Scribd company logo
1 of 44
Download to read offline
【論文紹介】
PGQ: Combining Policy Gradient
And Q-learning
O’Donoghue et al. ICLR 2017
Sotetsu KOYAMADA (@sotetsuk)
Table of Contents
■ 論文概要
■ 強化学習の問題設定と定義
■ Q学習と方策勾配法のReview
■ 論文の理論的結果 (1)
■ 論文の理論的結果 (2)
■ 提案手法の説明: PGQ
■ 実験結果
■ 参考文献
論文概要
紹介する理由
1. 強化学習における二つの別々の主要なアプローチの統
合を試みている
■ 理論的に興味深い
■ 実用面からも長所を組み合わせることが期待できる
2. Atariベンチマークでの強い実験結果
ICLR2017レビュアーのコメント
https://openreview.net/forum?id=B1kJ6H9ex
It has the potential to be an impactful paper, with the
most positive comment noting that it "will likely influence
a broad swath of RL".
TL;DR (1)
理論的貢献 (1)
エントロピー正則化付きの方策勾配法の停留点におい
て、方策とアドバンテージ関数(Q関数)の間に次式の関
係性を示し、この関係から方策勾配法において明示的に
推定しなくても適切な行動価値関数を導出できる。
理論的貢献 (2)
エントロピー正則化付きのActor-critic法と行動価値を推
定する手法 (Q学習やSARSA) は更新則が等しくなる(特
別な場合)。とくに、Actor-critc法をAdvantage
function learningと見なすことが出来る。
TL;DR (3)
PGQの提案と評価
理論的貢献(1)の結果から得られる行動価値関数をベルマ
ン最適方程式を満たすように正則化をかけたアルゴリズ
ムPGQを提案。これは のときはエントロピー正則
化付きの方策勾配法、 のときは特殊な構造のQ学
習をしていると捉えられる。AtariドメインでMedianで
も人を上回り、DQNやA3Cと比べても一人負けするゲー
ムが存在しないという安定性を見せた。
η = 0
η = 1
強化学習の問題設定と定義
一般的な強化学習の問題設定 (1)
マルコフ決定過程 (MDP)
環境 は現在の 状態 と 行動 にだけ依存して未知の 状態遷
移確率 から次の 状態 と 即時報酬 を返す
エージェント は現在の 状態 と 報酬 を観測し、現在の 方
策 に基づいて次の 行動 を返す
サンプル系列 が生成される
P
( , ) ∼ P(⋅ | , )Xt+1 Rt+1 Xt At
π
∼ π(⋅ | )At Xt
( , , , , , …)X0 A0 R1 X1 A1
一般的な強化学習の問題設定 (2)
コントロール
目的関数 を最適化するように方策を学習する(例: 割
引報酬和の期待値)
J
J(π) = E
[ ]∑
t=1
∞
γ
t
Rt+1
ある方策に基づく価値関数
Def. 行動価値関数 (期待値は状態遷移確率と方策 )
Def. 方策 に基づくベルマン作用素
(ただし、 )
この行動価値関数 は、ベルマン作用素の不動点 (i.e.,
) として求まる(める)
π
(x, a) := E
[
| = x, = a
]
Q
π
∑
t=0
∞
γ
t
Rt+1 X0 A0
π
Q(x, a) = r(x, a) + γ π( | )P( |x, a)Q( , )T
π
∑
,x
′
a
′
a
′
x
′
x
′
x
′
a
′
r(x, a) = E [ | = x, = a]Rt+1 Xt At
Q
π
Q = QT
π
最適行動価値
理想的な行動を取ったとすると、最適化したい指標が期
待的にどうなるか
Def. 最適行動価値関数
Def. ベルマン最適作用素
最適行動価値関数 は、ベルマン最適作用素の不動点
(i.e., ) として求まる(める)
(x, a) := (x, a)Q
∗
max
π
Q
π
Q(x, a) := r(x, a) + γ P( |x, a) Q( , )T
∗
∑
x
′
x
′
max
a
′
x
′
a
′
Q
∗
Q = QT
∗
強化学習(コントロール)の二系統
価値ベース
■ (行動)価値関数を直接推定・最適化する
■ Q学習 [Watkins89] SARSA [Rummery&Niranjan94]
■ w/ 深層学習: DQN [Mnih+13, 15]
方策ベース
■ 方策を直接推定・最適化する
■ 方策勾配法 [Sutton+99]
■ w/ 深層学習: A3C [Mnih+16]
Q学習, SARSA, 方策勾配法
のReview
SARSA, Q学習
SARSAは現在の方策に基づく行動価値関数を、Q学習は
最適行動価値関数をパラメトライズしてベルマン作用素
の不動点を求めるよう更新する:
■ サンプリングは現在の に基づいた -グリーディ方
策かボルツマン方策が用いられることが多い
■ ターゲットが現在の推定している に依存している
のでブートストラップになっている(TD法全般に共通)
■ それぞれ適切な条件下で最適行動価値関数へ収束する
(SARSAは 方策改善 も必要とする (e.g., GLIEを満たす方
策を用いる[Singh+00]))
( − ) = E [( − ) ]∇θ T
π
Qθ Qθ T
π
Qθ Qθ ∇θ Qθ
( − ) = E [( − ) ]∇θ T
∗
Qθ Qθ T
∗
Qθ Qθ ∇θ Qθ
Qθ
ϵ
Qθ
方策勾配法
方策 をパラメトライズした上で を直接最適化する
■ 方策勾配定理 [Sutton+99]
■ からサンプルを生成してサンプル平均を取れば 不偏
推定量が計算できるので、それを使って更新を行なう
■ 逆に のような推定している分布に関するサンプリン
グが必要なような確率的最適化の場面では強化学習以外
の文脈でも使われる (e.g., hard attention [Mnih+14,
Xu+15] , sequence generatioon [Ranzato+16,
Bahdanau+17])
π πθ
J(θ) = E [ (x, a) log(π(a|x))]∇θ Q
π
∇θ
π
π
方策勾配法
は現実的には他のものが使われる
■ 実際の即時報酬 (REINFORCE[Williams+92])
■ 実際の報酬の複数ステップ先読み版
また、推定量の分散を抑えるため、 と関係のないベー
スライン が上記の最適化するものから引かれる。bの例
としては
■
現実的には複数ステップ先読みした(推定)収益と、ベ
ースライン を使われ[Mnih+16]、方策と価値関数を推
定するのでActor-critic法になる
Q
π
R
a
b
(x)V
π
V
π
方策勾配法におけるエントロピー正則
化
■ 方策勾配法の問題点として探索と活用のトレードオフ
を特に考慮してない点がある
■ 方策に関するエントロピー正則化項を加えて方策が決
定論的にならないよう正則化するのは一般的
[Williams&Peng91]
この観点からのより興味深い分析が、ごく最近arXivに投
稿されている [Nachum+17]
Q学習と方策勾配法の特徴
この研究のモチベーションを理解するため、Q学習と方策
勾配法の特徴とPros/Consを説明する。
■ Q学習: 本質的に 方策オフ型学習(後述)の手法
■ 方策勾配法: 本質的に 方策オン型学習(後述)の手法
方策オフ・オン型アルゴリズムの性質由来のPros/Cons
が存在(後述)
... Q-learning is an inherently off-policy algorithm ...
[Szepesvari10]
方策オンと方策オフ
現在推定している方策(推定方策)と、実際に行動を選
択肢、サンプルを生成している方策(行動方策)が等し
い場合は 方策オン型 といい、そうでない場合は 方策オ
フ型 という。
Q学習は本質的に方策オフ型
Review: Q学習の更新則
■ 更新則の期待値のサンプル平均が推定方策に依存して
いないため、 関係無い分布からサンプリングをしてもサ
ンプル平均が不偏推定量になる
■ 逆に、現在の に基づく最適方策
のサンプルだけから学習するのは不可能( の -グリ
ーディ方策やボルツマン方策など探索的行動も取らなけ
れば任意の状態・行動に対し十分なサンプルが得られな
い)
∝ ( − ) = E [( − ) ]Δθ ∇θ T
∗
Qθ Qθ T
∗
Qθ Qθ ∇θ Qθ
Q(x, a) := r(x, a) + γ P( |x, a) Q( , )T
∗
∑
x
′
x
′
max
a
′
x
′
a
′
Qθ
(x, a)argmaxa
Qθ
Qθ
ϵ
Q学習のPros/Cons
■ Pros: 経験再生 [Lin92] を使えるのでデータ効率的
■ Pros: 任意の方策からサンプリングされたデータで学
習可能(サンプルサイズが十分あれば)
■ Cons: 複数ステップ法への拡張が難しい(サンプル平
均がサンプリングする方策に依存するようになるのでバ
イアスが生じる)
このConsを解決するアプローチ
■ Importance sampling (IS) [Precup+00] 推定方策と
行動方策の分布比に応じて重み付け
■ Retrace(λ) [Munos+16] ISの分散爆発を避けつつ長
く先読みできるよう工夫
■ PCL [Nachum+17] 本論文を踏まえた発展
方策勾配法は本質的に方策オン型
Review: 方策勾配法の更新則
この期待値は推定方策に依存しているためサンプル平均
が、方策オンでサンプリングされていないと不偏推定量
になってくれない
∝ J(θ) = E [ (x, a) log(π(a|x))]Δθ ∇θ Q
π
∇θ
方策勾配法のPros/Cons
■ Pros: サンプル平均が行動方策に依存する場合でもバ
イアスがない
■ Pros: 複数ステップ法が使えるのでバイアス・バリア
ンスのトレードオフがとれる
■ Cons: 経験再生と相性が悪くサンプルが使い捨てにな
りデータ効率が良くない
■ Cons: 探索・活用のトレードオフを考慮してない
このConsを解決しようとするアプローチ
■ ACER [Wang+17]
■ PGQ [O’Donoghue+17]
この論文の理論的な貢献
理論的貢献(1)
エントロピー正則化付きの方策勾配法の停留点におい
て、方策とアドバンテージ関数の間に次式の関係性を示
した(式4)
この関係から逆に停留点での方策を使ってアドバンテー
ジ関数とQ関数を 、 と表すことができ、 方策勾配
法でもQ関数の推定をしているとみなすことが出来るよう
になった(式6)。
PGQではこのQ関数にベルマン最適方程式を満たすよう
正則化をかけている。 また、この貢献は と から
を表せていることになり、非自明
π(a|x) ∝ exp( (x, a)/α)A
π
A
̃ 
π
Q
̃ 
π
Δθ ∝ E [( (x, a) − (x, a)) log π(x, a)]Q
π
Q̃ 
π
∇θ
π V
π
Q
π
理論的貢献(2)
SARSA, Q学習の更新則
エントロピー正則化付き方策勾配法の更新則
が似てる気がする... 一緒では?
Actor-critic法と行動価値を推定する手法 (Q学習や
SARSA) は更新則が(特別な場合に)等しくなる。とく
に、Actor-critc法をAdvantage function learningと
見なすことが出来る
( − ) = E [( − ) ]∇θ T
π
Qθ Qθ T
π
Qθ Qθ ∇θ Qθ
( − ) = E [( − ) ]∇θ T
∗
Qθ Qθ T
∗
Qθ Qθ ∇θ Qθ
Δθ ∝ E [( (x, a) − (x, a)) log π(x, a)]Q
π
Q̃ 
π
∇θ
理論的貢献(2)
仮定一覧
■ 引き続きエントロピー正則化は仮定として必要
■ Actor-criticの方策は の形で
書ける
■ 行動価値の学習ではDueling architecture[Wang+16]
を用いる
最小化する誤差の選び方の例
SARSAの場合もQ学習の場合も、現在の方策から求まるQ
関数でターゲットをブートストラップすれば良い
π(a|x) ∝ exp(W(x, a))
アルゴリズム
提案アルゴリズム: PGQ
PGQでは今までの議論からエントロピー正則化によって
から導かれるQ関数 にベルマン最適方程式を満た
すよう正則化をかけている(式12, 14)
■ 各更新則の前項は通常のエントロピー付きの方策勾配
法に対応し、後項は新たに追加したベルマン最適方程式
による正則化である。
■ でで通常のエントロピー付きの方策勾配法と見
なすことができ、逆に で(特殊な)Q学習と見な
すことができる(Dueling architecture[Wang+16]に似
ている)
π Q
̃ 
π
η = 0
η = 0
経験再生を使った実際の更新則
現実的には式14のアップデートを同時にバッチで行なわ
ない(方策勾配法を活かせない)
■ 方策オンでサンプルを並列で生成し、方策勾配法によ
り方策と価値関数を更新する
■ 上記で観測されたサンプル系列はリプレイバッファへ
と貯められる
■ 別プロセスがリプレイバッファに貯まったサンプルを
バッチで、ベルマン最適方程式を満たすよう更新する
アーキテクチャ
Dueling architecture[Wang+16]にかなり似てる
[O’Donoghue+17]より引用
実験
Atariにおける性能評価
■ DQN, A3Cと人のスコアを100で正規化したスコア
■ 人のスコアにMedianでも勝利
[O’Donoghue+17]より引用
PGQが上手くいってる例
[O’Donoghue+17]より引用
PGQが上手くいかなかった例
とはいえ、最下位にはなっていない
[O’Donoghue+17]より引用
感想
■ 方策勾配法が一ミリも探索・活用のトレードオフを考
慮しないのは理論的な側面からいっても不自然な気がす
る(Q学習もSARSAも最適行動価値へ収束するためには
十分な探索が条件になってる)ので、そういう意味では
実はエントロピー正則化付きの目的関数を考えた方が逆
に自然ということはさもありなんと言う気もする(この
観点からは[Nachum+17]がさらに研究を進めている)
■ アルゴリズム(PGQ)の提案が急に雑な気がする。要
するに通常のエントロピー正則化付き方策勾配法で推定
している方策と状態の価値関数から適当にQ関数を作って
それにベルマン最適方程式で正則化をかけただけに見え
てしまう
■ とはいえ、AtariにおいてMedianでも初めて(?)人
間レベルを上回った意義は大きいように思える
参考文献(年代順)
■ [Watkins89] Learning from delayed rewards. PhD
thesis 1989
■ [Williams&Peng91] Function Optimization Using
Connectionist Reinforcement Learning Algorithms.
Connection Science 1991
■ [Williams+92] Simple statistical gradient-
following algorithms for connectionist reinforcement
learning Machine Learning 1992.
■ [Lin92] Self-Improving Reactive Agents Based On
Reinforcement Learning, Planning and Teaching.
Machine Leanring
■ [Sutton+99] Policy Gradient Methods for
Reinforcement Learning with Function
Approximation. NIPS 1999
■ [Rummery&Niranjan94] On-line Q-learning using
connectionist systems. 1994
■ [Singh+00] Convergence Results for Single-Step
On-Policy Reinforcement-Learning Algorithms.
Machine Learning 2000
■ [Precup+00] Eligibility Traces for Off-Policy Policy
Evaluation. ICML 2000
■ [Szepesvari10] Algorithms for Reinforcement
Learning. 2010
■ [Mnih+13] Playing atari with deep reinforcement
learning. NIPS-WS 2013
■ [Mnih+14] Recurrent Models of Visual Attention.
NIPS 2014
■ [Mnih+15] Human-level control through deep
reinforcement learning. Nature 2015
■ [Xu+15] Show, attend and tell: Neural image
caption generation with visual attention ICML 2015
■ [Mnih+16] Asynchronous Methods for Deep
Reinforcement Learning ICML 2016
■ [Ranzato+16] Sequence level training with
recurrent neural networks ICLR 2016
■ [Wang+16] Dueling Network Architectures for
Deep Reinforcement Learning ICML 2016
■ [Bahdanau+17] An Actor-Critic Algorithm for
Sequence Prediction. ICLR 2017
■ [Munos+16] Safe and efficient off-policy
reinforcement learning. NIPS 2016
■ [Wang+17] Sample Efficient Actor-Critic with
Experience Replay. ICLR 2017
■ [O’Donoghue+17] PGQ: Combining Policy Gradient
and Q-learning. ICLR 2017
■ [Nachum+17] Bridging the Gap Between Value and
Policy Based Reinforcement Learning. submitted to
ICML 2017

More Related Content

What's hot

[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...Deep Learning JP
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてPlot Hong
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 Ken'ichi Matsui
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~RyuichiKanoh
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 

What's hot (20)

[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
TabNetの論文紹介
TabNetの論文紹介TabNetの論文紹介
TabNetの論文紹介
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
Point net
Point netPoint net
Point net
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 

Viewers also liked

強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介mooopan
 
アクターモデルについて
アクターモデルについてアクターモデルについて
アクターモデルについてTakamasa Mitsuji
 
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...John Liu
 
Trust Region Policy Optimization
Trust Region Policy OptimizationTrust Region Policy Optimization
Trust Region Policy Optimizationmooopan
 
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement LearningDeep Learning JP
 
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Taehoon Kim
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + αKatsuki Ohto
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説suckgeun lee
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
PFN Spring Internship Final Report: Autonomous Drive by Deep RL
PFN Spring Internship Final Report: Autonomous Drive by Deep RLPFN Spring Internship Final Report: Autonomous Drive by Deep RL
PFN Spring Internship Final Report: Autonomous Drive by Deep RLNaoto Yoshida
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)徹 上野山
 

Viewers also liked (14)

強化学習その3
強化学習その3強化学習その3
強化学習その3
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
 
アクターモデルについて
アクターモデルについてアクターモデルについて
アクターモデルについて
 
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
 
Trust Region Policy Optimization
Trust Region Policy OptimizationTrust Region Policy Optimization
Trust Region Policy Optimization
 
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
 
【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016
 
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
PFN Spring Internship Final Report: Autonomous Drive by Deep RL
PFN Spring Internship Final Report: Autonomous Drive by Deep RLPFN Spring Internship Final Report: Autonomous Drive by Deep RL
PFN Spring Internship Final Report: Autonomous Drive by Deep RL
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
 

Similar to 【論文紹介】PGQ: Combining Policy Gradient And Q-learning

人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用Hirotaka Hachiya
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...Eiji Uchibe
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデルKei Nakagawa
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningharmonylab
 
Analyze by StatsModels or Numpy
Analyze by StatsModels or NumpyAnalyze by StatsModels or Numpy
Analyze by StatsModels or NumpyToshiki NOGUCHI
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定Hiroshi Nakagawa
 
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47horihorio
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesKei Nakagawa
 
[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codesshima o
 
[DL輪読会]It's not just size that maters small language models are also few sho...
[DL輪読会]It's not just size that maters  small language models are also few sho...[DL輪読会]It's not just size that maters  small language models are also few sho...
[DL輪読会]It's not just size that maters small language models are also few sho...Deep Learning JP
 

Similar to 【論文紹介】PGQ: Combining Policy Gradient And Q-learning (13)

人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
Analyze by StatsModels or Numpy
Analyze by StatsModels or NumpyAnalyze by StatsModels or Numpy
Analyze by StatsModels or Numpy
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
π計算
π計算π計算
π計算
 
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matrices
 
[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes
 
[DL輪読会]It's not just size that maters small language models are also few sho...
[DL輪読会]It's not just size that maters  small language models are also few sho...[DL輪読会]It's not just size that maters  small language models are also few sho...
[DL輪読会]It's not just size that maters small language models are also few sho...
 

More from Sotetsu KOYAMADA(小山田創哲) (10)

【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction
【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction
【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
KDD2016論文読み会資料(DeepIntent)
KDD2016論文読み会資料(DeepIntent) KDD2016論文読み会資料(DeepIntent)
KDD2016論文読み会資料(DeepIntent)
 
強化学習勉強会・論文紹介(Kulkarni et al., 2016)
強化学習勉強会・論文紹介(Kulkarni et al., 2016)強化学習勉強会・論文紹介(Kulkarni et al., 2016)
強化学習勉強会・論文紹介(Kulkarni et al., 2016)
 
強化学習勉強会・論文紹介(第22回)
強化学習勉強会・論文紹介(第22回)強化学習勉強会・論文紹介(第22回)
強化学習勉強会・論文紹介(第22回)
 
Principal Sensitivity Analysis
Principal Sensitivity AnalysisPrincipal Sensitivity Analysis
Principal Sensitivity Analysis
 
KDD2015論文読み会
KDD2015論文読み会KDD2015論文読み会
KDD2015論文読み会
 
KDD2014勉強会 発表資料
KDD2014勉強会 発表資料KDD2014勉強会 発表資料
KDD2014勉強会 発表資料
 
知能型システム論(後半)
知能型システム論(後半)知能型システム論(後半)
知能型システム論(後半)
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 

【論文紹介】PGQ: Combining Policy Gradient And Q-learning