2. 輪読内容について
• Control as inference:
– Sergey Levineが近年提唱
– 強化学習の最適制御(optimal control)やプランニングを確率モデルの推論(inference)とみなすことで,強化
学習を統一的な枠組みで議論できる
• 本発表では,
• Control as Inferenceの概要[Levine+ 18]
• Control as inferenceの考えから導出されるsoft actor-critic(SAC)[Haarnoja+ 17, 18]
• POMDPに拡張してVAEでモデル化したstochastic latent actor-critic(SLAC)[Lee+ 19]
を紹介
• 感想
• もっと関連研究について調べたかった.
• Control as Inferenceの論文内の式展開が一部怪しい気がする(資料内で補足した).
• 説明が間違ってたらすみません. 2
3. マルコフ決定過程(MDP)
• 環境としてマルコフ決定過程(MDP)を考える.
• 時刻 で状態(state) と行動(action) をとったとき,次の時刻 の状態 はダイナミク
ス(dynamics) で決まる.
• MDP環境のグラフィカルモデルは,以下のようになる.
t st at t + 1 st+1
p (st+1 |st, at)
3
st−1 st st+1
at−1 at at+1
4. 最適制御問題
• MDP環境である方策(policy) の下で行動すると考えると,時刻 までの軌道(trajectory)
の分布は
• 強化学習における最適制御問題(プランニング,方策探索問題):
• 報酬(reward) が与えられた下での期待収益
を最大化する方策(最適方策) を求める.
• ここでは簡単のため,割引率を省略している.
-> 最適制御問題は,グラフィカルモデル上でどのように表現できるのか?
p (a|s) T
τ = (s1, a1, . . . , sT, aT)
r (st, at)
Ep(τ)
[
T
∑
t=1
r (st, at)
]
popt (a|s)
4
p(τ) = p(s1)
T
∏
t=1
p(at |st)p(st+1 |st, at)
5. 最適性変数の導入
• 最適性変数(optimality variable):
• ある時刻 の状態 と行動 が最適なのかを評価する確率変数.
• で最適, で最適でないことを表す.
• 最適性変数によって,ある時点 における状態 と行動 が与えられた下での最適性は報酬関数 を用いて
と表される.
• 逆にいうと報酬関数が と表されると仮定(=常に負であると仮定).
• 環境のグラフィカルモデルは,最適化変数を用いて次のようになる.
-> その時刻での「最適性」をグラフィカルモデル上に明示的に表すことが可能になった!
et = {0,1}
t st at
et = 1 et = 0
t st at r
r(st, at) = log p(et = 1|st, at)
5
st−1 st st+1
at−1 at
et−1 et
at+1
et+1
p(et = 1|st, at) = exp (r (st, at))
7. 最適性変数を用いた最適方策
• また時刻 における最適方策は,最適性変数を用いて次のように表せる.
• 時刻 において であり,かつそれ以降が最適になるような行動確率
• グラフィカルモデル上で表すと次の通り.
したがって,最適制御問題は確率的推論を行うという確率モデル一般の問題に帰着する
(control as inference)
t
t st
7
st−1 st st+1
at−1 at
et−1 et
at+1
et+1
popt (at |st) = p (at |st, et:T = 1)