二人零和マルコフゲームにおけるオフ方策評価

⼆⼈零和マルコフゲームにおけるオフ⽅策評価
“OFF-POLICY EXPLOITABILITY-EVALUATION IN TWO-
PLAYER ZERO-SUM MARKOV GAMES”
株式会社サイバーエージェント
AI事業本部 AI Lab
阿部拳之
2021/05/27

⾃⼰紹介
■ 名前
– 阿部拳之（あべけんし）
– @bakanaouji（ばかなおうじ）
■ 経歴
– 東京⼯業⼤学総合理⼯学研究科知能システム科学専攻（〜2017年）
■ 強化学習×進化計算をメインに研究
– 株式会社ハル研究所（2017年〜2018年）
■ ゲームプログラマー
– 株式会社サイバーエージェント AI事業本部 AILab（2018年〜）
■ 強化学習チーム・チームリーダー
■ マルチエージェント強化学習・オフラインRLについて研究

今回の発表
■ 題⽬︓Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games
■ 著者︓Kenshi Abe, Yusuke Kaneko (CyberAgent, Inc.)
■ ひとことでいうと
– 複数の意思決定者が存在する環境における意思決定モデルの事前評価⼿法を提案

意思決定の⾃動化
■ 実世界における意思決定を⾃動化しようという試みは今や当たり前の様に⾏わ
れている
– ルールベースで意思決定を分岐
– 機械学習モデルの予測を⽤いて意思決定
■ 例えば・・・
– ⾃動運転
– Web広告配信
– リコメンドシステム
– ゲームAI
意思決定モデル

意思決定モデルの⼊れ替え
■ 意思決定モデルをリニューアルし，既
存モデルと⼊れ替えることはよくある
– 学習⽤データを新しくして再学習
– SOTAのモデルを⽤いるようにする
■ しかし性能の悪い意思決定モデルを本
番環境にデプロイすることにリスクが
伴うことがある
→本番環境にデプロイする前に事前に性
能を評価したい
新しい意思決定モデル
モデルを⼊れ替えたい

事前に評価︕
既存モデルより
評価が良かったら
差し替え
or ?

オフ⽅策評価
■ どうやって新しい意思決定モデルを
事前評価するのか︖
– 幸いなことに，既存の意思決
定モデルは既にデプロイされ
て意思決定を⾏っている
– そのログが残されていれば，
事前評価に使える︖︖
■ オフ⽅策評価
– 既存の意思決定モデルによっ
て蓄積されたデータを⽤いて，
新しいモデルを評価する問題
ログデータ
インタラクション
実環境既存の意思決定モデル
事前に評価︕

Notation
これ以降では，強化学習的なnotationを⽤いる
※ただし，意思決定は時刻𝑡 = 1から𝑇までの𝑇回⾏うとする
■ 状態𝑠︓意思決定する際に観測する状態
■ ⾏動𝑎︓選択される⾏動
■ 報酬𝑟︓取った⾏動に対して与えられる利益
■ ⽅策𝜋 𝑎 𝑠 ︓状態𝑠に対してどの⾏動を選択するかを決定する確率分布（意思決定モデル）

Notation
■ 意思決定者と環境は時刻𝑡 = 1から𝑇まで以下のようなインタラクションを⾏う
1. 意思決定者は状態𝑠!を観測し，⽅策𝜋! 𝑎! 𝑠! から⾏動𝑎!を決定する
2. 状態𝑠!と⾏動𝑎!をもとに，意思決定者に対して報酬𝑟!が与えられる
3. 状態𝑠!と⾏動𝑎!をもとに，状態が𝑠!"#へと遷移する
※この研究では，状態遷移や報酬が，現在の時刻の状態と⾏動にのみ依存して決まると
仮定（マルコフ決定過程）
st
at
rt

Notation
■ 強化学習における⽅策の評価
– 割引報酬和 𝑣 𝜋 = 𝐸$ ∑!%#
&
𝛾!'#𝑟!
■ ⽅策𝜋を⽤いた場合にもらえる期待報酬和
– 状態価値 𝑉! 𝑠! = 𝐸$ ∑!%(
&
𝛾!'(𝑟! 𝑠!
■ ある状態𝑠!からスタートした時にもらえる期待報酬和
– 状態⾏動価値 𝑄! 𝑠!, 𝑎! = 𝐸 𝑟! + 𝛾𝑉!"# 𝑠!"# 𝑠!, 𝑎!
■ ある状態𝑠!においてある⾏動𝑎!をとった後にもらえる期待報酬和
■ オフ⽅策評価では，新しい⽅策𝜋)の割引報酬和𝑣 𝜋) = 𝐸$! ∑!%#
&
𝛾!'#𝑟! を推定すること
を⽬的とする

オフ⽅策評価の定式化
1. 既存の意思決定⽅策𝜋!からログデータ
𝐷 = (𝑠",$, 𝑎",$, , 𝑟",$, ⋯ , 𝑠",%, 𝑎",%, 𝑟",%) "&$
'
が得られている
2. 評価したい⽅策𝜋(の性能（割引報酬）
をログデータ𝐷から推定
𝑣 𝜋(
= E)! -
*&$
%
𝛾*+$
𝑟*
ログデータ𝐷
実環境既存⽅策𝜋"
新しい⽅策𝜋#
𝑣 𝜋# を推定︕
(𝑠!,#, 𝑎!,#, , 𝑟!,#, ⋯ , 𝑠!,$, 𝑎!,$, 𝑟!,$)

代表的なオフ⽅策評価
⼿法

Direct Method (DM)
■ 何らかのモデルで𝑉#(𝑠#)を予測するモデル3
𝑉#(𝑠#)を学習し，それを⽤いて推定
!
𝑣45
𝜋6
= 𝐸7
&
𝑉8(𝑠8)
– 𝐸* 𝑓(𝑋) =
#
+
∑,%#
+
𝑓(𝑥,)︓データ𝐷上の平均値とする
■ 3
𝑉#(𝑠#)の推定がうまくいけば良い精度の推定ができる
■ しかし， 3
𝑉#(𝑠#)が全然だめなら当然ひどい推定になる

Importance Sampling (IS)
■ ⽅策の密度⽐を⽤いることで𝜋-によるバイアスを除去
!
𝑣=>
𝜋6
= 𝐸7 +
?@8
A
𝛾?B8
!
𝜌?𝑟?
– 𝜌! = ∏(%#
! $$
!
(/$|1$)
$$
%(/$|1$)
︓⽅策の密度⽐の積
– E
𝜌!︓𝜌!の推定量
■ E
𝜌! = 𝜌!の場合（𝜋-の確率分布が既知の場合），unbiasedな推定が可能
■ その⼀⽅で，𝑇に対して分散が指数関数的に増加する

Marginalized Importance Sampling (MIS)
■ 環境がマルコフ決定過程の場合に適⽤可能なIS-typeの推定量
!
𝑣!"# 𝜋$ = 𝐸% &
&'(
)
𝛾&*( ̂
𝜇&𝑟&
– 𝑝!
$(𝑠!, 𝑎!)︓⽅策𝜋に従った場合に時刻𝑡に状態⾏動(𝑠!, 𝑎!)が発⽣する周辺分
布
– 𝜇! =
3&
'!
(1&,/&)
3&
'%
(1&,/&)
︓状態⾏動(𝑠!, 𝑎!)の周辺分布の密度⽐
– E
𝜇!︓𝜇!の推定量
■ E
𝜇! = 𝜇!の場合，unbiasedな推定が可能
■ マルコフ決定過程の構造を利⽤しているので，分散の𝑇に関する依存性を軽減

Doubly Robust (DR) [Jiang and Li 2016]
■ DMとISのいいとこ取りをしたような推定量
!
𝑣+,
𝜋$
= 𝐸% &
&'(
)
𝛾&*(
!
𝜌&
*- .
𝑟& − -
𝑄&
*- .
+ !
𝜌&*(
*- . -
𝑉
&
*- .
– E
𝜌!, 3
𝑄!, 3
𝑉! ︓それぞれ𝜌!, 𝑄!, 𝑉!の推定量
■ E
𝜌!もしくは 3
𝑄!, 3
𝑉! のどちらかの推定が完璧であればunbiased
■ ISよりも分散が⼩さくなる

Double Reinforcement Learning
[Kallus and Uehara 2019]
■ DMとMISのいいとこ取りをしたような推定量
!
𝑣+,/
𝜋$
= 𝐸% &
&'(
)
𝛾&*(
̂
𝜇&
*- .
𝑟& − -
𝑄&
*- .
+ ̂
𝜇&*(
*- . -
𝑉
&
*- .
– E
𝜇!, 3
𝑄!, 3
𝑉! ︓それぞれ𝜇!, 𝑄!, 𝑉!の推定量
■ E
𝜇!もしくは 3
𝑄!, 3
𝑉! のどちらかの推定が完璧であればunbiased
■ MDPにおいて分散が最⼩となる

代表的なオフ⽅策評価⼿法まとめ
■ DM
– /
𝑉$(𝑠$)の推定がうまくいけば良い精度の
推定ができる
– しかし， /
𝑉$(𝑠$)が全然だめなら当然ひど
い推定になる
■ IS
– 𝜋!の確率分布が既知の場合，unbiasedな
推定が可能
– その⼀⽅で，𝑇に対して分散が指数関数的
に増加する
■ MIS
– マルコフ決定過程の構造を利⽤して，分
散の𝑇に関する依存性を軽減
■ DR
– 2
𝜌*もしくは /
𝑄*, /
𝑉* のどちらかの推定が完璧
であればunbiased
– ISよりも分散が⼩さくなる
■ DRL
– ̂
𝜇*もしくは /
𝑄*, /
𝑉* のどちらかの推定が完璧
であればunbiased
– MDPにおいて分散が最⼩となる

オフ⽅策評価研究の課題
■ 環境には意思決定者が１⼈しか存在しない（シングルエージェント環境）ことを前
提としている
■ では意思決定者が複数存在するような環境（マルチエージェント環境）では︖
マルチエージェント環境における意思決定モデルの評価に焦点を当てた研究は⾏われて
いない
→マルチエージェント環境におけるオフ⽅策評価⽅法を提案するのが，この研究の⽬的

マルチエージェント環境
におけるオフ⽅策評価

マルチエージェント環境とは︖
■ ここでは，𝑁⼈の意思決定者が存在していて，それぞれが⽅策𝜋#, ⋯ , 𝜋5に従ってい
るような環境と定義
■ マルチエージェント環境では，時刻𝑡 = 1から𝑇まで以下のような流れを繰り返す
1. 各意思決定者𝑖 ∈ 𝑁は状態𝑠!を観測し，⽅策𝜋, 𝑎!
, 𝑠! から⾏動𝑎!
,を決定する
2. 状態𝑠!と⾏動の組(𝑎!
,, ⋯ , 𝑎!
5)をもとに，各意思決定者𝑖に対して報酬𝑟!
,が与えら
れる
3. 状態𝑠!と⾏動の組(𝑎!
,, ⋯ , 𝑎!
5)をもとに，状態が𝑠!"#へと遷移する

⼆⼈零和マルコフゲーム
■ 意思決定者の数が⼆⼈（𝑁 = 2）
■ ⽚⽅の報酬が𝑟!
# = 𝑟!のとき，もう⽚⽅の報酬は𝑟!
6 = −𝑟!
として与えられる（敵対的な設定）
■ 状態遷移や報酬が，現在の時刻の状態と⾏動にのみ依存
して決まる（マルコフ性）
■ この研究では，単純なマルチプレイヤ環境である⼆⼈零
和マルコフゲームでのオフ⽅策評価について検討
対戦ゲーム
⽅策 A vs ⽅策 B
プレイヤA
を操作
プレイヤB
を操作

マルチエージェント環境における⽅
策評価の難しさ
■ シングルエージェント環境との違いは，ただ単に意思決定者の数が増えただけなので，
各意思決定者𝑖の割引報酬和も同様に定義ができる
𝑣, 𝜋#
)
, ⋯ , 𝜋5
)
= 𝐸$(
!,⋯,$)
! [V
!%#
&
𝛾!'#𝑟!
,]
■ それなら，シングルエージェントの時と同じで割引報酬和を推定すればよいのでは︖
※おさらい︓シングルエージェント環境では，割引報酬和を推定することで⽅策𝜋)を評価
𝑣 𝜋) = E$![V
!%#
&
𝛾!'#𝑟!]

マルチエージェント環境における⽅
策評価の難しさ
■ しかしマルチエージェントの場合は︖︖
– 基本的に全意思決定者の⽅策をすべて⾃分で決め
られることは稀
– ⾃分以外の意思決定者の⽅策がわからない（⽅策
を変えてくる可能性も）
– 特定の⽅策の組み合わせに対する割引報酬和を推
定することはあまり意味がない
𝑣, 𝜋#
)
, ⋯ , 𝜋5
)
= 𝐸$(
!,⋯,$)
! [V
!%#
&
𝛾!'#𝑟!
,]
– どうやって⽅策の良さを評価する︖︖
対戦ゲーム
⽅策 A vs ⽅策 ?
プレイヤA
を操作
プレイヤB
を操作
どんな相⼿と戦うのか
わかんない．．．

Exploitability
■ ⽅策の組の評価⽅法
– ⽅策の割引報酬和で評価する代わりに，exploitabilityによって評価する
■ Exploitability
– ⼆⼈零和ゲームにおいて，ナッシュ均衡との近さを定義する指標
𝑣8
9:;
𝜋#
)
, 𝜋6
)
= max
$(∈8(
𝑣#(𝜋#, 𝜋6
)
) + max
$*∈8*
𝑣6(𝜋#
)
, 𝜋6)
■ Exploitabilityは0以上の値を取る
■ ⼩さいほどナッシュ均衡に近い（ナッシュ均衡のexploitabilityは0）
– 最悪の相⼿に対しての割引報酬和をどれだけ最⼤化できているか，という尺度
■ 直感的には，exploitabilityが低い
=どんな相⼿に対しても⼀定以上⾼い割引報酬和が達成できる
=良い⽅策，として捉えられる

⼆⼈零和マルコフゲームにおけるオ
フ⽅策評価の定式化
1. 既存の意思決定⽅策の組 (𝜋$
!
, 𝜋,
!
)からロ
グデータ𝐷が得られている
2. 評価したい⽅策の組 (𝜋$
(
, 𝜋,
(
)の性能
（exploitability）をログデータ𝐷から推定
𝑣-
./0
𝜋$
(
, 𝜋,
(
= max
)"∈-"
𝑣$(𝜋$, 𝜋,
(
) + max
)#∈-#
𝑣,(𝜋$
(
, 𝜋,)
※プレイヤ1として意思決定する場合とプレ
イヤ2として意思決定する場合のケースを考
えたいので，⽅策の組を評価することに注意
ログデータ𝐷
実環境
新しい⽅策の組 𝜋+
#
, 𝜋,
#
𝑣-./ 𝜋+
#
, 𝜋,
#
を推定︕
(𝑠!,#, 𝑎!,#, , 𝑟!,#, ⋯ , 𝑠!,$, 𝑎!,$, 𝑟!,$)
既存⽅策𝜋+
"
vs 既存⽅策𝜋,
"

提案推定量
■ まず，プレイヤ1の割引報酬和に対するDR，DRL推定量を構築
E
𝑣#
=> 𝜋#
)
, 𝜋6
)
= 𝐸* V
!%#
&
𝛾!'# E
𝜌!
'( ,
𝑟! − 3
𝑄#,!
'( ,
+ E
𝜌!'#
'( , 3
𝑉
#,!
'( ,
E
𝑣#
=>? 𝜋#
)
, 𝜋6
)
= 𝐸* V
!%#
&
𝛾!'# E
𝜇!
'( ,
𝑟! − 3
𝑄#,!
'( ,
+ E
𝜇!'#
'( , 3
𝑉
#,!
'( ,
■ この推定量に基づいてexploitabilityを推定
E
𝑣=>
9:;
𝜋#
)
, 𝜋6
)
= max
$(∈8(
E
𝑣#
=>
(𝜋#, 𝜋6
)
) + max
$*∈8*
E
𝑣6
=>
(𝜋#
)
, 𝜋6)
E
𝑣=>?
9:;
𝜋#
)
, 𝜋6
)
= max
$(∈8(
E
𝑣#
=>?
(𝜋#, 𝜋6
)
) + max
$*∈8*
E
𝑣6
=>?
(𝜋#
)
, 𝜋6)

推定誤差
■ 3
𝑄のerrorなどに仮定を置くと，真のexploitabilityに対する推定誤差は，以下で抑えられる
𝑣8
9:;
𝜋#
)
, 𝜋6
)
− E
𝑣=>?
9:;
𝜋#
)
, 𝜋6
)
≤ 𝑂3 𝜅 Π
Υ=>?
∗
𝑛
,
Υ=>?
∗
= sup
$(,$*∈8
𝐸$(,$*
V
!%#
&
𝛾!'# 𝜇! 𝑟! − 𝑄 𝑠!, 𝑎! + 𝜇!'#𝑉 𝑠!
6
■ 提案推定量がexploitabilityに対する 𝑛-consistentな推定量であることを意味

推定誤差
■ 3
𝑄のerrorなどに仮定を置くと，真のexploitabilityに対する推定誤差は，以下で抑えられる
𝑣8
9:;
𝜋#
)
, 𝜋6
)
− E
𝑣=>?
9:;
𝜋#
)
, 𝜋6
)
≤ 𝑂3 𝜅 Π
Υ=>?
∗
𝑛
,
Υ=>?
∗
= sup
$(,$*∈8
𝐸$(,$*
V
!%#
&
𝛾!'# 𝜇! 𝑟! − 𝑄 𝑠!, 𝑎! + 𝜇!'#𝑉 𝑠!
6
■ 提案推定量がexploitabilityに対する 𝑛-consistentな推定量であることを意味
割引報酬和の推定量の分散が⼩さいほど⼩さいエラーになる
→割引報酬和の推定量の分散を⼩さくすることが重要

最良な⽅策選択
■ ここからは，ある⽅策の組の候補集合の
中から，最良の⽅策の組を選ぶ問題を考
える
– オフ⽅策評価の最も典型的な使い⽅
の⼀つ
– 差し替えたい意思決定モデルの候補
が複数あるんだけど，どれを選べば
良いのかわからないときに有効
■ 最良な⽅策の学習という観点で，
Batch RLの⼀種と考えることも可能
既存の意思決定モデル
新しい意思決定モデルの候補
この中のどれかのモデルと
既存モデルを⼊れ替えたいけど，
どれが良いかわからない．．．

提案⼿法
■ 問題設定
– 既存⽅策の組 (𝜋(
)
, 𝜋*
)
)によるデータ𝐷をもとに，⽅策の組の候補集合Π =
Π(×Π*の中からexploitabilityを最⼩とする⽅策の組を選択
𝜋(
∗
, 𝜋*
∗
= arg min
,",,#∈."×.#
𝑣.
012
𝜋(, 𝜋*
■ 提案⼿法
– 提案したexploitability推定量による推定値を最⼩とするような⽅策の組を選択
?
𝜋(
34
, ?
𝜋*
34
= arg min
,",,#∈."×.#
?
𝑣34
012
𝜋(, 𝜋*
?
𝜋(
345
, ?
𝜋*
345
= arg min
,",,#∈."×.#
?
𝑣345
012
𝜋(, 𝜋*

選択された⽅策の良さ
■ 提案⼿法によって選択された⽅策の組のexploitabilityは
𝑣9:; E
𝜋#
=>?
, E
𝜋6
=>?
− 𝑣9:; 𝜋#
∗
, 𝜋6
∗
≤ 𝑂3 𝜅 Π
Υ=>?
∗
𝑛
,
Υ=>?
∗
= sup
$(,$*∈8
𝐸$(,$*
V
!%#
&
𝛾!'# 𝜇! 𝑟! − 𝑄 𝑠!, 𝑎! + 𝜇!'#𝑉 𝑠!
6
■ 提案⼿法が最⼩のexploitabilityを持つ⽅策の組に対する⽅策の組を選択できるこ
とを意味

まとめ
■ オフ⽅策評価は意思決定モデルを実世界にデプロイする前に事前評価することが可能
■ オフ⽅策評価に関して様々な研究がなされているが，マルチエージェント環境での性
能評価に焦点を当てた研究はほぼなかった
■ Exploitabilityを推定することでマルチエージェント環境の⽅策を評価する推定量を提案
■ Exploitabilityの推定量をもとに候補の中から最良の⽅策を選択する⼿法を提案

ご静聴ありがとうございました︕

Exploitability推定量のパフォーマンス
■ 割引報酬和の推定量をISやMIS，DMと置き換えた場合の性能を⽐較
■ DR，DRLを割引報酬和の推定量として⽤いる⽅が推定誤差が⼩さくなった
re 1: (a) Payo� matrices and a state transition graph in repeated biased rock-paper-scissors. When the result at the �rst
is a draw, the payo� matrix at the second step will be the gray one. When either player wins by rock/paper/scissors, the
o� matrix at the next step will be the blue/red/green one. (b) An initial board in Markov soccer.
onventional rock-paper-scissors game. Figure 1 (a) shows the
� matrices and the state transition graph of RBRPS2. In the
step, the payo� matrix is the same as in the conventional rock-
r-scissors game. Depending on the result of the one-shot game,
ext state and the payo� matrix transition. There are �ve states
BRPS2, and each state corresponds to each payo� matrix.
arkov soccer is a 1 vs 1 soccer game on a 4 ⇥ 5 grid , as shown
gure 1 (b). A and B denote players 1 and 2, respectively, and
ircle in the �gure represents the ball. In each turn, each player
move to one of the neighboring cells or stay in place, and the
ns of the two players are executed in random order. When a
er tries to move to the cell occupied by the other player, the
possession goes to the stationary player, and the positions
th players remain unchanged. When the player with the ball
hes the goal (right of cell 10 or 15 for A, left of cell 6 or 11 for
e game is over. At this time, the player receives a reward of +1,
he opponent receives a reward of 1. The player’s positions
he ball’s possession are initialized as shown in Figure 1 (b).
Table 1: O�-policy exploitability evaluation in RBRPS1:
RMSE.
# Ê
exp
IS Ê
exp
MIS Ê
exp
DM Ê
exp
DR Ê
exp
DRL
250 0.085 0.232 4.8 ⇥ 10 3 3.6 ⇥ 10 3 4.5 ⇥ 10 3
500 0.065 0.230 6.9 ⇥ 10 5 3.6 ⇥ 10 5 6.1 ⇥ 10 5
1000 0.044 0.226 2.9 ⇥ 10 9 1.1 ⇥ 10 9 2.5 ⇥ 10 9
Table 2: O�-policy exploitability evaluation in RBRPS2:
RMSE.
# Ê
exp
IS Ê
exp
MIS Ê
exp
DM Ê
exp
DR Ê
exp
DRL
250 36.6 11.3 7.07 8.98 6.52
500 21.7 11.2 6.04 6.10 5.56
1000 15.5 11.1 4.87 4.33 4.39

⽅策選択⼿法のパフォーマンス
■ 同じくIS，MIS，DMと置き換えた場合の性能を⽐較
■ 各⼿法が選択した⽅策を戦わせることで強さを計測
■ DR，DRLを⽤いた場合がIS，MIS，DMよりも強くなった
Table 3: Best evaluation policy pro�le selection in RBRPS: Exploitability (and standard errors).
c1 ĉIS ĉMIS ĉDM ĉDR ĉDRL
RBRPS1 1.00 0.236(0.04) 0.738(0.05) 0.058(0.01) 0.036(0.01) 0.054(0.01)
RBRPS2 39.6 29.2(5.12) 37.4(4.33) 22.5(2.49) 20.5(0.66) 19.4(0.45)
Table 4: Best evaluation policy pro�le selection in Markov soccer: Win rate ⇥100 (and standard errors).
Player 2
c1
2 ĉIS
2 ĉMIS
2 ĉDM
2 ĉDR
2 ĉDRL
2
Player
1
c1
1 48.9(0.52) 31.7(9.5) 54.2(10.7) 18.2(3.4) 22.6(3.6) 15.6(0.9)
ĉIS
1 81.2(3.0) 54.9(7.9) 74.9(8.0) 46.8(6.0) 53.5(5.3) 44.7(4.7)
ĉMIS
1 88.1(1.6) 65.5(6.2) 79.7(6.4) 57.8(3.7) 63.2(5.0) 55.5(3.0)
ĉDM
1 88.8(3.1) 65.5(6.7) 81.3(6.2) 58.3(6.0) 67.0(4.5) 56.7(4.9)
ĉDR
1 89.0(3.0) 70.0(5.5) 82.0(5.6) 60.8(5.8) 66.2(6.0) 57.5(4.1)
ĉDRL
1 92.2(1.5) 69.8(5.9) 82.5(5.8) 63.6(4.5) 71.0(5.1) 62.4(3.2)
Table 3 shows the exploitability of each selected policy pro�le
in RBRPS1 and RBRPS2. We �nd that all selected policies are better
than the behavior policy pro�le. Again, bold font indicates the best
policy pro�le in each case. Notably, ĉDR and ĉDRL outperform the
data. In contrast, our study uses the historical data to estimate the
exploitability of a given policy pro�le.
MARL in Markov games has been studied extensively in the
literature [2, 8, 18, 27, 28, 53]. Most existing studies on MARL focus

二人零和マルコフゲームにおけるオフ方策評価

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 二人零和マルコフゲームにおけるオフ方策評価

Similar to 二人零和マルコフゲームにおけるオフ方策評価 (17)

More from Kenshi Abe

More from Kenshi Abe (7)

Recently uploaded

Recently uploaded (20)

二人零和マルコフゲームにおけるオフ方策評価