SlideShare a Scribd company logo
1 of 40
Download to read offline
⼆⼈零和マルコフゲームにおけるオフ⽅策評価
“OFF-POLICY EXPLOITABILITY-EVALUATION IN TWO-
PLAYER ZERO-SUM MARKOV GAMES”
株式会社サイバーエージェント
AI事業本部 AI Lab
阿部拳之
2021/05/27
⾃⼰紹介
■ 名前
– 阿部 拳之(あべ けんし)
– @bakanaouji(ばかなおうじ)
■ 経歴
– 東京⼯業⼤学総合理⼯学研究科知能システム科学専攻(〜2017年)
■ 強化学習×進化計算をメインに研究
– 株式会社ハル研究所(2017年〜2018年)
■ ゲームプログラマー
– 株式会社サイバーエージェント AI事業本部 AILab(2018年〜)
■ 強化学習チーム・チームリーダー
■ マルチエージェント強化学習・オフラインRLについて研究
今回の発表
■ 題⽬︓Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games
■ 著者︓Kenshi Abe, Yusuke Kaneko (CyberAgent, Inc.)
■ ひとことでいうと
– 複数の意思決定者が存在する環境における意思決定モデルの事前評価⼿法を提案
導⼊
意思決定の⾃動化
■ 実世界における意思決定を⾃動化しようという試みは今や当たり前の様に⾏わ
れている
– ルールベースで意思決定を分岐
– 機械学習モデルの予測を⽤いて意思決定
■ 例えば・・・
– ⾃動運転
– Web広告配信
– リコメンドシステム
– ゲームAI
意思決定モデル
意思決定モデルの⼊れ替え
■ 意思決定モデルをリニューアルし,既
存モデルと⼊れ替えることはよくある
– 学習⽤データを新しくして再学習
– SOTAのモデルを⽤いるようにする
■ しかし性能の悪い意思決定モデルを本
番環境にデプロイすることにリスクが
伴うことがある
→本番環境にデプロイする前に事前に性
能を評価したい
意思決定モデル
新しい意思決定モデル
モデルを⼊れ替えたい
意思決定モデルの⼊れ替え
新しい意思決定モデル
■ 意思決定モデルをリニューアルし,既
存モデルと⼊れ替えることはよくある
– 学習⽤データを新しくして再学習
– SOTAのモデルを⽤いるようにする
■ しかし性能の悪い意思決定モデルを本
番環境にデプロイすることにリスクが
伴うことがある
→本番環境にデプロイする前に事前に性
能を評価したい
意思決定モデルの⼊れ替え
意思決定モデル
新しい意思決定モデル
■ 意思決定モデルをリニューアルし,既
存モデルと⼊れ替えることはよくある
– 学習⽤データを新しくして再学習
– SOTAのモデルを⽤いるようにする
■ しかし性能の悪い意思決定モデルを本
番環境にデプロイすることにリスクが
伴うことがある
→本番環境にデプロイする前に事前に性
能を評価したい
事前に評価︕
既存モデルより
評価が良かったら
差し替え
or ?
オフ⽅策評価
■ どうやって新しい意思決定モデルを
事前評価するのか︖
– 幸いなことに,既存の意思決
定モデルは既にデプロイされ
て意思決定を⾏っている
– そのログが残されていれば,
事前評価に使える︖︖
■ オフ⽅策評価
– 既存の意思決定モデルによっ
て蓄積されたデータを⽤いて,
新しいモデルを評価する問題
新しい意思決定モデル
ログデータ
インタラクション
実環境 既存の意思決定モデル
事前に評価︕
Notation
これ以降では,強化学習的なnotationを⽤いる
※ただし,意思決定は時刻𝑡 = 1から𝑇までの𝑇回⾏うとする
■ 状態𝑠︓意思決定する際に観測する状態
■ ⾏動𝑎︓選択される⾏動
■ 報酬𝑟︓取った⾏動に対して与えられる利益
■ ⽅策𝜋 𝑎 𝑠 ︓状態𝑠に対してどの⾏動を選択するかを決定する確率分布(意思決定モデル)
Notation
■ 意思決定者と環境は時刻𝑡 = 1から𝑇まで以下のようなインタラクションを⾏う
1. 意思決定者は状態𝑠!を観測し,⽅策𝜋! 𝑎! 𝑠! から⾏動𝑎!を決定する
2. 状態𝑠!と⾏動𝑎!をもとに,意思決定者に対して報酬𝑟!が与えられる
3. 状態𝑠!と⾏動𝑎!をもとに,状態が𝑠!"#へと遷移する
※この研究では,状態遷移や報酬が,現在の時刻の状態と⾏動にのみ依存して決まると
仮定(マルコフ決定過程)
st
at
rt
Notation
■ 強化学習における⽅策の評価
– 割引報酬和 𝑣 𝜋 = 𝐸$ ∑!%#
&
𝛾!'#𝑟!
■ ⽅策𝜋を⽤いた場合にもらえる期待報酬和
– 状態価値 𝑉! 𝑠! = 𝐸$ ∑!%(
&
𝛾!'(𝑟! 𝑠!
■ ある状態𝑠!からスタートした時にもらえる期待報酬和
– 状態⾏動価値 𝑄! 𝑠!, 𝑎! = 𝐸 𝑟! + 𝛾𝑉!"# 𝑠!"# 𝑠!, 𝑎!
■ ある状態𝑠!においてある⾏動𝑎!をとった後にもらえる期待報酬和
■ オフ⽅策評価では, 新しい⽅策𝜋)の割引報酬和𝑣 𝜋) = 𝐸$! ∑!%#
&
𝛾!'#𝑟! を推定すること
を⽬的とする
オフ⽅策評価の定式化
1. 既存の意思決定⽅策𝜋!からログデータ
𝐷 = (𝑠",$, 𝑎",$, , 𝑟",$, ⋯ , 𝑠",%, 𝑎",%, 𝑟",%) "&$
'
が得られている
2. 評価したい⽅策𝜋(の性能(割引報酬)
をログデータ𝐷から推定
𝑣 𝜋(
= E)! -
*&$
%
𝛾*+$
𝑟*
ログデータ𝐷
インタラクション
実環境 既存⽅策𝜋"
新しい⽅策𝜋#
𝑣 𝜋# を推定︕
(𝑠!,#, 𝑎!,#, , 𝑟!,#, ⋯ , 𝑠!,$, 𝑎!,$, 𝑟!,$)
代表的なオフ⽅策評価
⼿法
Direct Method (DM)
■ 何らかのモデルで𝑉#(𝑠#)を予測するモデル3
𝑉#(𝑠#)を学習し,それを⽤いて推定
!
𝑣45
𝜋6
= 𝐸7
&
𝑉8(𝑠8)
– 𝐸* 𝑓(𝑋) =
#
+
∑,%#
+
𝑓(𝑥,)︓データ𝐷上の平均値とする
■ 3
𝑉#(𝑠#)の推定がうまくいけば良い精度の推定ができる
■ しかし, 3
𝑉#(𝑠#)が全然だめなら当然ひどい推定になる
Importance Sampling (IS)
■ ⽅策の密度⽐を⽤いることで𝜋-によるバイアスを除去
!
𝑣=>
𝜋6
= 𝐸7 +
?@8
A
𝛾?B8
!
𝜌?𝑟?
– 𝜌! = ∏(%#
! $$
!
(/$|1$)
$$
%(/$|1$)
︓⽅策の密度⽐の積
– E
𝜌!︓𝜌!の推定量
■ E
𝜌! = 𝜌!の場合(𝜋-の確率分布が既知の場合),unbiasedな推定が可能
■ その⼀⽅で,𝑇に対して分散が指数関数的に増加する
Marginalized Importance Sampling (MIS)
■ 環境がマルコフ決定過程の場合に適⽤可能なIS-typeの推定量
!
𝑣!"# 𝜋$ = 𝐸% &
&'(
)
𝛾&*( ̂
𝜇&𝑟&
– 𝑝!
$(𝑠!, 𝑎!)︓⽅策𝜋に従った場合に時刻𝑡に状態⾏動(𝑠!, 𝑎!)が発⽣する周辺分
布
– 𝜇! =
3&
'!
(1&,/&)
3&
'%
(1&,/&)
︓状態⾏動(𝑠!, 𝑎!)の周辺分布の密度⽐
– E
𝜇!︓𝜇!の推定量
■ E
𝜇! = 𝜇!の場合,unbiasedな推定が可能
■ マルコフ決定過程の構造を利⽤しているので,分散の𝑇に関する依存性を軽減
Doubly Robust (DR) [Jiang and Li 2016]
■ DMとISのいいとこ取りをしたような推定量
!
𝑣+,
𝜋$
= 𝐸% &
&'(
)
𝛾&*(
!
𝜌&
*- .
𝑟& − -
𝑄&
*- .
+ !
𝜌&*(
*- . -
𝑉
&
*- .
– E
𝜌!, 3
𝑄!, 3
𝑉! ︓それぞれ𝜌!, 𝑄!, 𝑉!の推定量
■ E
𝜌!もしくは 3
𝑄!, 3
𝑉! のどちらかの推定が完璧であればunbiased
■ ISよりも分散が⼩さくなる
Double Reinforcement Learning
[Kallus and Uehara 2019]
■ DMとMISのいいとこ取りをしたような推定量
!
𝑣+,/
𝜋$
= 𝐸% &
&'(
)
𝛾&*(
̂
𝜇&
*- .
𝑟& − -
𝑄&
*- .
+ ̂
𝜇&*(
*- . -
𝑉
&
*- .
– E
𝜇!, 3
𝑄!, 3
𝑉! ︓それぞれ𝜇!, 𝑄!, 𝑉!の推定量
■ E
𝜇!もしくは 3
𝑄!, 3
𝑉! のどちらかの推定が完璧であればunbiased
■ MDPにおいて分散が最⼩となる
代表的なオフ⽅策評価⼿法まとめ
■ DM
– /
𝑉$(𝑠$)の推定がうまくいけば良い精度の
推定ができる
– しかし, /
𝑉$(𝑠$)が全然だめなら当然ひど
い推定になる
■ IS
– 𝜋!の確率分布が既知の場合,unbiasedな
推定が可能
– その⼀⽅で,𝑇に対して分散が指数関数的
に増加する
■ MIS
– マルコフ決定過程の構造を利⽤して,分
散の𝑇に関する依存性を軽減
■ DR
– 2
𝜌*もしくは /
𝑄*, /
𝑉* のどちらかの推定が完璧
であればunbiased
– ISよりも分散が⼩さくなる
■ DRL
– ̂
𝜇*もしくは /
𝑄*, /
𝑉* のどちらかの推定が完璧
であればunbiased
– MDPにおいて分散が最⼩となる
オフ⽅策評価研究の課題
■ 環境には意思決定者が1⼈しか存在しない(シングルエージェント環境)ことを前
提としている
■ では意思決定者が複数存在するような環境(マルチエージェント環境)では︖
マルチエージェント環境における意思決定モデルの評価に焦点を当てた研究は⾏われて
いない
→マルチエージェント環境におけるオフ⽅策評価⽅法を提案するのが,この研究の⽬的
マルチエージェント環境
におけるオフ⽅策評価
マルチエージェント環境とは︖
■ ここでは,𝑁⼈の意思決定者が存在していて,それぞれが⽅策𝜋#, ⋯ , 𝜋5に従ってい
るような環境と定義
■ マルチエージェント環境では,時刻𝑡 = 1から𝑇まで以下のような流れを繰り返す
1. 各意思決定者𝑖 ∈ 𝑁は状態𝑠!を観測し,⽅策𝜋, 𝑎!
, 𝑠! から⾏動𝑎!
,を決定する
2. 状態𝑠!と⾏動の組(𝑎!
,, ⋯ , 𝑎!
5)をもとに,各意思決定者𝑖に対して報酬𝑟!
,が与えら
れる
3. 状態𝑠!と⾏動の組(𝑎!
,, ⋯ , 𝑎!
5)をもとに,状態が𝑠!"#へと遷移する
⼆⼈零和マルコフゲーム
■ 意思決定者の数が⼆⼈(𝑁 = 2)
■ ⽚⽅の報酬が𝑟!
# = 𝑟!のとき,もう⽚⽅の報酬は𝑟!
6 = −𝑟!
として与えられる(敵対的な設定)
■ 状態遷移や報酬が,現在の時刻の状態と⾏動にのみ依存
して決まる(マルコフ性)
■ この研究では,単純なマルチプレイヤ環境である⼆⼈零
和マルコフゲームでのオフ⽅策評価について検討
対戦ゲーム
⽅策 A vs ⽅策 B
プレイヤA
を操作
プレイヤB
を操作
マルチエージェント環境における⽅
策評価の難しさ
■ シングルエージェント環境との違いは,ただ単に意思決定者の数が増えただけなので,
各意思決定者𝑖の割引報酬和も同様に定義ができる
𝑣, 𝜋#
)
, ⋯ , 𝜋5
)
= 𝐸$(
!,⋯,$)
! [V
!%#
&
𝛾!'#𝑟!
,]
■ それなら,シングルエージェントの時と同じで割引報酬和を推定すればよいのでは︖
※おさらい︓シングルエージェント環境では,割引報酬和を推定することで⽅策𝜋)を評価
𝑣 𝜋) = E$![V
!%#
&
𝛾!'#𝑟!]
マルチエージェント環境における⽅
策評価の難しさ
■ しかしマルチエージェントの場合は︖︖
– 基本的に全意思決定者の⽅策をすべて⾃分で決め
られることは稀
– ⾃分以外の意思決定者の⽅策がわからない(⽅策
を変えてくる可能性も)
– 特定の⽅策の組み合わせに対する割引報酬和を推
定することはあまり意味がない
𝑣, 𝜋#
)
, ⋯ , 𝜋5
)
= 𝐸$(
!,⋯,$)
! [V
!%#
&
𝛾!'#𝑟!
,]
– どうやって⽅策の良さを評価する︖︖
対戦ゲーム
⽅策 A vs ⽅策 ?
プレイヤA
を操作
プレイヤB
を操作
どんな相⼿と戦うのか
わかんない...
Exploitability
■ ⽅策の組の評価⽅法
– ⽅策の割引報酬和で評価する代わりに,exploitabilityによって評価する
■ Exploitability
– ⼆⼈零和ゲームにおいて,ナッシュ均衡との近さを定義する指標
𝑣8
9:;
𝜋#
)
, 𝜋6
)
= max
$(∈8(
𝑣#(𝜋#, 𝜋6
)
) + max
$*∈8*
𝑣6(𝜋#
)
, 𝜋6)
■ Exploitabilityは0以上の値を取る
■ ⼩さいほどナッシュ均衡に近い(ナッシュ均衡のexploitabilityは0)
– 最悪の相⼿に対しての割引報酬和をどれだけ最⼤化できているか,という尺度
■ 直感的には,exploitabilityが低い
=どんな相⼿に対しても⼀定以上⾼い割引報酬和が達成できる
=良い⽅策,として捉えられる
⼆⼈零和マルコフゲームにおけるオ
フ⽅策評価の定式化
1. 既存の意思決定⽅策の組 (𝜋$
!
, 𝜋,
!
)からロ
グデータ𝐷が得られている
2. 評価したい⽅策の組 (𝜋$
(
, 𝜋,
(
)の性能
(exploitability)をログデータ𝐷から推定
𝑣-
./0
𝜋$
(
, 𝜋,
(
= max
)"∈-"
𝑣$(𝜋$, 𝜋,
(
) + max
)#∈-#
𝑣,(𝜋$
(
, 𝜋,)
※プレイヤ1として意思決定する場合とプレ
イヤ2として意思決定する場合のケースを考
えたいので,⽅策の組を評価することに注意
ログデータ𝐷
インタラクション
実環境
新しい⽅策の組 𝜋+
#
, 𝜋,
#
𝑣-./ 𝜋+
#
, 𝜋,
#
を推定︕
(𝑠!,#, 𝑎!,#, , 𝑟!,#, ⋯ , 𝑠!,$, 𝑎!,$, 𝑟!,$)
既存⽅策𝜋+
"
vs 既存⽅策𝜋,
"
提案推定量
■ まず,プレイヤ1の割引報酬和に対するDR,DRL推定量を構築
E
𝑣#
=> 𝜋#
)
, 𝜋6
)
= 𝐸* V
!%#
&
𝛾!'# E
𝜌!
'( ,
𝑟! − 3
𝑄#,!
'( ,
+ E
𝜌!'#
'( , 3
𝑉
#,!
'( ,
E
𝑣#
=>? 𝜋#
)
, 𝜋6
)
= 𝐸* V
!%#
&
𝛾!'# E
𝜇!
'( ,
𝑟! − 3
𝑄#,!
'( ,
+ E
𝜇!'#
'( , 3
𝑉
#,!
'( ,
■ この推定量に基づいてexploitabilityを推定
E
𝑣=>
9:;
𝜋#
)
, 𝜋6
)
= max
$(∈8(
E
𝑣#
=>
(𝜋#, 𝜋6
)
) + max
$*∈8*
E
𝑣6
=>
(𝜋#
)
, 𝜋6)
E
𝑣=>?
9:;
𝜋#
)
, 𝜋6
)
= max
$(∈8(
E
𝑣#
=>?
(𝜋#, 𝜋6
)
) + max
$*∈8*
E
𝑣6
=>?
(𝜋#
)
, 𝜋6)
推定誤差
■ 3
𝑄のerrorなどに仮定を置くと,真のexploitabilityに対する推定誤差は,以下で抑えられる
𝑣8
9:;
𝜋#
)
, 𝜋6
)
− E
𝑣=>?
9:;
𝜋#
)
, 𝜋6
)
≤ 𝑂3 𝜅 Π
Υ=>?
∗
𝑛
,
Υ=>?
∗
= sup
$(,$*∈8
𝐸$(,$*
V
!%#
&
𝛾!'# 𝜇! 𝑟! − 𝑄 𝑠!, 𝑎! + 𝜇!'#𝑉 𝑠!
6
■ 提案推定量がexploitabilityに対する 𝑛-consistentな推定量であることを意味
推定誤差
■ 3
𝑄のerrorなどに仮定を置くと,真のexploitabilityに対する推定誤差は,以下で抑えられる
𝑣8
9:;
𝜋#
)
, 𝜋6
)
− E
𝑣=>?
9:;
𝜋#
)
, 𝜋6
)
≤ 𝑂3 𝜅 Π
Υ=>?
∗
𝑛
,
Υ=>?
∗
= sup
$(,$*∈8
𝐸$(,$*
V
!%#
&
𝛾!'# 𝜇! 𝑟! − 𝑄 𝑠!, 𝑎! + 𝜇!'#𝑉 𝑠!
6
■ 提案推定量がexploitabilityに対する 𝑛-consistentな推定量であることを意味
割引報酬和の推定量の分散が⼩さいほど⼩さいエラーになる
→割引報酬和の推定量の分散を⼩さくすることが重要
最良な⽅策選択
最良な⽅策選択
■ ここからは,ある⽅策の組の候補集合の
中から,最良の⽅策の組を選ぶ問題を考
える
– オフ⽅策評価の最も典型的な使い⽅
の⼀つ
– 差し替えたい意思決定モデルの候補
が複数あるんだけど,どれを選べば
良いのかわからないときに有効
■ 最良な⽅策の学習という観点で,
Batch RLの⼀種と考えることも可能
既存の意思決定モデル
新しい意思決定モデルの候補
この中のどれかのモデルと
既存モデルを⼊れ替えたいけど,
どれが良いかわからない...
提案⼿法
■ 問題設定
– 既存⽅策の組 (𝜋(
)
, 𝜋*
)
)によるデータ𝐷をもとに,⽅策の組の候補集合Π =
Π(×Π*の中からexploitabilityを最⼩とする⽅策の組を選択
𝜋(
∗
, 𝜋*
∗
= arg min
,",,#∈."×.#
𝑣.
012
𝜋(, 𝜋*
■ 提案⼿法
– 提案したexploitability推定量による推定値を最⼩とするような⽅策の組を選択
?
𝜋(
34
, ?
𝜋*
34
= arg min
,",,#∈."×.#
?
𝑣34
012
𝜋(, 𝜋*
?
𝜋(
345
, ?
𝜋*
345
= arg min
,",,#∈."×.#
?
𝑣345
012
𝜋(, 𝜋*
選択された⽅策の良さ
■ 提案⼿法によって選択された⽅策の組のexploitabilityは
𝑣9:; E
𝜋#
=>?
, E
𝜋6
=>?
− 𝑣9:; 𝜋#
∗
, 𝜋6
∗
≤ 𝑂3 𝜅 Π
Υ=>?
∗
𝑛
,
Υ=>?
∗
= sup
$(,$*∈8
𝐸$(,$*
V
!%#
&
𝛾!'# 𝜇! 𝑟! − 𝑄 𝑠!, 𝑎! + 𝜇!'#𝑉 𝑠!
6
■ 提案⼿法が最⼩のexploitabilityを持つ⽅策の組に対する⽅策の組を選択できるこ
とを意味
まとめ
■ オフ⽅策評価は意思決定モデルを実世界にデプロイする前に事前評価することが可能
■ オフ⽅策評価に関して様々な研究がなされているが,マルチエージェント環境での性
能評価に焦点を当てた研究はほぼなかった
■ Exploitabilityを推定することでマルチエージェント環境の⽅策を評価する推定量を提案
■ Exploitabilityの推定量をもとに候補の中から最良の⽅策を選択する⼿法を提案
ご静聴ありがとうございました︕
付録
Exploitability推定量のパフォーマンス
■ 割引報酬和の推定量をISやMIS,DMと置き換えた場合の性能を⽐較
■ DR,DRLを割引報酬和の推定量として⽤いる⽅が推定誤差が⼩さくなった
re 1: (a) Payo� matrices and a state transition graph in repeated biased rock-paper-scissors. When the result at the �rst
is a draw, the payo� matrix at the second step will be the gray one. When either player wins by rock/paper/scissors, the
o� matrix at the next step will be the blue/red/green one. (b) An initial board in Markov soccer.
onventional rock-paper-scissors game. Figure 1 (a) shows the
� matrices and the state transition graph of RBRPS2. In the
step, the payo� matrix is the same as in the conventional rock-
r-scissors game. Depending on the result of the one-shot game,
ext state and the payo� matrix transition. There are �ve states
BRPS2, and each state corresponds to each payo� matrix.
arkov soccer is a 1 vs 1 soccer game on a 4 ⇥ 5 grid , as shown
gure 1 (b). A and B denote players 1 and 2, respectively, and
ircle in the �gure represents the ball. In each turn, each player
move to one of the neighboring cells or stay in place, and the
ns of the two players are executed in random order. When a
er tries to move to the cell occupied by the other player, the
possession goes to the stationary player, and the positions
th players remain unchanged. When the player with the ball
hes the goal (right of cell 10 or 15 for A, left of cell 6 or 11 for
e game is over. At this time, the player receives a reward of +1,
he opponent receives a reward of 1. The player’s positions
he ball’s possession are initialized as shown in Figure 1 (b).
Table 1: O�-policy exploitability evaluation in RBRPS1:
RMSE.
# Ê
exp
IS Ê
exp
MIS Ê
exp
DM Ê
exp
DR Ê
exp
DRL
250 0.085 0.232 4.8 ⇥ 10 3 3.6 ⇥ 10 3 4.5 ⇥ 10 3
500 0.065 0.230 6.9 ⇥ 10 5 3.6 ⇥ 10 5 6.1 ⇥ 10 5
1000 0.044 0.226 2.9 ⇥ 10 9 1.1 ⇥ 10 9 2.5 ⇥ 10 9
Table 2: O�-policy exploitability evaluation in RBRPS2:
RMSE.
# Ê
exp
IS Ê
exp
MIS Ê
exp
DM Ê
exp
DR Ê
exp
DRL
250 36.6 11.3 7.07 8.98 6.52
500 21.7 11.2 6.04 6.10 5.56
1000 15.5 11.1 4.87 4.33 4.39
⽅策選択⼿法のパフォーマンス
■ 同じくIS,MIS,DMと置き換えた場合の性能を⽐較
■ 各⼿法が選択した⽅策を戦わせることで強さを計測
■ DR,DRLを⽤いた場合がIS,MIS,DMよりも強くなった
Table 3: Best evaluation policy pro�le selection in RBRPS: Exploitability (and standard errors).
c1 ĉIS ĉMIS ĉDM ĉDR ĉDRL
RBRPS1 1.00 0.236(0.04) 0.738(0.05) 0.058(0.01) 0.036(0.01) 0.054(0.01)
RBRPS2 39.6 29.2(5.12) 37.4(4.33) 22.5(2.49) 20.5(0.66) 19.4(0.45)
Table 4: Best evaluation policy pro�le selection in Markov soccer: Win rate ⇥100 (and standard errors).
Player 2
c1
2 ĉIS
2 ĉMIS
2 ĉDM
2 ĉDR
2 ĉDRL
2
Player
1
c1
1 48.9(0.52) 31.7(9.5) 54.2(10.7) 18.2(3.4) 22.6(3.6) 15.6(0.9)
ĉIS
1 81.2(3.0) 54.9(7.9) 74.9(8.0) 46.8(6.0) 53.5(5.3) 44.7(4.7)
ĉMIS
1 88.1(1.6) 65.5(6.2) 79.7(6.4) 57.8(3.7) 63.2(5.0) 55.5(3.0)
ĉDM
1 88.8(3.1) 65.5(6.7) 81.3(6.2) 58.3(6.0) 67.0(4.5) 56.7(4.9)
ĉDR
1 89.0(3.0) 70.0(5.5) 82.0(5.6) 60.8(5.8) 66.2(6.0) 57.5(4.1)
ĉDRL
1 92.2(1.5) 69.8(5.9) 82.5(5.8) 63.6(4.5) 71.0(5.1) 62.4(3.2)
Table 3 shows the exploitability of each selected policy pro�le
in RBRPS1 and RBRPS2. We �nd that all selected policies are better
than the behavior policy pro�le. Again, bold font indicates the best
policy pro�le in each case. Notably, ĉDR and ĉDRL outperform the
data. In contrast, our study uses the historical data to estimate the
exploitability of a given policy pro�le.
MARL in Markov games has been studied extensively in the
literature [2, 8, 18, 27, 28, 53]. Most existing studies on MARL focus

More Related Content

What's hot

機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)Junichiro Katsuta
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro幾何と機械学習: A Short Intro
幾何と機械学習: A Short IntroIchigaku Takigawa
 
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCHDeep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
[DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜
[DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜 [DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜
[DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜 Deep Learning JP
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)Masanori Yamada
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 

What's hot (20)

機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro
 
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
[DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜
[DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜 [DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜
[DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 

Similar to 二人零和マルコフゲームにおけるオフ方策評価

Score Week 5 Correlation and RegressionCorrelation and Regres.docx
Score Week 5 Correlation and RegressionCorrelation and Regres.docxScore Week 5 Correlation and RegressionCorrelation and Regres.docx
Score Week 5 Correlation and RegressionCorrelation and Regres.docxkenjordan97598
 
A PRACTICAL POWERFUL ROBUST AND INTERPRETABLE FAMILY OF CORRELATION COEFFICIE...
A PRACTICAL POWERFUL ROBUST AND INTERPRETABLE FAMILY OF CORRELATION COEFFICIE...A PRACTICAL POWERFUL ROBUST AND INTERPRETABLE FAMILY OF CORRELATION COEFFICIE...
A PRACTICAL POWERFUL ROBUST AND INTERPRETABLE FAMILY OF CORRELATION COEFFICIE...Savas Papadopoulos, Ph.D
 
Bootstrapping Entity Alignment with Knowledge Graph Embedding
Bootstrapping Entity Alignment with Knowledge Graph EmbeddingBootstrapping Entity Alignment with Knowledge Graph Embedding
Bootstrapping Entity Alignment with Knowledge Graph EmbeddingNanjing University
 
AI subject - Game Theory and cps ppt pptx
AI subject  - Game Theory and cps ppt pptxAI subject  - Game Theory and cps ppt pptx
AI subject - Game Theory and cps ppt pptxnizmishaik1
 
Machine learning introduction lecture notes
Machine learning introduction lecture notesMachine learning introduction lecture notes
Machine learning introduction lecture notesUmeshJagga1
 
State Space Search
State Space SearchState Space Search
State Space SearchJasmine Chen
 
Module 6: Ensemble Algorithms
Module 6:  Ensemble AlgorithmsModule 6:  Ensemble Algorithms
Module 6: Ensemble AlgorithmsSara Hooker
 
03-Data-Analysis-Final.pdf
03-Data-Analysis-Final.pdf03-Data-Analysis-Final.pdf
03-Data-Analysis-Final.pdfSugumarSarDurai
 
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)syou6162
 
20200510 37
20200510 3720200510 37
20200510 37X 37
 
CLanctot_DSlavin_JMiron_Stats415_Project
CLanctot_DSlavin_JMiron_Stats415_ProjectCLanctot_DSlavin_JMiron_Stats415_Project
CLanctot_DSlavin_JMiron_Stats415_ProjectDimitry Slavin
 
LECTURE_2_GAME_THEORY.pptx
LECTURE_2_GAME_THEORY.pptxLECTURE_2_GAME_THEORY.pptx
LECTURE_2_GAME_THEORY.pptxSANJAY CHRISTIAN
 
Minmax and alpha beta pruning.pptx
Minmax and alpha beta pruning.pptxMinmax and alpha beta pruning.pptx
Minmax and alpha beta pruning.pptxPriyadharshiniG41
 
Stability criterion of periodic oscillations in a (10)
Stability criterion of periodic oscillations in a (10)Stability criterion of periodic oscillations in a (10)
Stability criterion of periodic oscillations in a (10)Alexander Decker
 

Similar to 二人零和マルコフゲームにおけるオフ方策評価 (17)

CAGT-IST Student Presentations
CAGT-IST Student Presentations CAGT-IST Student Presentations
CAGT-IST Student Presentations
 
Score Week 5 Correlation and RegressionCorrelation and Regres.docx
Score Week 5 Correlation and RegressionCorrelation and Regres.docxScore Week 5 Correlation and RegressionCorrelation and Regres.docx
Score Week 5 Correlation and RegressionCorrelation and Regres.docx
 
A PRACTICAL POWERFUL ROBUST AND INTERPRETABLE FAMILY OF CORRELATION COEFFICIE...
A PRACTICAL POWERFUL ROBUST AND INTERPRETABLE FAMILY OF CORRELATION COEFFICIE...A PRACTICAL POWERFUL ROBUST AND INTERPRETABLE FAMILY OF CORRELATION COEFFICIE...
A PRACTICAL POWERFUL ROBUST AND INTERPRETABLE FAMILY OF CORRELATION COEFFICIE...
 
Golf Final Project 4.0
Golf Final Project 4.0Golf Final Project 4.0
Golf Final Project 4.0
 
Bootstrapping Entity Alignment with Knowledge Graph Embedding
Bootstrapping Entity Alignment with Knowledge Graph EmbeddingBootstrapping Entity Alignment with Knowledge Graph Embedding
Bootstrapping Entity Alignment with Knowledge Graph Embedding
 
AI subject - Game Theory and cps ppt pptx
AI subject  - Game Theory and cps ppt pptxAI subject  - Game Theory and cps ppt pptx
AI subject - Game Theory and cps ppt pptx
 
Machine learning introduction lecture notes
Machine learning introduction lecture notesMachine learning introduction lecture notes
Machine learning introduction lecture notes
 
State Space Search
State Space SearchState Space Search
State Space Search
 
Module 6: Ensemble Algorithms
Module 6:  Ensemble AlgorithmsModule 6:  Ensemble Algorithms
Module 6: Ensemble Algorithms
 
03-Data-Analysis-Final.pdf
03-Data-Analysis-Final.pdf03-Data-Analysis-Final.pdf
03-Data-Analysis-Final.pdf
 
Gradient Boosting
Gradient BoostingGradient Boosting
Gradient Boosting
 
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)
 
20200510 37
20200510 3720200510 37
20200510 37
 
CLanctot_DSlavin_JMiron_Stats415_Project
CLanctot_DSlavin_JMiron_Stats415_ProjectCLanctot_DSlavin_JMiron_Stats415_Project
CLanctot_DSlavin_JMiron_Stats415_Project
 
LECTURE_2_GAME_THEORY.pptx
LECTURE_2_GAME_THEORY.pptxLECTURE_2_GAME_THEORY.pptx
LECTURE_2_GAME_THEORY.pptx
 
Minmax and alpha beta pruning.pptx
Minmax and alpha beta pruning.pptxMinmax and alpha beta pruning.pptx
Minmax and alpha beta pruning.pptx
 
Stability criterion of periodic oscillations in a (10)
Stability criterion of periodic oscillations in a (10)Stability criterion of periodic oscillations in a (10)
Stability criterion of periodic oscillations in a (10)
 

More from Kenshi Abe

Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...Kenshi Abe
 
Deep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationDeep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationKenshi Abe
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~Kenshi Abe
 
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Kenshi Abe
 
Deep Q-learning from Demonstrations
Deep Q-learning from DemonstrationsDeep Q-learning from Demonstrations
Deep Q-learning from DemonstrationsKenshi Abe
 
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasMulti-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasKenshi Abe
 
Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradientsKenshi Abe
 

More from Kenshi Abe (7)

Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
 
Deep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationDeep Counterfactual Regret Minimization
Deep Counterfactual Regret Minimization
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
 
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
 
Deep Q-learning from Demonstrations
Deep Q-learning from DemonstrationsDeep Q-learning from Demonstrations
Deep Q-learning from Demonstrations
 
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasMulti-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
 
Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradients
 

Recently uploaded

MK KOMUNIKASI DATA (TI)komdat komdat.docx
MK KOMUNIKASI DATA (TI)komdat komdat.docxMK KOMUNIKASI DATA (TI)komdat komdat.docx
MK KOMUNIKASI DATA (TI)komdat komdat.docxUnduhUnggah1
 
GA4 Without Cookies [Measure Camp AMS]
GA4 Without Cookies [Measure Camp AMS]GA4 Without Cookies [Measure Camp AMS]
GA4 Without Cookies [Measure Camp AMS]📊 Markus Baersch
 
1:1定制(UQ毕业证)昆士兰大学毕业证成绩单修改留信学历认证原版一模一样
1:1定制(UQ毕业证)昆士兰大学毕业证成绩单修改留信学历认证原版一模一样1:1定制(UQ毕业证)昆士兰大学毕业证成绩单修改留信学历认证原版一模一样
1:1定制(UQ毕业证)昆士兰大学毕业证成绩单修改留信学历认证原版一模一样vhwb25kk
 
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degreeyuu sss
 
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...soniya singh
 
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)jennyeacort
 
RS 9000 Call In girls Dwarka Mor (DELHI)⇛9711147426🔝Delhi
RS 9000 Call In girls Dwarka Mor (DELHI)⇛9711147426🔝DelhiRS 9000 Call In girls Dwarka Mor (DELHI)⇛9711147426🔝Delhi
RS 9000 Call In girls Dwarka Mor (DELHI)⇛9711147426🔝Delhijennyeacort
 
Defining Constituents, Data Vizzes and Telling a Data Story
Defining Constituents, Data Vizzes and Telling a Data StoryDefining Constituents, Data Vizzes and Telling a Data Story
Defining Constituents, Data Vizzes and Telling a Data StoryJeremy Anderson
 
Customer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptxCustomer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptxEmmanuel Dauda
 
办理学位证中佛罗里达大学毕业证,UCF成绩单原版一比一
办理学位证中佛罗里达大学毕业证,UCF成绩单原版一比一办理学位证中佛罗里达大学毕业证,UCF成绩单原版一比一
办理学位证中佛罗里达大学毕业证,UCF成绩单原版一比一F sss
 
Kantar AI Summit- Under Embargo till Wednesday, 24th April 2024, 4 PM, IST.pdf
Kantar AI Summit- Under Embargo till Wednesday, 24th April 2024, 4 PM, IST.pdfKantar AI Summit- Under Embargo till Wednesday, 24th April 2024, 4 PM, IST.pdf
Kantar AI Summit- Under Embargo till Wednesday, 24th April 2024, 4 PM, IST.pdfSocial Samosa
 
Easter Eggs From Star Wars and in cars 1 and 2
Easter Eggs From Star Wars and in cars 1 and 2Easter Eggs From Star Wars and in cars 1 and 2
Easter Eggs From Star Wars and in cars 1 and 217djon017
 
RABBIT: A CLI tool for identifying bots based on their GitHub events.
RABBIT: A CLI tool for identifying bots based on their GitHub events.RABBIT: A CLI tool for identifying bots based on their GitHub events.
RABBIT: A CLI tool for identifying bots based on their GitHub events.natarajan8993
 
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...Sapana Sha
 
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一办理学位证纽约大学毕业证(NYU毕业证书)原版一比一
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一fhwihughh
 
IMA MSN - Medical Students Network (2).pptx
IMA MSN - Medical Students Network (2).pptxIMA MSN - Medical Students Network (2).pptx
IMA MSN - Medical Students Network (2).pptxdolaknnilon
 
From idea to production in a day – Leveraging Azure ML and Streamlit to build...
From idea to production in a day – Leveraging Azure ML and Streamlit to build...From idea to production in a day – Leveraging Azure ML and Streamlit to build...
From idea to production in a day – Leveraging Azure ML and Streamlit to build...Florian Roscheck
 
Advanced Machine Learning for Business Professionals
Advanced Machine Learning for Business ProfessionalsAdvanced Machine Learning for Business Professionals
Advanced Machine Learning for Business ProfessionalsVICTOR MAESTRE RAMIREZ
 

Recently uploaded (20)

MK KOMUNIKASI DATA (TI)komdat komdat.docx
MK KOMUNIKASI DATA (TI)komdat komdat.docxMK KOMUNIKASI DATA (TI)komdat komdat.docx
MK KOMUNIKASI DATA (TI)komdat komdat.docx
 
GA4 Without Cookies [Measure Camp AMS]
GA4 Without Cookies [Measure Camp AMS]GA4 Without Cookies [Measure Camp AMS]
GA4 Without Cookies [Measure Camp AMS]
 
1:1定制(UQ毕业证)昆士兰大学毕业证成绩单修改留信学历认证原版一模一样
1:1定制(UQ毕业证)昆士兰大学毕业证成绩单修改留信学历认证原版一模一样1:1定制(UQ毕业证)昆士兰大学毕业证成绩单修改留信学历认证原版一模一样
1:1定制(UQ毕业证)昆士兰大学毕业证成绩单修改留信学历认证原版一模一样
 
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree
 
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
 
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)
 
RS 9000 Call In girls Dwarka Mor (DELHI)⇛9711147426🔝Delhi
RS 9000 Call In girls Dwarka Mor (DELHI)⇛9711147426🔝DelhiRS 9000 Call In girls Dwarka Mor (DELHI)⇛9711147426🔝Delhi
RS 9000 Call In girls Dwarka Mor (DELHI)⇛9711147426🔝Delhi
 
Defining Constituents, Data Vizzes and Telling a Data Story
Defining Constituents, Data Vizzes and Telling a Data StoryDefining Constituents, Data Vizzes and Telling a Data Story
Defining Constituents, Data Vizzes and Telling a Data Story
 
Call Girls in Saket 99530🔝 56974 Escort Service
Call Girls in Saket 99530🔝 56974 Escort ServiceCall Girls in Saket 99530🔝 56974 Escort Service
Call Girls in Saket 99530🔝 56974 Escort Service
 
Customer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptxCustomer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptx
 
办理学位证中佛罗里达大学毕业证,UCF成绩单原版一比一
办理学位证中佛罗里达大学毕业证,UCF成绩单原版一比一办理学位证中佛罗里达大学毕业证,UCF成绩单原版一比一
办理学位证中佛罗里达大学毕业证,UCF成绩单原版一比一
 
Kantar AI Summit- Under Embargo till Wednesday, 24th April 2024, 4 PM, IST.pdf
Kantar AI Summit- Under Embargo till Wednesday, 24th April 2024, 4 PM, IST.pdfKantar AI Summit- Under Embargo till Wednesday, 24th April 2024, 4 PM, IST.pdf
Kantar AI Summit- Under Embargo till Wednesday, 24th April 2024, 4 PM, IST.pdf
 
Easter Eggs From Star Wars and in cars 1 and 2
Easter Eggs From Star Wars and in cars 1 and 2Easter Eggs From Star Wars and in cars 1 and 2
Easter Eggs From Star Wars and in cars 1 and 2
 
E-Commerce Order PredictionShraddha Kamble.pptx
E-Commerce Order PredictionShraddha Kamble.pptxE-Commerce Order PredictionShraddha Kamble.pptx
E-Commerce Order PredictionShraddha Kamble.pptx
 
RABBIT: A CLI tool for identifying bots based on their GitHub events.
RABBIT: A CLI tool for identifying bots based on their GitHub events.RABBIT: A CLI tool for identifying bots based on their GitHub events.
RABBIT: A CLI tool for identifying bots based on their GitHub events.
 
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
 
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一办理学位证纽约大学毕业证(NYU毕业证书)原版一比一
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一
 
IMA MSN - Medical Students Network (2).pptx
IMA MSN - Medical Students Network (2).pptxIMA MSN - Medical Students Network (2).pptx
IMA MSN - Medical Students Network (2).pptx
 
From idea to production in a day – Leveraging Azure ML and Streamlit to build...
From idea to production in a day – Leveraging Azure ML and Streamlit to build...From idea to production in a day – Leveraging Azure ML and Streamlit to build...
From idea to production in a day – Leveraging Azure ML and Streamlit to build...
 
Advanced Machine Learning for Business Professionals
Advanced Machine Learning for Business ProfessionalsAdvanced Machine Learning for Business Professionals
Advanced Machine Learning for Business Professionals
 

二人零和マルコフゲームにおけるオフ方策評価