SlideShare a Scribd company logo
1 of 39
Download to read offline
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
マルチエージェント強化学習と⼼の理論
〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント
強化学習⼿法〜
9/17 今井翔太 えるエル@ImAI_Eruel Matsuo Lab
書誌情報
マルチエージェント強化学習で「⼼の理論」と関連する(と主張する)研究の⼀部を紹介
1. The Hanabi Challenge: A New Frontier for AI Research
- 著者:Nolan Bard, , Jakob N. Foerster et al.
- arXiv:1902.00506
2. Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning
- 著者:Jakob N. Foerster, H. Francis Song et al.
- ICML2019
3. Simplified Action Decoder for Deep Multi-Agent Reinforcement Learning
- 著者:Hengyuan Hu, Jakob N Foerster
- ICLR2020
Shota Imai | The University of Tokyo
2
今⽇の発表について
n 「⼼の理論」という若⼲⼼理学・⼈⼀般の知能論っぽいタイトルがついていますが、今
回の発表で紹介する論⽂はベイズ推論でゴリゴリ計算する内容
n 時間の都合上、全ての話題を⼊れる余地がないので、メインの3論⽂以外は概要に触れ
る程度
n 数式はきれいに書く時間がなかったので、論⽂中の式の他、発表中に限り論⽂の著者の
講演スライドのものを⼀部借りています(あとで訂正します)
- 出典:https://www.youtube.com/watch?v=9qPhrEYIRF4&t=1988s
n ベンチマークのゲーム含め、聴き慣れない概念が多数登場しますが、「こんな話題があ
るのか」くらいに思ってもらえれば
Shota Imai | The University of Tokyo
3
発表者本⼈は
ベイズ弱者です
マルチエージェント強化学習(MARL; Multi-Agent Reinforcement
Learning)
n マルチエージェント分野の研究分野全体はマルチエージェントシステム(MAS)とよば
れる
n MASの中でもエージェントの「学習(機械学習)」に興味があるものはマルチエージェ
ント学習と呼ばれる分野
n マルチエージェント強化学習はマルチエージェント学習の中でもエージェントの学習ア
ルゴリズムとして強化学習を使っている⼿法
n 端的に⾔うと、環境中に学習するエージェントが複数いる環境における強化学習
- 囲碁や将棋などのボードゲームもMARLの⼀部
- 最近の例ではStarCraftのAlphaStarが有名
- なお、エージェントして⼈間を含んでも良い
Shota Imai | The University of Tokyo
4
注意 / MARLに特有の概念
(CTDE; Centralized Learning Distributed Execution 中央集権型学習分散型実⾏)
n 現在のMARLの最重要概念(だが、今回の発表の本質ではない)
n 後ほど、「学習中はお互いの⽅策は既知」、「2種類の⾏動のうち⼀つを他のエージェ
ントに送信」など、普通の設定では⾮現実的な概念が出てくるが、MARLではこのCTDE
の仮定を置いて許容している
n 中央集権型学習:学習時のみ,勾配を計算する時に全体のエージェントの情報を含む環
境の「中央の状態」を使う
n 分散型実⾏:テスト時には,各エージェントは⾃⾝の部分観測のみを⼊⼒として⽅策を
実⾏
n COMA[Foerster+ 2017]以降,特に⽤いられるアプローチで,
“in many cases, learning can take place in a simulator or a laboratory in which extra
state information is available and agents can communicate freely”(Foerster+ 2016)
つまり,「マルチエージェントの学習は,研究的な環境でシミュレータ等を使えるため,
学習を促進するために追加の状態の情報を使ってもよい」という仮定によるアプローチ
n 当然,本来エージェントが動作するテスト環境は,基本的に各エージェントが個別の観
測だけを受け取って強調しているため,状態の追加情報は使えない
Shota Imai | The University of Tokyo
5
マルチエージェント強化学習の課題
n 学習時の⾮定常性
- ⾃分以外のエージェントも⽅策を学習するので、普通に⽅策を更新しても最適⽅策への収束が
⾒込めない(他のエージェントの学習によって環境の挙動が変化)
n 不完全情報性
- ⾃分以外のエージェントに関して⾒えない情報が多く、エージェントが利⽤できる観測だけで
は学習の情報が不⾜
→学習時 or テスト時の推論で、⾃分以外のエージェントの意図を読むことができれば、こ
の辺の問題を軽減できる
Shota Imai | The University of Tokyo
6
他のエージェントの意図を「読む」⼿法の研究
n 他者モデリング(Opponent Modeling)
- 学習時の⾮定常性を解決するために使⽤されるのが主
- ⾃分以外のエージェントの⽅策をモデリングし、それを⾃分のモデルの⼊⼒とすることで、⾮
定常性を緩和
n ⼼の理論(Theory of Mind)
- 不完全情報ゲームなどで、推論時に相⼿がどのような意図を持っているか推定
Shota Imai | The University of Tokyo
7
⼼の理論
n 1978年霊⻑類学者David Premackが「チンパンジーは⼼の理論を持つか」という論⽂で
提唱した概念で、⾃分以外の他者の意図を適切に推測する能⼒
- ⾼度な知能を持ち、集団⽣活をするチンパンジーは他の仲間の⼼の状態を推測できるかもしれ
ないと考え、他者の⽬的、意図などが適切に推測できれば「⼼の理論を持つ」とした
- 「理論」という表現は、⼼の状態は直接⾒る(魔法!)ことができず、何らかの基礎的な法則、
経験則から物理法則のように推論に基づいて構成されることから
n 1983年のWimmer&Pernerは誤信念課題(後述)を⽤いて、⼈間の⼦供が、4~7歳にかけ
て⼼の理論を持つようになることを⽰した
n 最近、機械学習、特に複数エージェントが存在するマルチエージェント強化学習の分野
でこの概念と絡めた研究が複数発表されている
Shota Imai | The University of Tokyo
8
誤信念課題
n 通称「サリーとアン課題」と呼ばれる、
被験者に以下の展開を⾒せる
1. サリーがカゴにボールを⼊れる
2. サリーが部屋を去る
3. アンがサリーがいない間にカゴから箱の中にボールを移動させる
4. アンが帰ってくる
被験者に対し「このときアンはボールがどこにあると思っているか」
を問う
n アンが「カゴの中にボールがある」という誤った信念を持っている
ことを、被験者⾃⾝の知識と切り離して、アンの⼼を推論して
答える必要がある
n 4歳〜7歳にかけて正答率が向上
Shota Imai | The University of Tokyo
9
出典:https://en.wikipedia.org/wiki/File:Sally-Anne_test.jpg
機械学習の世界における⼼の理論
n 定義は完全に混沌としている
n 強化学習のみならず、⾃然⾔語処理、画像認識など様々な場⾯で⼿法を「⼼の理論」と関連
づけた例が多数
n マルチエージェント強化学習だけで⾒ても、⾮常に多様な⼿法に分類可能
n ⾃分以外のエージェントに関する、
- ⽅策
- 次の⾏動
- 以前の⾏動の意味
- RNN、LSTMなどの内部状態
- 相⼿の信念
- 不完全情報で隠されている特徴
を推論し、他のエージェントとの協調・競争に役⽴てる⼿法で、
学習時のみに興味がある→Opponent Modeling
テスト時にも興味あり→Theory of Mind
n かなり適当に⼈間の知能と結び付けて、論⽂の貢献のアピールに使われているっぽい例があ
るので、知能論と関連づけて考えすぎるのはNG
Shota Imai | The University of Tokyo
10
余談 /「⼼の理論」を安易に使って燃えた例
Shota Imai | The University of Tokyo
11
⼼の理論を適⽤する場合の問題点(⼈間の思考例)
n お互いに「相⼿の意図を読む」機能があることが既知だとした場合、無限に再起的な読
み合いが発⽣する
n 普通の場合(アリスだけが読む能⼒を持ち、ボブにはできないことを知っている)
- ボブ「(Aという⾏動をしよう)」
- アリス「(ボブはAという⾏動をするだろうからそれに強いBをしよう)」
n お互いに相⼿の⾏動を予測できる場合
- ボブ「(アリスは僕がAをすると思っているだろうからBを選ぶだろう。だからそれに強いCを
しよう」
- ボブ「いやだけど、アリスは僕がこんなことを考えているのも読んでいるだろうからCに強い
Dをしてくるかもしれない。Dに強いEをしよう」
- ボブ「それすらもアリスは読んでいるかもしれないから、Eを読んでFをしてくるかもしれな
い。やっぱりFに強いGで・・・」
- 以後、相⼿の推論能⼒の仮定をどこかでストップさせない限り、無限に続く(アリス側の思考
も同じ)
Shota Imai | The University of Tokyo
12
⼼の理論を適⽤する場合の問題点(MARL)
n シングルエージェントでPOMDPを扱う場合、LSTMやRNNをナイーブに適⽤し、環境に
対する信念を獲得すれば、部分的な観測から⼤体正しい⾏動が可能
n MARLの場合、他のエージェントの⽅策モデルのパラメータ(これは既知という仮定も
多い)、相⼿のRNNやLSTMの内部状態、さらに「相⼿が⾃分に対して推論している何
らかの機構」のモデルも信念として持つ必要がある
→再起的な推論が発⽣し、計算不可能
※MARLにおいてどの程度の読みが有効か実験的に⽰している例も
Shota Imai | The University of Tokyo
13
参考/レベルK理論
n 相⼿が何段階読むかを、レベル0(まったく読まない)、レベル1(⼀⼿先を読む)などと
いうKレベルで表現し、どれくらいの合理性を持った相⼿なのか予測する
n 予測した相⼿のレベルに応じて⾏動を実⾏する
- レベル0(相⼿が何も読まない)なら、⼀⼿先を読めば勝てる
- レベル1(相⼿も⼀⼿先を読む)なら、2⼿先を読めば勝てる
n ここでの相⼿に対するKの値はあくまでも推測であり、現実的には相⼿の合理性を完璧に
は評価できないが、ゲームのトッププレイヤーや理系の⼈間などは⼀般的に⾼い
(例)数当てゲーム
- 複数の被験者に、1~100のどれかの数字を書かせ、全員の書いた数字の平均の2/3に最も近い
数字を書いたものが勝利というゲームをさせる
- 簡単に推論すると、全員がランダムに数字を選ぶとして平均50。その2/3の33周辺がよさそう
- ここで、推論のレベルを⼀つあげると「他のみんなも同じことを考えて33と書いてきそうだか
ら、平均は33近くなる。その2/3の22がよさそう」となる
- 以降、推論のレベルをあげるたびに数値は⼩さくなり、全員が合理的なプレイヤーという予測
では、0になるまでレベルが上がる
- 実験的には、ほとんどのプレイヤーがレベル1で、⾃分はレベル2の推論で⼗分なことが多い
Shota Imai | The University of Tokyo
14
Hanabi
MARLにおける⼼の理論系研究の主要ベンチマーク
n 2〜5⼈の協⼒ゲーム
n RLで頻繁にベンチマークとなる主要なボードゲームなどと異なり、ゲーム⽊探索による
必勝法やナッシュ均衡など、ゲーム情報学的な解を持たない
n 相⼿の意図によって、理想的な⾏動が異なる&理想的な⾏動ではなく、メッセージ的な
⾏動をも要求されるなど、相⼿の意図をモデリングして積極的に利⽤する必要
n ⼼の理論系(相⼿の⾏動を読んで⾃分の⽅策のinputとして使う等)の主要ベンチマーク
Shota Imai | The University of Tokyo
15
Hanabiのルール 1/2
n 各プレイヤーは⼿札として、4枚(プレイヤー数が2 or 3名の場合は5枚)のカードを持
つ
n 各カードは⾚緑⻘⽩の5⾊と1~5の数字の組み合わせ(例:⾚の5など)で分類され、全
50枚、各⾊10枚のカードがある(各⾊について1は3枚、2, 3, 4は2枚、5は1枚)
n プレイヤーは⾃分の⼿番に、⾃分の⼿札を場に出す(プレイ)、⼿札を捨てる、他のプ
レイヤーにヒントを与える、のいずれかの⾏動を選択
n ゲームの最終⽬的は、各⾊について1から順番に場に出して5まで揃えること(各⾊につ
いて5枚揃うことを”花⽕を打ち上げる”と表現)
n ⾃分の⼿札は⾒えないが、他のプレイヤーの⼿札は全て⾒える
Shota Imai | The University of Tokyo
16
プレイヤー0(P0)視点のHanabi
Hanabiのルール 2/2
n 他のプレイヤーに与えるヒントは、ある個⼈プレイヤーに対し、「そのプレイヤーが持
つ同じ数字のカードを全て教える(⾊は教えてはいけない)」、「そのプレイヤーが持
つ同じ⾊のカードを全て教える(数は教えてはいけない) 」のどちらかで、⼀部だけ教
える等は不可能
- 例:P2に対して「1枚⽬と3枚⽬は⾚⾊」
n ヒントを与えるとトークンを1つ消費するが、カードを捨てる⾏動を選択するとトーク
ンが1つ回復する(MAXは8つ)
- 捨てられたカードは全プレイヤーが⾒れるようになる
- カードを捨てた後、1枚カードを引いて補充する
n 各⾊について、必ず数字順にプレイしなければならない
- 例えば、⽩1、⽩2が揃っている時に⽩4を出したら1ミス
n 3回ミスするか、5⾊全て揃えるとゲーム終了
- 終了時点で場に正しくプレイされていたカードの総数が得点になる(MAX25点)
Shota Imai | The University of Tokyo
17
この場⾯では、プレイすることを許さ
れるカードはG2、B1、W2、Y2、R1
Hanabiの戦略・駆け引き的な部分
n ⾏動による暗黙のコミュニケーション
- ヒントの与え⽅によって、ヒントで陽に⽰している以上の情報を与えることが可能
- 例:右下図の状況でP0が、P1に対し、「4枚⽬は⾚」のヒントを与える
- P1視点だと4枚⽬のカードが⾚以外の情報はないので、本来はプレイする情報が⾜りていないが、逆に考
えると「わざわざ不完全なヒントを与えたということは⾚は1なのでは」という発想につながる
n Finesse(もう少し⾼度な暗黙コミュニケーション)
- P0がP2に対し「3枚⽬は2」のヒントを与える
- P2視点だと、このヒントをもらった場合に考えることは「おそらくこの2は⽩」(場にG1とW1がある
が、緑2はすでに2枚とも捨てられているため⽩2以外あり得ない)
- これは間違いで、実際は⾚2なので、このままいくとP2はミスする
- P0の次の⼿番のP1視点だと「このままだとP2は失敗する。だが、P0があのようなヒントを出したからに
は理由があるはずで、おそらくそれは⾃分が最近引いたカードが⾚2でそれをプレイしろということか」
Shota Imai | The University of Tokyo
18
Hanabiの難しさ
n 今回発表する⼿法以前は、機械的な⼿法では⼈間の知識を⼤量に⼊れたbotが主流で、学
習ベースのアプローチはこれらの⼿法に勝てなかった
- ⼈間に特有の⾮⾔語的なコミュニケーションを読み取れない
- テスト環境で学習時と別のエージェントとプレイすると、学習した⽅策が機能しない
n 今回紹介する⼿法についても、⼆⼈以上のプレイではスコアが極端に下がる
Shota Imai | The University of Tokyo
19
BAD; Bayesian Action Decoder
n マルチエージェント強化学習(ここではHanabi)において、相⼿の⾏動から⾒えない情
報について何らかの推測ができれば、適切な⾏動と協調が可能
n 相⼿の信念の推論はベイズ推論により、割と簡単に定式化可能だが、再起的に信念を推
論する部分で計算が爆発する
n BADでは全てのエージェントに公開されている情報(public features)を⽤いて、全て
のエージェントに共通の信念(public belief)を推論し、適切な決定論的⽅策を実⾏する
⼿法を提案
Shota Imai | The University of Tokyo
20
記号定義
n 𝑎 ∈ 1. . 𝑁:エージェント
n 𝑢!
"
:時刻tにおけるエージェントaの⾏動
n 𝑜!
"
:時刻tにおけるエージェントaの観測
n 𝑠!:時刻tにおける環境の真の状態
n 𝑂(𝑎, 𝑠!):観測関数
n 𝜏!
"
=(𝑜#
"
, 𝑢#
"
, … , 𝑜!
"
):エージェントaの⾏動観測の履歴
n 𝜋"(𝑢!
"|𝜏!
"):エージェントaの⽅策
n 𝐮! = (𝑢!
$
, . . , 𝑢!
%
):共同⾏動
n 𝑃 𝑠!&$ 𝑠!, 𝐮!):遷移関数
n 𝑟!&$(𝑠!, 𝐮!):チーム報酬
n 𝐵!:信念(これまでの履歴などからどんな隠れ状態にあるか確率的に表す)
Shota Imai | The University of Tokyo
21
Hanabiでベイズ推論を⽤い,⾃分の⼿札を予測する場合
n ℎ!:エージェントの⼿札
n ボブの⾃分の⼿札に関する信念 𝐵" = 𝑃(ℎ"|𝑢#)
n ここでは、アリス(ボブの⼿札ℎ"を知っている)が、アリスのターンであるカードを捨てる
⾏動𝑢#を選択した場合、ボブの⼿札が何かを推論
n 𝑃(𝑢#|ℎ")は普通のRLの⽅策とみなせる
Shota Imai | The University of Tokyo
22
お互いが何らかの信念を持っており、環境の公開情報も利⽤する場合(⾒
えない情報に対して何らかの「読み」を⾏っている場合)
n アリスの⽅策は、アリスの信念𝐵%と公開情報𝑃𝑢𝑏に条件づけられているとみなせる
n 信念は⾃分の⾒えていない⼿札の予測(B' = 𝑃(ℎ%))
n 𝐵%はどのように推論する?
→お互いに同じ推論を⾏っていると考えると、再起的に推論が爆発
Shota Imai | The University of Tokyo
23
BADのアイディア
n 全てのエージェントに公開されている情報で条件づけて、全エージェントの信念をまと
めて推測した信念をPublic	beliefとすれば、全エージェントで共通の信念を共有できそう
𝐵% = 𝑃 ℎ% ℎ(, 𝑓)*+
𝐵( = 𝑃(ℎ(|ℎ%, 𝑓)*+)
→ 𝐵! = 𝑃(ℎ%, ℎ(|𝑓)*+)
n Public beliefを利⽤する⽅策𝜋(%,(Public agent)を導⼊し、𝜋(%,によって、ある時刻に
おける個別エージェントの決定論的⽅策を選択、privateな観測から⾏動を決定する
(上記より、各エージェントが共通の⽅策パラメータを持つことは既知とする)
Shota Imai | The University of Tokyo
24
BADで登場する概念と記号定義
n 𝑓!
)*+
:全てのエージェントに公開されている特徴 (public features)
→テーブル上に置かれていて全プレイヤーが⾒れるカード、⼭札の残りなど
n 𝑓!
)-.
:⼀部のエージェントのみが⾒れる情報 (private features)
- 𝑓!
"
:エージェントaのみが参照できるprivate feature
- ⾃分だけが⾒れる⼿札、ℎ#など
n Public belief 𝐵! = 𝑃(𝑓!
)-.
|𝑓/!
)*+
)
- 𝑓!"
#$%
=( 𝑓&
#$%
, . . , 𝑓"
#$%
)
n 𝜋(%, :Public agentの⽅策
n D
𝜋 ∶ {𝑓"} → 𝒰:個別エージェントの決定論的⽅策(Partial Policy)
n 𝑠(%,: 𝐵!と𝑓)*+を⼀まとめにした概念
n D
𝜋 ~ 𝜋(%,(D
𝜋 |𝑠(%,)
Shota Imai | The University of Tokyo
25
PuB-MDP(Public belief MDP)
Shota Imai | The University of Tokyo
26
Public Belief
n 全てのエージェントの可能な𝑓)-.の組み合わせに確率を割り振った⾏列
(例)
Shota Imai | The University of Tokyo
27
アリスの⼿札ℎ'、ボブの⼿札ℎ(、𝑃(ℎ', ℎ()
23344, 11122, 0.000
23344, 11123, 0.002
・
・
・
44444, 55555, 0.001
𝐵! =
{ }
Partial PolicyとPublic Policy
n Partial Policy D
𝜋は特定の𝑓)に対応する⾏動リスト、Public Policy 𝜋(%,はいくつかあるD
𝜋
を選択するための確率分布
Shota Imai | The University of Tokyo
28
23344→5のカードをプレイ
23344→⻘のカードに関するヒント
・
・
55555→3のカードを捨てる
{ }
#
𝜋 =
Public Policyの更新
n プレイヤーが⾏動する各時間ステップごとに、その時刻のプレイヤーの⾏動𝑢!
"
、信念
𝐵!、選択されたpartial policy D
𝜋、その他の公開情報𝑓0)*+(残りのカード枚数など)を⽤
いて、次の時刻の信念𝐵!&$を得る
Shota Imai | The University of Tokyo
29
その他
n 実際には、Public belief⾏列はかなり⼤きいので、いくつか計算上の⼯夫を⾏って⼩さく
している(論⽂中”Factorised Belief Updates”, Self-Consistent Beliefsの部分)
n 実装上は、 D
𝜋 ~ 𝜋(%,(D
𝜋 |𝑠(%,) = 𝜋(%,(D
𝜋 |𝐵!, 𝑓)*+)の部分については、パラメータθを持
つMLPネットワーク 𝜋1(𝑢|𝑓", 𝑠(%,) を使って近似している(出⼒の𝑢は全ての⾏動候補)
Shota Imai | The University of Tokyo
30
実験:定量評価
n 異なる公開情報をベースにした⼊⼒を⾏うLSTMベースのエージェントと、既存の最強の
BotとHanabiにおける平均スコアを⽐較(マックスは25点)
n ⽅策更新のRL⼿法としてはActor-Criticの⽅策オフ⼿法(IMPALA)を使⽤
n 注意として、ここでは2⼈のHanabiしか評価していないため、BADの強さは限定的
Shota Imai | The University of Tokyo
31
実験:定性的な部分
n テスト時に、エージェント間で、特定の⾏動が暗黙的なメッセージになっているプレイ
が複数⾒られた
- 例えば、⾚⾊or⻩⾊のカードに関するヒントを与えた場合には、「⼀番新しいカードをプレイ
しろ」の意味、⻘か⽩の場合は「⼀番新しいカードを捨てろ」の意味を持っている
n 論⽂Appendixにおいて、過去のHanabiの最強botの作者がテスト時のBADエージェント
のプレイを分析したコメントを載せている
Shota Imai | The University of Tokyo
32
BADの問題点
n テスト環境が2⼈のHanabiで⽐較的簡単(⼈間の普通のゲームなら普通もっと多⼈数)
n Public Agent、⽅策パラメータが同じという仮定が⾮現実的
n 公開情報がドメイン依存で、汎⽤性が低い
n 計算コストが⼤きい(𝑓)*+が膨⼤)
Shota Imai | The University of Tokyo
33
SAD; Simplified Action Decoder
n 公開情報をベイズ推論に組み込むBADの⼿法は、⼆⼈プレイHanabiで⾼パフォーマンス
だったが、公開情報の利⽤が計算コストの増⼤と汎⽤性の低さにつながる
n SADでは公開情報を必要とする部分(Public Policy、決定論的Partial Policy)を廃し個
別の信念を持つRNNエージェントが個別の⽅策を表現
- 個別エージェントはε-greedy探索を採⽤して学習時に探索を⾏う
- BADでは探索の部分を、Public policyが公開情報で条件づけて確率的に選択するpartial policy
で代替していた
※ここでの公開情報とは、普通にプレイして観測できる他エージェントの⾏動𝑢)などではなく、⼭札
中の残りのカード数や、ヒントから推論できるカードの詳細情報など、利⽤にコストがかかるもの
n 個別のエージェントの確率的な探索の導⼊により、不安定になった信念のベイズ推論を
解決するため、学習中に環境に対して実⾏される⾏動と単に他のエージェントの⼊⼒と
なる⾏動の⼆つを利⽤
n 「Simplified」の名の通り、⼿法は⾮常にシンプルで簡潔な発想
Shota Imai | The University of Tokyo
34
SADで登場する概念と記号定義
n 𝜏!:環境の⾏動-状態履歴
n 𝜏!
":エージェントaの⾏動-観測履歴
※SADのエージェントにはRNNを使⽤
n 𝐵(𝜏!)環境の履歴に関する信念
n SADにおける推論
n BADの時と同じく、⾃分の参照できる情報(⾃分の履歴)と相⼿の⾏動を観測したと
き、⾃分が⾒えない環境の情報𝜏を推論する機構(⼼の理論部分)を表現
Shota Imai | The University of Tokyo
35
公開情報を使わないことによる問題
n 個別のRNNエージェントは学習中に、ε-greedy探索を採⽤
n 各エージェントの⾏動は、確率εでランダムに実⾏された⾏動かもしれず、信念状態の
更新に利⽤するのは妥当ではない
(ランダムな⾏動は環境の状態に関する情報を含まない)
n ε-greedy探索を⾏う場合の⽅策の表現
n 𝑢∗(𝜏!)はgreedyな⾏動、 𝑢∗ 𝜏! = 𝑎𝑟𝑔𝑚𝑎𝑥 * 𝑄""
(𝑢, 𝑂(𝑎0, 𝜏!))、𝑰は指⽰関数
n 上記を信念の推論に適⽤すると、計算困難
Shota Imai | The University of Tokyo
36
SADのアイディア
n 学習中に、エージェントは2種類の⾏動を実⾏する
- 𝒖𝒂:実際に環境に対して実⾏されるアクション(greedyかランダム選択かは問わない)
→ベイズ推論・更新にとっては邪魔だが、探索のため必要
- 𝒖∗
:greedy(⾏動価値が最も⾼い)な⾏動。ε-greedy探索だとεの確率で実⾏されない
→これのみを実⾏すると探索が進まないが、本来はベイズ推論・更新に必要なアクション
上記のうち𝒖𝒂はそのまま環境に対して実⾏。そして、 𝒖∗については環境に対して実⾏せず、他
のエージェントの観測の⼊⼒のみに使⽤
n 本来は最適でなかった⾏動𝒖𝒂を実⾏した後「俺は本当は⾏動𝒖∗ をやりたかった」とメッセー
ジを送るイメージ
n テスト時はεの値が0で、 𝒖𝒂と𝒖∗ は常に⼀致するため、⾏動を送信する必要はない
Shota Imai | The University of Tokyo
37
実験
n SADと他のMARLのRNNを使う⼿法を、⼆⼈以上のプレイヤーによるHanabiで評価
n 強化学習はDQNベース
n BADより⾼パフォーマンス&⼆⼈以上のゲームでもほぼSOTA
Shota Imai | The University of Tokyo
38
その他の⼼の理論周りの話題
n ロボット&Visual observation✖⼼の理論
Visual behavior modelling for robotic theory of mind
- 実機ロボットの軌道の観測から別の時間の観測を予測できるか
n ⾔語✖⼼の理論
Few-shot Language Coordination by Modeling Theory of Mind
- 指⽰ゲームで、相⼿の⾔語認識レベルに応じた指⽰を⾏えるか
n 実験的な⼈間の知能との関連性
Negotiating with other minds: the role of recursive theory of mind in negotiation with
incomplete information
- ⼈間のレベルK理論では、レベル2の寿司論を⾏うのがちょうどいいとされているが、機械的
なエージェントではどの程度のレベルが最適か実験的に明らかに
- 機械的なエージェントのシミュレーションでもレベル2程度を採⽤すると⼀番効率がよい
Shota Imai | The University of Tokyo
39

More Related Content

What's hot

POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習Yusuke Nakata
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018佑 甲野
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 

What's hot (20)

POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 

Similar to [DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜

Learntheory Engl
Learntheory EnglLearntheory Engl
Learntheory EnglKai Pata
 
Learntheory Engl
Learntheory EnglLearntheory Engl
Learntheory Englguest159ec4
 
On the problems of interface: explainability, conceptual spaces, relevance
On the problems of interface: explainability, conceptual spaces, relevanceOn the problems of interface: explainability, conceptual spaces, relevance
On the problems of interface: explainability, conceptual spaces, relevanceGiovanni Sileno
 
Philosophy of science summary presentation engelby
Philosophy of science summary presentation engelbyPhilosophy of science summary presentation engelby
Philosophy of science summary presentation engelbyDavid Engelby
 
Learning
LearningLearning
Learningbutest
 
Game Type Slides.
Game Type Slides.Game Type Slides.
Game Type Slides.Karl Kapp
 
FL-MSRE: A Few-Shot Learning based Approach to Multimodal Social Relation Ex...
FL-MSRE: A Few-Shot Learning based Approach  to Multimodal Social Relation Ex...FL-MSRE: A Few-Shot Learning based Approach  to Multimodal Social Relation Ex...
FL-MSRE: A Few-Shot Learning based Approach to Multimodal Social Relation Ex...Takato Hayashi
 
Research in Deep Learning: A Perspective from NSF
Research in Deep Learning: A Perspective from NSFResearch in Deep Learning: A Perspective from NSF
Research in Deep Learning: A Perspective from NSFDESMOND YUEN
 
Astdtk2013 workshopmaterials
Astdtk2013 workshopmaterialsAstdtk2013 workshopmaterials
Astdtk2013 workshopmaterialsKarl Kapp
 
Busting Learning Myths: Fact of Fishy
Busting Learning Myths: Fact of FishyBusting Learning Myths: Fact of Fishy
Busting Learning Myths: Fact of FishyKarl Kapp
 
Narrative Epistemology for Mathematics
Narrative Epistemology for MathematicsNarrative Epistemology for Mathematics
Narrative Epistemology for MathematicsYishay Mor
 
ニューラル日本語固有表現認識における格フレームの有効性検証
ニューラル日本語固有表現認識における格フレームの有効性検証ニューラル日本語固有表現認識における格フレームの有効性検証
ニューラル日本語固有表現認識における格フレームの有効性検証Takashi Inui
 
Games, Gamification and Innovative Learning Techniques (Chinese Translation)
Games, Gamification and Innovative Learning Techniques (Chinese Translation)Games, Gamification and Innovative Learning Techniques (Chinese Translation)
Games, Gamification and Innovative Learning Techniques (Chinese Translation)Karl Kapp
 
Introducción pai unit 6 2º
Introducción pai unit 6 2º Introducción pai unit 6 2º
Introducción pai unit 6 2º aimorales
 
Pedagogical patterns for learning programming by mistakes (presentation) (1)
Pedagogical patterns for learning programming by mistakes (presentation) (1)Pedagogical patterns for learning programming by mistakes (presentation) (1)
Pedagogical patterns for learning programming by mistakes (presentation) (1)Ljubomir Jerinic
 
ASTD Gamification Webinar Slides
ASTD Gamification Webinar SlidesASTD Gamification Webinar Slides
ASTD Gamification Webinar SlidesKarl Kapp
 

Similar to [DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜 (20)

20 aug 1 iit symposium tsuchiya
20 aug 1 iit symposium tsuchiya20 aug 1 iit symposium tsuchiya
20 aug 1 iit symposium tsuchiya
 
Learntheory Engl
Learntheory EnglLearntheory Engl
Learntheory Engl
 
Learntheory Engl
Learntheory EnglLearntheory Engl
Learntheory Engl
 
On the problems of interface: explainability, conceptual spaces, relevance
On the problems of interface: explainability, conceptual spaces, relevanceOn the problems of interface: explainability, conceptual spaces, relevance
On the problems of interface: explainability, conceptual spaces, relevance
 
Philosophy of science summary presentation engelby
Philosophy of science summary presentation engelbyPhilosophy of science summary presentation engelby
Philosophy of science summary presentation engelby
 
Abhinav
AbhinavAbhinav
Abhinav
 
Learning
LearningLearning
Learning
 
Game Type Slides.
Game Type Slides.Game Type Slides.
Game Type Slides.
 
FL-MSRE: A Few-Shot Learning based Approach to Multimodal Social Relation Ex...
FL-MSRE: A Few-Shot Learning based Approach  to Multimodal Social Relation Ex...FL-MSRE: A Few-Shot Learning based Approach  to Multimodal Social Relation Ex...
FL-MSRE: A Few-Shot Learning based Approach to Multimodal Social Relation Ex...
 
Research in Deep Learning: A Perspective from NSF
Research in Deep Learning: A Perspective from NSFResearch in Deep Learning: A Perspective from NSF
Research in Deep Learning: A Perspective from NSF
 
Astdtk2013 workshopmaterials
Astdtk2013 workshopmaterialsAstdtk2013 workshopmaterials
Astdtk2013 workshopmaterials
 
Busting Learning Myths: Fact of Fishy
Busting Learning Myths: Fact of FishyBusting Learning Myths: Fact of Fishy
Busting Learning Myths: Fact of Fishy
 
Narrative Epistemology for Mathematics
Narrative Epistemology for MathematicsNarrative Epistemology for Mathematics
Narrative Epistemology for Mathematics
 
ニューラル日本語固有表現認識における格フレームの有効性検証
ニューラル日本語固有表現認識における格フレームの有効性検証ニューラル日本語固有表現認識における格フレームの有効性検証
ニューラル日本語固有表現認識における格フレームの有効性検証
 
Games, Gamification and Innovative Learning Techniques (Chinese Translation)
Games, Gamification and Innovative Learning Techniques (Chinese Translation)Games, Gamification and Innovative Learning Techniques (Chinese Translation)
Games, Gamification and Innovative Learning Techniques (Chinese Translation)
 
Research
ResearchResearch
Research
 
Introducción pai unit 6 2º
Introducción pai unit 6 2º Introducción pai unit 6 2º
Introducción pai unit 6 2º
 
Pedagogical patterns for learning programming by mistakes (presentation) (1)
Pedagogical patterns for learning programming by mistakes (presentation) (1)Pedagogical patterns for learning programming by mistakes (presentation) (1)
Pedagogical patterns for learning programming by mistakes (presentation) (1)
 
ASTD Gamification Webinar Slides
ASTD Gamification Webinar SlidesASTD Gamification Webinar Slides
ASTD Gamification Webinar Slides
 
Artificial intel
Artificial intelArtificial intel
Artificial intel
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptx
The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptxThe Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptx
The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptxLoriGlavin3
 
TeamStation AI System Report LATAM IT Salaries 2024
TeamStation AI System Report LATAM IT Salaries 2024TeamStation AI System Report LATAM IT Salaries 2024
TeamStation AI System Report LATAM IT Salaries 2024Lonnie McRorey
 
Bridging Between CAD & GIS: 6 Ways to Automate Your Data Integration
Bridging Between CAD & GIS:  6 Ways to Automate Your Data IntegrationBridging Between CAD & GIS:  6 Ways to Automate Your Data Integration
Bridging Between CAD & GIS: 6 Ways to Automate Your Data Integrationmarketing932765
 
So einfach geht modernes Roaming fuer Notes und Nomad.pdf
So einfach geht modernes Roaming fuer Notes und Nomad.pdfSo einfach geht modernes Roaming fuer Notes und Nomad.pdf
So einfach geht modernes Roaming fuer Notes und Nomad.pdfpanagenda
 
TrustArc Webinar - How to Build Consumer Trust Through Data Privacy
TrustArc Webinar - How to Build Consumer Trust Through Data PrivacyTrustArc Webinar - How to Build Consumer Trust Through Data Privacy
TrustArc Webinar - How to Build Consumer Trust Through Data PrivacyTrustArc
 
Varsha Sewlal- Cyber Attacks on Critical Critical Infrastructure
Varsha Sewlal- Cyber Attacks on Critical Critical InfrastructureVarsha Sewlal- Cyber Attacks on Critical Critical Infrastructure
Varsha Sewlal- Cyber Attacks on Critical Critical Infrastructureitnewsafrica
 
The Future Roadmap for the Composable Data Stack - Wes McKinney - Data Counci...
The Future Roadmap for the Composable Data Stack - Wes McKinney - Data Counci...The Future Roadmap for the Composable Data Stack - Wes McKinney - Data Counci...
The Future Roadmap for the Composable Data Stack - Wes McKinney - Data Counci...Wes McKinney
 
Unleashing Real-time Insights with ClickHouse_ Navigating the Landscape in 20...
Unleashing Real-time Insights with ClickHouse_ Navigating the Landscape in 20...Unleashing Real-time Insights with ClickHouse_ Navigating the Landscape in 20...
Unleashing Real-time Insights with ClickHouse_ Navigating the Landscape in 20...Alkin Tezuysal
 
Decarbonising Buildings: Making a net-zero built environment a reality
Decarbonising Buildings: Making a net-zero built environment a realityDecarbonising Buildings: Making a net-zero built environment a reality
Decarbonising Buildings: Making a net-zero built environment a realityIES VE
 
Top 10 Hubspot Development Companies in 2024
Top 10 Hubspot Development Companies in 2024Top 10 Hubspot Development Companies in 2024
Top 10 Hubspot Development Companies in 2024TopCSSGallery
 
Moving Beyond Passwords: FIDO Paris Seminar.pdf
Moving Beyond Passwords: FIDO Paris Seminar.pdfMoving Beyond Passwords: FIDO Paris Seminar.pdf
Moving Beyond Passwords: FIDO Paris Seminar.pdfLoriGlavin3
 
Time Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directionsTime Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directionsNathaniel Shimoni
 
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptxDigital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptxLoriGlavin3
 
Abdul Kader Baba- Managing Cybersecurity Risks and Compliance Requirements i...
Abdul Kader Baba- Managing Cybersecurity Risks  and Compliance Requirements i...Abdul Kader Baba- Managing Cybersecurity Risks  and Compliance Requirements i...
Abdul Kader Baba- Managing Cybersecurity Risks and Compliance Requirements i...itnewsafrica
 
Long journey of Ruby standard library at RubyConf AU 2024
Long journey of Ruby standard library at RubyConf AU 2024Long journey of Ruby standard library at RubyConf AU 2024
Long journey of Ruby standard library at RubyConf AU 2024Hiroshi SHIBATA
 
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24Mark Goldstein
 
How to Effectively Monitor SD-WAN and SASE Environments with ThousandEyes
How to Effectively Monitor SD-WAN and SASE Environments with ThousandEyesHow to Effectively Monitor SD-WAN and SASE Environments with ThousandEyes
How to Effectively Monitor SD-WAN and SASE Environments with ThousandEyesThousandEyes
 
Generative AI - Gitex v1Generative AI - Gitex v1.pptx
Generative AI - Gitex v1Generative AI - Gitex v1.pptxGenerative AI - Gitex v1Generative AI - Gitex v1.pptx
Generative AI - Gitex v1Generative AI - Gitex v1.pptxfnnc6jmgwh
 
How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.Curtis Poe
 
Scale your database traffic with Read & Write split using MySQL Router
Scale your database traffic with Read & Write split using MySQL RouterScale your database traffic with Read & Write split using MySQL Router
Scale your database traffic with Read & Write split using MySQL RouterMydbops
 

Recently uploaded (20)

The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptx
The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptxThe Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptx
The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptx
 
TeamStation AI System Report LATAM IT Salaries 2024
TeamStation AI System Report LATAM IT Salaries 2024TeamStation AI System Report LATAM IT Salaries 2024
TeamStation AI System Report LATAM IT Salaries 2024
 
Bridging Between CAD & GIS: 6 Ways to Automate Your Data Integration
Bridging Between CAD & GIS:  6 Ways to Automate Your Data IntegrationBridging Between CAD & GIS:  6 Ways to Automate Your Data Integration
Bridging Between CAD & GIS: 6 Ways to Automate Your Data Integration
 
So einfach geht modernes Roaming fuer Notes und Nomad.pdf
So einfach geht modernes Roaming fuer Notes und Nomad.pdfSo einfach geht modernes Roaming fuer Notes und Nomad.pdf
So einfach geht modernes Roaming fuer Notes und Nomad.pdf
 
TrustArc Webinar - How to Build Consumer Trust Through Data Privacy
TrustArc Webinar - How to Build Consumer Trust Through Data PrivacyTrustArc Webinar - How to Build Consumer Trust Through Data Privacy
TrustArc Webinar - How to Build Consumer Trust Through Data Privacy
 
Varsha Sewlal- Cyber Attacks on Critical Critical Infrastructure
Varsha Sewlal- Cyber Attacks on Critical Critical InfrastructureVarsha Sewlal- Cyber Attacks on Critical Critical Infrastructure
Varsha Sewlal- Cyber Attacks on Critical Critical Infrastructure
 
The Future Roadmap for the Composable Data Stack - Wes McKinney - Data Counci...
The Future Roadmap for the Composable Data Stack - Wes McKinney - Data Counci...The Future Roadmap for the Composable Data Stack - Wes McKinney - Data Counci...
The Future Roadmap for the Composable Data Stack - Wes McKinney - Data Counci...
 
Unleashing Real-time Insights with ClickHouse_ Navigating the Landscape in 20...
Unleashing Real-time Insights with ClickHouse_ Navigating the Landscape in 20...Unleashing Real-time Insights with ClickHouse_ Navigating the Landscape in 20...
Unleashing Real-time Insights with ClickHouse_ Navigating the Landscape in 20...
 
Decarbonising Buildings: Making a net-zero built environment a reality
Decarbonising Buildings: Making a net-zero built environment a realityDecarbonising Buildings: Making a net-zero built environment a reality
Decarbonising Buildings: Making a net-zero built environment a reality
 
Top 10 Hubspot Development Companies in 2024
Top 10 Hubspot Development Companies in 2024Top 10 Hubspot Development Companies in 2024
Top 10 Hubspot Development Companies in 2024
 
Moving Beyond Passwords: FIDO Paris Seminar.pdf
Moving Beyond Passwords: FIDO Paris Seminar.pdfMoving Beyond Passwords: FIDO Paris Seminar.pdf
Moving Beyond Passwords: FIDO Paris Seminar.pdf
 
Time Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directionsTime Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directions
 
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptxDigital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
 
Abdul Kader Baba- Managing Cybersecurity Risks and Compliance Requirements i...
Abdul Kader Baba- Managing Cybersecurity Risks  and Compliance Requirements i...Abdul Kader Baba- Managing Cybersecurity Risks  and Compliance Requirements i...
Abdul Kader Baba- Managing Cybersecurity Risks and Compliance Requirements i...
 
Long journey of Ruby standard library at RubyConf AU 2024
Long journey of Ruby standard library at RubyConf AU 2024Long journey of Ruby standard library at RubyConf AU 2024
Long journey of Ruby standard library at RubyConf AU 2024
 
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24
 
How to Effectively Monitor SD-WAN and SASE Environments with ThousandEyes
How to Effectively Monitor SD-WAN and SASE Environments with ThousandEyesHow to Effectively Monitor SD-WAN and SASE Environments with ThousandEyes
How to Effectively Monitor SD-WAN and SASE Environments with ThousandEyes
 
Generative AI - Gitex v1Generative AI - Gitex v1.pptx
Generative AI - Gitex v1Generative AI - Gitex v1.pptxGenerative AI - Gitex v1Generative AI - Gitex v1.pptx
Generative AI - Gitex v1Generative AI - Gitex v1.pptx
 
How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.
 
Scale your database traffic with Read & Write split using MySQL Router
Scale your database traffic with Read & Write split using MySQL RouterScale your database traffic with Read & Write split using MySQL Router
Scale your database traffic with Read & Write split using MySQL Router
 

[DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜