[DL Papers]
9/17 今井翔太 えるエル@ImAI_Eruel Matsuo Lab
1. The Hanabi Challenge: A New Frontier for AI Research
- 著者:Nolan Bard, , Jakob N. Foerster et al.
- arXiv:1902.00506
2. Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning
- 著者:Jakob N. Foerster, H. Francis Song et al.
- ICML2019
3. Simplified Action Decoder for Deep Multi-Agent Reinforcement Learning
- 著者:Hengyuan Hu, Jakob N Foerster
- ICLR2020
Shota Imai | The University of Tokyo
n 「⼼の理論」という若⼲⼼理学・⼈⼀般の知能論っぽいタイトルがついていますが、今
n 時間の都合上、全ての話題を⼊れる余地がないので、メインの3論⽂以外は概要に触れ
n 数式はきれいに書く時間がなかったので、論⽂中の式の他、発表中に限り論⽂の著者の
- 出典:
n ベンチマークのゲーム含め、聴き慣れない概念が多数登場しますが、「こんな話題があ
Shota Imai | The University of Tokyo
マルチエージェント強化学習(MARL; Multi-Agent Reinforcement
n マルチエージェント分野の研究分野全体はマルチエージェントシステム(MAS)とよば
n MASの中でもエージェントの「学習(機械学習)」に興味があるものはマルチエージェ
n マルチエージェント強化学習はマルチエージェント学習の中でもエージェントの学習ア
n 端的に⾔うと、環境中に学習するエージェントが複数いる環境における強化学習
- 囲碁や将棋などのボードゲームもMARLの⼀部
- 最近の例ではStarCraftのAlphaStarが有名
- なお、エージェントして⼈間を含んでも良い
Shota Imai | The University of Tokyo
注意 / MARLに特有の概念
(CTDE; Centralized Learning Distributed Execution 中央集権型学習分散型実⾏)
n 現在のMARLの最重要概念(だが、今回の発表の本質ではない)
n 後ほど、「学習中はお互いの⽅策は既知」、「2種類の⾏動のうち⼀つを他のエージェ
n 中央集権型学習:学習時のみ,勾配を計算する時に全体のエージェントの情報を含む環
n 分散型実⾏:テスト時には,各エージェントは⾃⾝の部分観測のみを⼊⼒として⽅策を
n COMA[Foerster+ 2017]以降,特に⽤いられるアプローチで,
“in many cases, learning can take place in a simulator or a laboratory in which extra
state information is available and agents can communicate freely”(Foerster+ 2016)
n 当然,本来エージェントが動作するテスト環境は,基本的に各エージェントが個別の観
Shota Imai | The University of Tokyo
n 学習時の⾮定常性
- ⾃分以外のエージェントも⽅策を学習するので、普通に⽅策を更新しても最適⽅策への収束が
n 不完全情報性
- ⾃分以外のエージェントに関して⾒えない情報が多く、エージェントが利⽤できる観測だけで
→学習時 or テスト時の推論で、⾃分以外のエージェントの意図を読むことができれば、こ
Shota Imai | The University of Tokyo
n 他者モデリング(Opponent Modeling)
- 学習時の⾮定常性を解決するために使⽤されるのが主
- ⾃分以外のエージェントの⽅策をモデリングし、それを⾃分のモデルの⼊⼒とすることで、⾮
n ⼼の理論(Theory of Mind)
- 不完全情報ゲームなどで、推論時に相⼿がどのような意図を持っているか推定
Shota Imai | The University of Tokyo
n 1978年霊⻑類学者David Premackが「チンパンジーは⼼の理論を持つか」という論⽂で
- ⾼度な知能を持ち、集団⽣活をするチンパンジーは他の仲間の⼼の状態を推測できるかもしれ
- 「理論」という表現は、⼼の状態は直接⾒る(魔法!)ことができず、何らかの基礎的な法則、
n 1983年のWimmer&Pernerは誤信念課題(後述)を⽤いて、⼈間の⼦供が、4~7歳にかけ
n 最近、機械学習、特に複数エージェントが存在するマルチエージェント強化学習の分野
Shota Imai | The University of Tokyo
n 通称「サリーとアン課題」と呼ばれる、
1. サリーがカゴにボールを⼊れる
2. サリーが部屋を去る
3. アンがサリーがいない間にカゴから箱の中にボールを移動させる
4. アンが帰ってくる
n アンが「カゴの中にボールがある」という誤った信念を持っている
n 4歳〜7歳にかけて正答率が向上
Shota Imai | The University of Tokyo
n 定義は完全に混沌としている
n 強化学習のみならず、⾃然⾔語処理、画像認識など様々な場⾯で⼿法を「⼼の理論」と関連
n マルチエージェント強化学習だけで⾒ても、⾮常に多様な⼿法に分類可能
n ⾃分以外のエージェントに関する、
- ⽅策
- 次の⾏動
- 以前の⾏動の意味
- RNN、LSTMなどの内部状態
- 相⼿の信念
- 不完全情報で隠されている特徴
学習時のみに興味がある→Opponent Modeling
テスト時にも興味あり→Theory of Mind
n かなり適当に⼈間の知能と結び付けて、論⽂の貢献のアピールに使われているっぽい例があ
Shota Imai | The University of Tokyo
余談 /「⼼の理論」を安易に使って燃えた例
Shota Imai | The University of Tokyo
n お互いに「相⼿の意図を読む」機能があることが既知だとした場合、無限に再起的な読
n 普通の場合(アリスだけが読む能⼒を持ち、ボブにはできないことを知っている)
- ボブ「(Aという⾏動をしよう)」
- アリス「(ボブはAという⾏動をするだろうからそれに強いBをしよう)」
n お互いに相⼿の⾏動を予測できる場合
- ボブ「(アリスは僕がAをすると思っているだろうからBを選ぶだろう。だからそれに強いCを
- ボブ「いやだけど、アリスは僕がこんなことを考えているのも読んでいるだろうからCに強い
- ボブ「それすらもアリスは読んでいるかもしれないから、Eを読んでFをしてくるかもしれな
- 以後、相⼿の推論能⼒の仮定をどこかでストップさせない限り、無限に続く(アリス側の思考
Shota Imai | The University of Tokyo
n シングルエージェントでPOMDPを扱う場合、LSTMやRNNをナイーブに適⽤し、環境に
n MARLの場合、他のエージェントの⽅策モデルのパラメータ(これは既知という仮定も
Shota Imai | The University of Tokyo
n 相⼿が何段階読むかを、レベル0(まったく読まない)、レベル1(⼀⼿先を読む)などと
n 予測した相⼿のレベルに応じて⾏動を実⾏する
- レベル0(相⼿が何も読まない)なら、⼀⼿先を読めば勝てる
- レベル1(相⼿も⼀⼿先を読む)なら、2⼿先を読めば勝てる
n ここでの相⼿に対するKの値はあくまでも推測であり、現実的には相⼿の合理性を完璧に
- 複数の被験者に、1~100のどれかの数字を書かせ、全員の書いた数字の平均の2/3に最も近い
- 簡単に推論すると、全員がランダムに数字を選ぶとして平均50。その2/3の33周辺がよさそう
- ここで、推論のレベルを⼀つあげると「他のみんなも同じことを考えて33と書いてきそうだか
- 以降、推論のレベルをあげるたびに数値は⼩さくなり、全員が合理的なプレイヤーという予測
- 実験的には、ほとんどのプレイヤーがレベル1で、⾃分はレベル2の推論で⼗分なことが多い
Shota Imai | The University of Tokyo
n 2〜5⼈の協⼒ゲーム
n RLで頻繁にベンチマークとなる主要なボードゲームなどと異なり、ゲーム⽊探索による
n 相⼿の意図によって、理想的な⾏動が異なる&理想的な⾏動ではなく、メッセージ的な
n ⼼の理論系(相⼿の⾏動を読んで⾃分の⽅策のinputとして使う等)の主要ベンチマーク
Shota Imai | The University of Tokyo
Hanabiのルール 1/2
n 各プレイヤーは⼿札として、4枚(プレイヤー数が2 or 3名の場合は5枚)のカードを持
n 各カードは⾚緑⻘⽩の5⾊と1~5の数字の組み合わせ(例:⾚の5など)で分類され、全
50枚、各⾊10枚のカードがある(各⾊について1は3枚、2, 3, 4は2枚、5は1枚)
n プレイヤーは⾃分の⼿番に、⾃分の⼿札を場に出す(プレイ)、⼿札を捨てる、他のプ
n ゲームの最終⽬的は、各⾊について1から順番に場に出して5まで揃えること(各⾊につ
n ⾃分の⼿札は⾒えないが、他のプレイヤーの⼿札は全て⾒える
Shota Imai | The University of Tokyo
Hanabiのルール 2/2
n 他のプレイヤーに与えるヒントは、ある個⼈プレイヤーに対し、「そのプレイヤーが持
つ同じ⾊のカードを全て教える(数は教えてはいけない) 」のどちらかで、⼀部だけ教
- 例:P2に対して「1枚⽬と3枚⽬は⾚⾊」
n ヒントを与えるとトークンを1つ消費するが、カードを捨てる⾏動を選択するとトーク
- 捨てられたカードは全プレイヤーが⾒れるようになる
- カードを捨てた後、1枚カードを引いて補充する
n 各⾊について、必ず数字順にプレイしなければならない
- 例えば、⽩1、⽩2が揃っている時に⽩4を出したら1ミス
n 3回ミスするか、5⾊全て揃えるとゲーム終了
- 終了時点で場に正しくプレイされていたカードの総数が得点になる(MAX25点)
Shota Imai | The University of Tokyo
n ⾏動による暗黙のコミュニケーション
- ヒントの与え⽅によって、ヒントで陽に⽰している以上の情報を与えることが可能
- 例:右下図の状況でP0が、P1に対し、「4枚⽬は⾚」のヒントを与える
- P1視点だと4枚⽬のカードが⾚以外の情報はないので、本来はプレイする情報が⾜りていないが、逆に考
n Finesse(もう少し⾼度な暗黙コミュニケーション)
- P0がP2に対し「3枚⽬は2」のヒントを与える
- P2視点だと、このヒントをもらった場合に考えることは「おそらくこの2は⽩」(場にG1とW1がある
- これは間違いで、実際は⾚2なので、このままいくとP2はミスする
- P0の次の⼿番のP1視点だと「このままだとP2は失敗する。だが、P0があのようなヒントを出したからに
Shota Imai | The University of Tokyo
n 今回発表する⼿法以前は、機械的な⼿法では⼈間の知識を⼤量に⼊れたbotが主流で、学
- ⼈間に特有の⾮⾔語的なコミュニケーションを読み取れない
- テスト環境で学習時と別のエージェントとプレイすると、学習した⽅策が機能しない
n 今回紹介する⼿法についても、⼆⼈以上のプレイではスコアが極端に下がる
Shota Imai | The University of Tokyo
BAD; Bayesian Action Decoder
n マルチエージェント強化学習(ここではHanabi)において、相⼿の⾏動から⾒えない情
n 相⼿の信念の推論はベイズ推論により、割と簡単に定式化可能だが、再起的に信念を推
n BADでは全てのエージェントに公開されている情報(public features)を⽤いて、全て
のエージェントに共通の信念(public belief)を推論し、適切な決定論的⽅策を実⾏する
Shota Imai | The University of Tokyo
n 𝑎 ∈ 1. . 𝑁:エージェント
n 𝑢!
n 𝑜!
n 𝑠!:時刻tにおける環境の真の状態
n 𝑂(𝑎, 𝑠!):観測関数
n 𝜏!
, 𝑢#
, … , 𝑜!
n 𝜋"(𝑢!
n 𝐮! = (𝑢!
, . . , 𝑢!
n 𝑃 𝑠!&$ 𝑠!, 𝐮!):遷移関数
n 𝑟!&$(𝑠!, 𝐮!):チーム報酬
n 𝐵!:信念(これまでの履歴などからどんな隠れ状態にあるか確率的に表す)
Shota Imai | The University of Tokyo
n ℎ!:エージェントの⼿札
n ボブの⾃分の⼿札に関する信念 𝐵" = 𝑃(ℎ"|𝑢#)
n ここでは、アリス(ボブの⼿札ℎ"を知っている)が、アリスのターンであるカードを捨てる
n 𝑃(𝑢#|ℎ")は普通のRLの⽅策とみなせる
Shota Imai | The University of Tokyo
n アリスの⽅策は、アリスの信念𝐵%と公開情報𝑃𝑢𝑏に条件づけられているとみなせる
n 信念は⾃分の⾒えていない⼿札の予測(B' = 𝑃(ℎ%))
n 𝐵%はどのように推論する?
Shota Imai | The University of Tokyo
n 全てのエージェントに公開されている情報で条件づけて、全エージェントの信念をまと
めて推測した信念をPublic	beliefとすれば、全エージェントで共通の信念を共有できそう
𝐵% = 𝑃 ℎ% ℎ(, 𝑓)*+
𝐵( = 𝑃(ℎ(|ℎ%, 𝑓)*+)
→ 𝐵! = 𝑃(ℎ%, ℎ(|𝑓)*+)
n Public beliefを利⽤する⽅策𝜋(%,(Public agent)を導⼊し、𝜋(%,によって、ある時刻に
Shota Imai | The University of Tokyo
n 𝑓!
:全てのエージェントに公開されている特徴 (public features)
n 𝑓!
:⼀部のエージェントのみが⾒れる情報 (private features)
- 𝑓!
:エージェントaのみが参照できるprivate feature
- ⾃分だけが⾒れる⼿札、ℎ#など
n Public belief 𝐵! = 𝑃(𝑓!
- 𝑓!"
=( 𝑓&
, . . , 𝑓"
n 𝜋(%, :Public agentの⽅策
n D
𝜋 ∶ {𝑓"} → 𝒰:個別エージェントの決定論的⽅策(Partial Policy)
n 𝑠(%,: 𝐵!と𝑓)*+を⼀まとめにした概念
n D
𝜋 ~ 𝜋(%,(D
𝜋 |𝑠(%,)
Shota Imai | The University of Tokyo
PuB-MDP(Public belief MDP)
Shota Imai | The University of Tokyo
Public Belief
n 全てのエージェントの可能な𝑓)-.の組み合わせに確率を割り振った⾏列
Shota Imai | The University of Tokyo
アリスの⼿札ℎ'、ボブの⼿札ℎ(、𝑃(ℎ', ℎ()
23344, 11122, 0.000
23344, 11123, 0.002
44444, 55555, 0.001
𝐵! =
{ }
Partial PolicyとPublic Policy
n Partial Policy D
𝜋は特定の𝑓)に対応する⾏動リスト、Public Policy 𝜋(%,はいくつかあるD
Shota Imai | The University of Tokyo
{ }
𝜋 =
Public Policyの更新
n プレイヤーが⾏動する各時間ステップごとに、その時刻のプレイヤーの⾏動𝑢!
𝐵!、選択されたpartial policy D
Shota Imai | The University of Tokyo
n 実際には、Public belief⾏列はかなり⼤きいので、いくつか計算上の⼯夫を⾏って⼩さく
している(論⽂中”Factorised Belief Updates”, Self-Consistent Beliefsの部分)
n 実装上は、 D
𝜋 ~ 𝜋(%,(D
𝜋 |𝑠(%,) = 𝜋(%,(D
𝜋 |𝐵!, 𝑓)*+)の部分については、パラメータθを持
つMLPネットワーク 𝜋1(𝑢|𝑓", 𝑠(%,) を使って近似している(出⼒の𝑢は全ての⾏動候補)
Shota Imai | The University of Tokyo
n 異なる公開情報をベースにした⼊⼒を⾏うLSTMベースのエージェントと、既存の最強の
n ⽅策更新のRL⼿法としてはActor-Criticの⽅策オフ⼿法(IMPALA)を使⽤
n 注意として、ここでは2⼈のHanabiしか評価していないため、BADの強さは限定的
Shota Imai | The University of Tokyo
n テスト時に、エージェント間で、特定の⾏動が暗黙的なメッセージになっているプレイ
- 例えば、⾚⾊or⻩⾊のカードに関するヒントを与えた場合には、「⼀番新しいカードをプレイ
n 論⽂Appendixにおいて、過去のHanabiの最強botの作者がテスト時のBADエージェント
Shota Imai | The University of Tokyo
n テスト環境が2⼈のHanabiで⽐較的簡単(⼈間の普通のゲームなら普通もっと多⼈数)
n Public Agent、⽅策パラメータが同じという仮定が⾮現実的
n 公開情報がドメイン依存で、汎⽤性が低い
n 計算コストが⼤きい(𝑓)*+が膨⼤)
Shota Imai | The University of Tokyo
SAD; Simplified Action Decoder
n 公開情報をベイズ推論に組み込むBADの⼿法は、⼆⼈プレイHanabiで⾼パフォーマンス
n SADでは公開情報を必要とする部分(Public Policy、決定論的Partial Policy)を廃し個
- 個別エージェントはε-greedy探索を採⽤して学習時に探索を⾏う
- BADでは探索の部分を、Public policyが公開情報で条件づけて確率的に選択するpartial policy
n 個別のエージェントの確率的な探索の導⼊により、不安定になった信念のベイズ推論を
n 「Simplified」の名の通り、⼿法は⾮常にシンプルで簡潔な発想
Shota Imai | The University of Tokyo
n 𝜏!:環境の⾏動-状態履歴
n 𝜏!
n 𝐵(𝜏!)環境の履歴に関する信念
n SADにおける推論
n BADの時と同じく、⾃分の参照できる情報(⾃分の履歴)と相⼿の⾏動を観測したと
Shota Imai | The University of Tokyo
n 個別のRNNエージェントは学習中に、ε-greedy探索を採⽤
n 各エージェントの⾏動は、確率εでランダムに実⾏された⾏動かもしれず、信念状態の
n ε-greedy探索を⾏う場合の⽅策の表現
n 𝑢∗(𝜏!)はgreedyな⾏動、 𝑢∗ 𝜏! = 𝑎𝑟𝑔𝑚𝑎𝑥 * 𝑄""
(𝑢, 𝑂(𝑎0, 𝜏!))、𝑰は指⽰関数
n 上記を信念の推論に適⽤すると、計算困難
Shota Imai | The University of Tokyo
n 学習中に、エージェントは2種類の⾏動を実⾏する
- 𝒖𝒂:実際に環境に対して実⾏されるアクション(greedyかランダム選択かは問わない)
- 𝒖∗
上記のうち𝒖𝒂はそのまま環境に対して実⾏。そして、 𝒖∗については環境に対して実⾏せず、他
n 本来は最適でなかった⾏動𝒖𝒂を実⾏した後「俺は本当は⾏動𝒖∗ をやりたかった」とメッセー
n テスト時はεの値が0で、 𝒖𝒂と𝒖∗ は常に⼀致するため、⾏動を送信する必要はない
Shota Imai | The University of Tokyo
n SADと他のMARLのRNNを使う⼿法を、⼆⼈以上のプレイヤーによるHanabiで評価
n 強化学習はDQNベース
n BADより⾼パフォーマンス&⼆⼈以上のゲームでもほぼSOTA
Shota Imai | The University of Tokyo
n ロボット&Visual observation✖⼼の理論
Visual behavior modelling for robotic theory of mind
- 実機ロボットの軌道の観測から別の時間の観測を予測できるか
n ⾔語✖⼼の理論
Few-shot Language Coordination by Modeling Theory of Mind
- 指⽰ゲームで、相⼿の⾔語認識レベルに応じた指⽰を⾏えるか
n 実験的な⼈間の知能との関連性
Negotiating with other minds: the role of recursive theory of mind in negotiation with
incomplete information
- ⼈間のレベルK理論では、レベル2の寿司論を⾏うのがちょうどいいとされているが、機械的
- 機械的なエージェントのシミュレーションでもレベル2程度を採⽤すると⼀番効率がよい
Shota Imai | The University of Tokyo

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜