2. 書誌情報
マルチエージェント強化学習で「⼼の理論」と関連する(と主張する)研究の⼀部を紹介
1. The Hanabi Challenge: A New Frontier for AI Research
- 著者:Nolan Bard, , Jakob N. Foerster et al.
- arXiv:1902.00506
2. Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning
- 著者:Jakob N. Foerster, H. Francis Song et al.
- ICML2019
3. Simplified Action Decoder for Deep Multi-Agent Reinforcement Learning
- 著者:Hengyuan Hu, Jakob N Foerster
- ICLR2020
Shota Imai | The University of Tokyo
2
4. マルチエージェント強化学習(MARL; Multi-Agent Reinforcement
Learning)
n マルチエージェント分野の研究分野全体はマルチエージェントシステム(MAS)とよば
れる
n MASの中でもエージェントの「学習(機械学習)」に興味があるものはマルチエージェ
ント学習と呼ばれる分野
n マルチエージェント強化学習はマルチエージェント学習の中でもエージェントの学習ア
ルゴリズムとして強化学習を使っている⼿法
n 端的に⾔うと、環境中に学習するエージェントが複数いる環境における強化学習
- 囲碁や将棋などのボードゲームもMARLの⼀部
- 最近の例ではStarCraftのAlphaStarが有名
- なお、エージェントして⼈間を含んでも良い
Shota Imai | The University of Tokyo
4
5. 注意 / MARLに特有の概念
(CTDE; Centralized Learning Distributed Execution 中央集権型学習分散型実⾏)
n 現在のMARLの最重要概念(だが、今回の発表の本質ではない)
n 後ほど、「学習中はお互いの⽅策は既知」、「2種類の⾏動のうち⼀つを他のエージェ
ントに送信」など、普通の設定では⾮現実的な概念が出てくるが、MARLではこのCTDE
の仮定を置いて許容している
n 中央集権型学習:学習時のみ,勾配を計算する時に全体のエージェントの情報を含む環
境の「中央の状態」を使う
n 分散型実⾏:テスト時には,各エージェントは⾃⾝の部分観測のみを⼊⼒として⽅策を
実⾏
n COMA[Foerster+ 2017]以降,特に⽤いられるアプローチで,
“in many cases, learning can take place in a simulator or a laboratory in which extra
state information is available and agents can communicate freely”(Foerster+ 2016)
つまり,「マルチエージェントの学習は,研究的な環境でシミュレータ等を使えるため,
学習を促進するために追加の状態の情報を使ってもよい」という仮定によるアプローチ
n 当然,本来エージェントが動作するテスト環境は,基本的に各エージェントが個別の観
測だけを受け取って強調しているため,状態の追加情報は使えない
Shota Imai | The University of Tokyo
5
7. 他のエージェントの意図を「読む」⼿法の研究
n 他者モデリング(Opponent Modeling)
- 学習時の⾮定常性を解決するために使⽤されるのが主
- ⾃分以外のエージェントの⽅策をモデリングし、それを⾃分のモデルの⼊⼒とすることで、⾮
定常性を緩和
n ⼼の理論(Theory of Mind)
- 不完全情報ゲームなどで、推論時に相⼿がどのような意図を持っているか推定
Shota Imai | The University of Tokyo
7
8. ⼼の理論
n 1978年霊⻑類学者David Premackが「チンパンジーは⼼の理論を持つか」という論⽂で
提唱した概念で、⾃分以外の他者の意図を適切に推測する能⼒
- ⾼度な知能を持ち、集団⽣活をするチンパンジーは他の仲間の⼼の状態を推測できるかもしれ
ないと考え、他者の⽬的、意図などが適切に推測できれば「⼼の理論を持つ」とした
- 「理論」という表現は、⼼の状態は直接⾒る(魔法!)ことができず、何らかの基礎的な法則、
経験則から物理法則のように推論に基づいて構成されることから
n 1983年のWimmer&Pernerは誤信念課題(後述)を⽤いて、⼈間の⼦供が、4~7歳にかけ
て⼼の理論を持つようになることを⽰した
n 最近、機械学習、特に複数エージェントが存在するマルチエージェント強化学習の分野
でこの概念と絡めた研究が複数発表されている
Shota Imai | The University of Tokyo
8
9. 誤信念課題
n 通称「サリーとアン課題」と呼ばれる、
被験者に以下の展開を⾒せる
1. サリーがカゴにボールを⼊れる
2. サリーが部屋を去る
3. アンがサリーがいない間にカゴから箱の中にボールを移動させる
4. アンが帰ってくる
被験者に対し「このときアンはボールがどこにあると思っているか」
を問う
n アンが「カゴの中にボールがある」という誤った信念を持っている
ことを、被験者⾃⾝の知識と切り離して、アンの⼼を推論して
答える必要がある
n 4歳〜7歳にかけて正答率が向上
Shota Imai | The University of Tokyo
9
出典:https://en.wikipedia.org/wiki/File:Sally-Anne_test.jpg
10. 機械学習の世界における⼼の理論
n 定義は完全に混沌としている
n 強化学習のみならず、⾃然⾔語処理、画像認識など様々な場⾯で⼿法を「⼼の理論」と関連
づけた例が多数
n マルチエージェント強化学習だけで⾒ても、⾮常に多様な⼿法に分類可能
n ⾃分以外のエージェントに関する、
- ⽅策
- 次の⾏動
- 以前の⾏動の意味
- RNN、LSTMなどの内部状態
- 相⼿の信念
- 不完全情報で隠されている特徴
を推論し、他のエージェントとの協調・競争に役⽴てる⼿法で、
学習時のみに興味がある→Opponent Modeling
テスト時にも興味あり→Theory of Mind
n かなり適当に⼈間の知能と結び付けて、論⽂の貢献のアピールに使われているっぽい例があ
るので、知能論と関連づけて考えすぎるのはNG
Shota Imai | The University of Tokyo
10
16. Hanabiのルール 1/2
n 各プレイヤーは⼿札として、4枚(プレイヤー数が2 or 3名の場合は5枚)のカードを持
つ
n 各カードは⾚緑⻘⽩の5⾊と1~5の数字の組み合わせ(例:⾚の5など)で分類され、全
50枚、各⾊10枚のカードがある(各⾊について1は3枚、2, 3, 4は2枚、5は1枚)
n プレイヤーは⾃分の⼿番に、⾃分の⼿札を場に出す(プレイ)、⼿札を捨てる、他のプ
レイヤーにヒントを与える、のいずれかの⾏動を選択
n ゲームの最終⽬的は、各⾊について1から順番に場に出して5まで揃えること(各⾊につ
いて5枚揃うことを”花⽕を打ち上げる”と表現)
n ⾃分の⼿札は⾒えないが、他のプレイヤーの⼿札は全て⾒える
Shota Imai | The University of Tokyo
16
プレイヤー0(P0)視点のHanabi
20. BAD; Bayesian Action Decoder
n マルチエージェント強化学習(ここではHanabi)において、相⼿の⾏動から⾒えない情
報について何らかの推測ができれば、適切な⾏動と協調が可能
n 相⼿の信念の推論はベイズ推論により、割と簡単に定式化可能だが、再起的に信念を推
論する部分で計算が爆発する
n BADでは全てのエージェントに公開されている情報(public features)を⽤いて、全て
のエージェントに共通の信念(public belief)を推論し、適切な決定論的⽅策を実⾏する
⼿法を提案
Shota Imai | The University of Tokyo
20
21. 記号定義
n 𝑎 ∈ 1. . 𝑁:エージェント
n 𝑢!
"
:時刻tにおけるエージェントaの⾏動
n 𝑜!
"
:時刻tにおけるエージェントaの観測
n 𝑠!:時刻tにおける環境の真の状態
n 𝑂(𝑎, 𝑠!):観測関数
n 𝜏!
"
=(𝑜#
"
, 𝑢#
"
, … , 𝑜!
"
):エージェントaの⾏動観測の履歴
n 𝜋"(𝑢!
"|𝜏!
"):エージェントaの⽅策
n 𝐮! = (𝑢!
$
, . . , 𝑢!
%
):共同⾏動
n 𝑃 𝑠!&$ 𝑠!, 𝐮!):遷移関数
n 𝑟!&$(𝑠!, 𝐮!):チーム報酬
n 𝐵!:信念(これまでの履歴などからどんな隠れ状態にあるか確率的に表す)
Shota Imai | The University of Tokyo
21
34. SAD; Simplified Action Decoder
n 公開情報をベイズ推論に組み込むBADの⼿法は、⼆⼈プレイHanabiで⾼パフォーマンス
だったが、公開情報の利⽤が計算コストの増⼤と汎⽤性の低さにつながる
n SADでは公開情報を必要とする部分(Public Policy、決定論的Partial Policy)を廃し個
別の信念を持つRNNエージェントが個別の⽅策を表現
- 個別エージェントはε-greedy探索を採⽤して学習時に探索を⾏う
- BADでは探索の部分を、Public policyが公開情報で条件づけて確率的に選択するpartial policy
で代替していた
※ここでの公開情報とは、普通にプレイして観測できる他エージェントの⾏動𝑢)などではなく、⼭札
中の残りのカード数や、ヒントから推論できるカードの詳細情報など、利⽤にコストがかかるもの
n 個別のエージェントの確率的な探索の導⼊により、不安定になった信念のベイズ推論を
解決するため、学習中に環境に対して実⾏される⾏動と単に他のエージェントの⼊⼒と
なる⾏動の⼆つを利⽤
n 「Simplified」の名の通り、⼿法は⾮常にシンプルで簡潔な発想
Shota Imai | The University of Tokyo
34
39. その他の⼼の理論周りの話題
n ロボット&Visual observation✖⼼の理論
Visual behavior modelling for robotic theory of mind
- 実機ロボットの軌道の観測から別の時間の観測を予測できるか
n ⾔語✖⼼の理論
Few-shot Language Coordination by Modeling Theory of Mind
- 指⽰ゲームで、相⼿の⾔語認識レベルに応じた指⽰を⾏えるか
n 実験的な⼈間の知能との関連性
Negotiating with other minds: the role of recursive theory of mind in negotiation with
incomplete information
- ⼈間のレベルK理論では、レベル2の寿司論を⾏うのがちょうどいいとされているが、機械的
なエージェントではどの程度のレベルが最適か実験的に明らかに
- 機械的なエージェントのシミュレーションでもレベル2程度を採⽤すると⼀番効率がよい
Shota Imai | The University of Tokyo
39