SlideShare a Scribd company logo
1 of 76
Download to read offline
GMOインターネット
次世代システム研究室
勝田 隼一郎
2018/7/20 立教大学
深層強化学習で
マルチエージェント学習
(前篇)
2
前篇の内容をまとめたブログが以下にあります
(動画が見られるので、わかりやすいはず)。
「深層強化学習で集団行動を機械に学習させた
い!」
https://recruit.gmo.jp/engineer/jisedai/blog/multi-
agent-reinforcement-learning/
実験結果の詳しい結果は以下にあります。
(maddpg/experiments/my_notes/のexp1か
らexp6)
https://github.com/jkatsuta/exp-18-1q
3
本研究の目的
AlphaGoなどで有名になった深層強化学習。
強化学習とは、正解のない世界でより良い方法
を模索する手法。本研究の目的は、その手法の
中でも有望なself-playと、さらに実世界への
応用に重要になるであろうmulti-agent
reinforcement learning (MARL)について調
査し、理解を深めること。
Ê4
Outline
1. 深層強化学習とは
1. 強化学習(RL)
2. Self-play RL
3. Multi-agent RL
2. 実験1 (デフォルト実験環境)
3. 実験2(自作実験環境: suikawari1, 2)
5
自己紹介
勝田 隼一郎
• 大学時代:
ボートに熱中しすぎ留年
• 東京大学大学院理学系
研究科物理学 修了(博士)
• Stanford大学と広島大学で
ポスドク(日本学術振興会;
高エネルギー宇宙物理学)
2016.4: GMOインターネット
次世代システム研究室
データサイエンティスト兼アーキテクト
6
次世代システム研究室
http://recruit.gmo.jp/engineer/jisedai/
1. お客様の笑顔のため
2. No.1 サービスを目指し
3. GMO インターネットグループの重要なプロジェクトの
成功を技術面でサポートする部署
7
主にアドテクをやってます。
GMOアドマーケティング社のサービスである
アドネットワークやDSPの広告配信最適化の
モデルの構築など。
やってること
8
深層強化学習とは
Ê9
深層強化学習とは?
深層学習の技術を
強化学習という学習フレームワークに応用
ここでは強化学習について説明する。
深層学習については、強化学習のフレーム
ワークを実現するのに便利な道具、と思って
もらえば良い。
参考:「Deep Q-LearningでFXしてみた @ slideshare」
https://www.slideshare.net/JunichiroKatsuta/deep-qlearningfx
Ê10
強化学習は、機械学習の一種
教師あり学習
教師なし学習
強化学習
11
機械は何を学習してる?(教師あり学習)
input
data
output
data
与えられたデータyに合うように
パラメータを学習(機械を人に見立てている)
モデル
x f(x) = ax + b f(x) vs y
f(x) = 1*x + 7 f(x) = 2.1x + 1.6
12
機械学習とは
数式(モデル)= “機械”のパラメータを、デー
タに合うように、最適化 = “学習”すること
深層学習も原理は全く同じ。
何か神秘的なことが起きているのではない。
13
教師あり学習 vs 強化学習
例:無人島サバイバル
教師あり学習
“ツアー:無人島サバイバルを体験しよう!
# 経験豊富ガイドがいるので安全です!”
• ガイド(教師)がいる。
• 参加者(学習者)は、ガイドの言うとおりにす
れば(正解データを真似すれば)、魚を釣り、
火を起こせる。サバイバルには困らない。
14
教師あり学習 vs 強化学習
強化学習
= “リアルガチな無人島”
• 教師がいない。
• 一人で行動し、その行動の結果から学習する。
• 正解がわからない中で、”正しそう”な「方針」
を学ぶ。効率的な学習をしないと死んでしま
う。。
15
強化学習の概念図
Agent (学習者)が
環境からの
情報(状態、報酬)を
もとに、最適(最終
的な報酬が最も高く
なる)な行動をとる
ように学習する技術
16
囲碁の場合
• 状態: 盤上の碁の位置
• 行動: 自分の石を一つ置く
• 報酬: 勝つか負けるか
17
Self-play学習
18
強化学習
19
Self-play
20
注:
• 前頁ではわかりやすさのため、2 agentsで分
けたが、囲碁のように完全に対照的なゲームの
場合、agentは2体でもモデルは1 agent分あ
れば十分。
• ただし非対称な場合は、agentごとにモデル
が必要なので、前頁の方がより一般的な場合に
当てはまる。
• もちろん、より一般的にはN agentsに拡張で
きる。
21
Self-play
• 人の知識が要らず、機械だけで学習
• 人が楽
• 人が考えないような行動を学習する可能性
• 膨大な回数のゲームを(疲れずに)行える
• 対戦相手が徐々に強くなることで、単純な環
境/ルールから複雑な行動の学習が可能
→ 囲碁以外にも応用できそう!
22
参考論文
下記論文(2017/10発表)を参考にする
23
以下の詳しい話は、
ブログ
「深層強化学習のself-playで遊んでみた!」
https://recruit.gmo.jp/engineer/jisedai/blog/self-play/
スライド
「深層強化学習のself-playで、複雑な行動を
機械に学習させたい!」
https://www.slideshare.net/JunichiroKatsuta/
emergent-complexity-via-selfplay-of-deep-
reinforcement-learning
があるので、気になる方は見てください。
24
実験の内容
自陣からスタートして、相手陣地の
ゴールに先についたAgentの勝利
Agent0
Agent1
下記ゲームを、敵対するAgent同士で争わせ
る。勝利 = 報酬。
 相手に勝つ様に互いが学習することで、どち
らも強いAgent
run-to-goal-ants-v0:
に成長していく、、
はず。
25
実験2
ルール
論文の通り。2体のAgentが、
相手より早くゴールに到達す
るように学習する。
Agent0:
learning
25
Agent1:
learning
26
iter = 0 Agent0
Agent1
27
Agent0 (iter = 970)
vs
Agent1 (iter = 970)
28
Multi-agent
Reinforcement Learning
29
Multi-agent RLとは
その名の通り、multi (複数)のagent(=
player)による強化学習 (RL)。
なぜMulti-agent強化学習(MARL)?
1. 現実世界への応用を見据えて
 1-2 agent(s)というのは、かなり特殊な状
況。ゲームなどの仮想世界では実現しやすい
が、現実世界においてはレア。
30
Multi-agent RLとは
2. Self-playを超えて
 典型的なself-play学習は1対1で、競争によ
る学習。味方は自分一人であり、学ぶのは敵
対行動(競争)。
 MARLならば味方が複数、敵がいない、など
の環境もあり、競争だけでなく協力的行動も
学べる。
→ e.g., 実世界での、人間との協調行動の学習
31
MARL
32
33
以下の論文(2017/06発表)を元に、MARLの
理解を深める。
34
本実験でやること
•環境(MAPE)
• https://github.com/openai/multiagent-particle-
envs
•MARLを学習するアルゴリズム (MADDPG)
• https://github.com/openai/maddpg
上述の論文の再現実験を行う。MAPEにある複数の
gameで学習する。論文にはほぼ学習結果しか書かれ
ていない。自前で実験することで、途中経過も観測
可能となり、結果と合わせて考察する。
35
本実験で工夫したこと
• (おそらくライブラリのversionの違いにより)
動かない箇所があったので、動くようにコード
を修正。
• 実験しやすいようにコードを修正。
• 上手く学習できないゲームについて、学習方法
を少し工夫(後述)。
• MPPEを使い、新しい実験環境を作成、実験。
36
実験環境
LocalのGPUマシン
 NVIDIA GeForce GTX 1070(6.5
TFLOPS, 8 GB memory)。ただし、
Macbook air (1.6 GHz, 8 GB memory)の約
2倍改善した程度。別の部分がbottle neckに
なっている?
Training時間
 ゲームに依る。簡単なものなら1-2分。複雑
なものなら、~6 hr。
37
参考論文の面白いところ1: 手法
背景
MARLの難しさの一つは、複数のAgentの利害
が重なる中で学習を行うため、適切に学習で
きない(収束しない)こと。
→参考論文では、この課題を克服するため、
MADDPGという手法を考案している。
MADDPG: Multi agentに対応したDDPG。
DDPGはActor-criticというRLの手法の一つ。
38
参考論文の面白いところ1: 手法
Trainingする時
神の視点。全てのAgentの
観測情報、行動情報を
使って学習。
学習モデルを使う時
各Agentの視点。各Agentが取得できる情報
のみを使用。
→ 神の視点で学習することで、大局的な行動を
学習しやすくなる。
39
参考論文の面白いところ2: 環境
背景
MARLの難しさの一つは、計算量の増加。
→ 参考論文では、MAPEという環境を採用。
円状のAgentが、2次元のマップ上で
(discreteに)動く環境。
→ simpleにして計算量を削減することで、本
質的な行動の学習(競争、協調)にfocusでき
る環境。 
40
+Agentの行動は、普通に2Dマップ上を動く
んだけでなく、言語を話したり、聞くことが
できる(= Agentが記号を(行動として)発
したり、観測情報として受け取ることができ
る; 後述)。
41
実験1
(デフォルト環境)
42
Game1
Episode=1000
43
Game1 Episode=60,000
44
Game1 rule & 考察
• 1Agent (チェックのための単純な環境)
• 灰色landmarkに近づくほど報酬がもらえる
• →非常にsimple. 問題なく学習できている
45
Game2 Episode=3,000
46
Game2 rule
3 Agents + 3 landmarks
• Agentの報酬は、landmarkに近づくこと
• 近づけば近づくほど、報酬はもらえる。どの
landmarkもgoal.
• したがって、1 agent - 1 landmarkで譲り合っ
て移動すると最も報酬が高くなる
47
Game2 Episode=10,000
48
Game2 Episode=60,000
49
Game2考察
期待通りの学習
•学習Episodeが進むごとに、譲り合って移動する
のが素早くなる。
•= 相手Agentの位置から、他のAgentがどの
landmarkに向かうかを事前に”理解”して、譲り
合って自分の向かうlandmarkを決めている。
50
Game3 Episode=3,000
51
Game3 rule
緑Agent(ガゼル)x 1
• 赤Agentに捕食(= 接触)されると負の報酬
(=接触されないように逃げる)。
赤Agent(ライオン)x 3
• 緑Agentを捕食(= 接触)すると正の報酬(=
接触するように追いかける)。
52
Game3 Episode=60,000
53
Game3考察
•Episode=60,000では、追いかける学習はできて
いるものの、3赤Agent全員で(チームワーク
で)捕食する学習はないように見える。
•学習パラメータとして、1 episodeの長さ
(max_epi_len)がある。
•→ このepisodeの長さが短かったため、長期的
に獲物を狩る学習ができなかった?
54
Game3(max_epi_len = 25 → 400)
Episode=5,000
55
Game3考察2
•max_epi_len = 25→400にすると、学習がより
できなくなっている。
•(advanced)初期のrandomな動きがreplay
bufferでdominantになり、正しく行動するデー
タがなくなるためと思われる。
56
Game3
max_epi_lenを、学習ごとに少しずつ増やしてい
く。
max_epi_len learning curve
57
Game3 Episode=40,000
58
Game3考察3
•最終的に2 agentsで追うときもあるが、基本的
には、挟み撃ち、追い込み、などチームプレイ
(集団行動)が学習できた!
59
実験2
(自作の実験環境)
60
Game: スイカ割り(suikawari)
指示agent + 移動agent + スイカ
• スイカを割るagent(:= 移動agent)は”目隠し”
されているため、スイカの位置がわからない。指
示agentの指示を聞いて、どこにスイカがあるか
を推定して動く。
• 指示agentはスイカの位置は知っているが、動け
ない。指示で、移動agentをスイカに導く。
• どちらのagentも報酬は同じで、移動agentがス
イカに近づくほど多くもらえる。
61
Game: スイカ割り(suikawari)
• 指示agentのaction(指示する声)は5種類(便
宜上、A, B, C, D, Eと呼ぶことにする)に設定。
これは”移動agent”の動きの種類の数(上、下、
右、左、何もしない)と同じ。
62
suikawari2 Episode=1,000
63
suikawari2
Episode=1,000
64
suikawari2考察1
• 学習途中(学習量が足りない)モデル
• 前頁の図は、
• 指示agentの行動(声;上図)と移動agentの
行動(動く方向;下図)のstepごとの値。
• 動画のagent行動に対応。
• 黄色い点線は、episodeの区切りです。
• 学習途中のため、適切に指示や移動ができていな
い。指示と移動に対応関係は見られず、ランダム
に動いているように見える。
65
suikawari2 Episode=30,000
66
suikawari2
Episode=30,000
67
suikawari2考察2
• 十分に学習したモデル
• 期待通り、指示agentの”声"と移動agentの動く
方向は(ほぼ)1対1に対応
• A: 動くな (neutral)
• B: 上に動け
• C: 左に動け
• D: 下に動け
• E: 右に動け
68
suikawari2考察2
• 指示と行動が対応して、指示も無駄のない的確な
ものになっている(episode=1000の場合と比
較するとわかりやすい)。
• スイカ到達後は「A: 動くな」になりスイカ付近
に効率的にとどまっている。
→ 意味の伝達の学習ができた
69
suikawari2 (MADDPG -> DDPG)
Episode=100,000
70
suikawari2 (DDPG)
Episode=100,000
71
suikawari2考察3
• MADDPGの場合と比較して、適切な学習ができ
ていない。
→ この実験においては、MADDPGの方が適切な学
習方法
• MADDPGでは神の視点の情報でtrainingするた
め、伝達の学習が容易。
•DDPGは単体用のアルゴリズムなので、指示
agentと移動agentの伝達の学習が難しい。
72
まとめ(前篇)
73
まとめ
•MARLの深層強化学習の手法について、参考論文
の再現実験を通して理解した。
•いずれの手法も複数Agentの学習であり、学習
が複雑になる。そのため学習結果は、初期位
置、学習パラーメータなどに依存しやすいこと
を確認した。
74
まとめ
•MAPEのライブラリに付属する実験環境でagent
に学習を行わせ、結果の考察から、マルチエー
ジェントという環境ならではの協力関係、チー
ムプレイなどが学習されていることを確認し
た。
•またMADDPGが、チームプレイを創出する上で
(単体用のアルゴリズムより)優れていること
を確認した。
75
まとめ
•MAPEの環境を用いて、新しい実験環境
suikawariを作り、実験を行った。
•これは意味の伝達の実験であり、ここでもDDPG
では難しい学習が、MADDPGによって適切に学
習できることがわかった。
76
後篇へGo!

More Related Content

What's hot

多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫Masahiro Yasumoto
 
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較gree_tech
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習Yusuke Nakata
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~Kenshi Abe
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral CloningDeep Learning JP
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 

What's hot (20)

多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
 
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 

深層強化学習でマルチエージェント学習(前篇)