SlideShare a Scribd company logo
1 of 46
Download to read offline
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeNA	Co.,	Ltd.	
システム	&	デザイン本部	
AI	システム部	AI	研究開発グループ	
甲野	佑
強化学習技術とゲーム	AI		
〜	今できる事と今後できて欲しい事	〜
甲野	佑	
所属	:	株式会社ディー・エヌ・エー	AI	システム部	AI	研究開発グループ	
出⾝	:	東京電機⼤学	(学部〜博⼠)	
研究	:	強化学習	+	神経⽣理・認知モデル	
〜2017年3⽉:	⼤学で強化学習の研究してきました	
2017年4⽉〜:	強化学習を応⽤したゲーム	AI	の研究開発をしています	
⾃⼰紹介
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
2
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
3
ゲーム	AI	の進化と強化学習の貢献の話	
あるいは	
強化学習の進化におけるゲーム	AI	の貢献の話
本⽇のテーマ
はじめに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
4
2010	年代前半「囲碁で⼈間に	”機械”	が勝つのは10年先の話」	
2016	年	3	⽉	9	⽇	AlphaGo	(DeepMind)	がイ・セドル九段に勝利	
DeepMind	は「10	年」を早送りした	
ゲーム	AI	に「何が」起こったのか?	
本当に知的な「強いゲーム	AI」に近づいたのか?
⽬次
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
5
1.	はじめに	
2.	ゲームのプレイヤー	AI	の歴史	
3.	強化学習とは	
4.	強化学習	×	ゲーム	AI	のこれまでの進化	
5.	強化学習	×	ゲーム	AI	のこれからの挑戦	
6.	おわりに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
6
2014年に何かが起きている
年 備考
バッグギャモン 1990
リバーシ 1997 6	番勝負で世界王者村上健⽒が敗れる
チェス	 1998 世界王者ガルリ・カスパロフ⽒が敗れる	
※	ほぼ完勝できるようになったのは	2006	
ATARI	(レトロビデオゲーム) 2014 ⼀部のゲームでプロプレーヤーを上回る
囲碁 2016 イ・セドル九段が破れる	
将棋 2017 佐藤天彦名⼈が敗れる
ポーカー 2017 数⼈のプロ相⼿に勝利
DotaⅡ	 2017 Open	AI	製	AI	がプロプレーヤーに勝利
StarCraftⅡ 継続中 DeepMind	が研究開発中
ゲームのプレイヤー	AI	の歴史
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
7
ゲームのプレイヤー	AI	における技術進化
評価関数ありゲーム⽊探索		
(e.g.	MinMax)
評価関数なしゲーム⽊探索	
	(e.g.	MCTS)
動物の学習理論	
+	
MDP	最適制御
⼈⼯	NN	
(パーセプトロン)
強化学習	
(e.g.	Q	学習)
深層学習	
(特に	CNN)
深層強化学習	
(e.g.	DQN,	A3C)
AlphaGo Dota	Ⅱ	AI
発展中 発展中
【ゲーム⽊探索】 【ニューラルネット】 【強化学習】
〜	2010年代	前半	ゲーム⽊=ゲーム展開の有向グラフの探索が主流
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
8
ゲームのプレイヤー	AI	における技術進化
評価関数ありゲーム⽊探索		
(e.g.	MinMax)
評価関数なしゲーム⽊探索	
	(e.g.	MCTS)
動物の学習理論	
+	
MDP	最適制御
⼈⼯	NN	
(パーセプトロン)
強化学習	
(e.g.	Q	学習)
深層学習	
(特に	CNN)
深層強化学習	
(e.g.	DQN,	A3C)
AlphaGo Dota	Ⅱ	AI
発展中 発展中
【ゲーム⽊探索】 【ニューラルネット】 【強化学習】
2010年代	後半	⾼度な強化学習技術の出現
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
9
ゲーム	AI	に進化をもたらした強化学習とは?
【疑問】
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
10
を最⼤化させる
を獲得するのが⽬的
主体的に環境に働きかけ,獲得報酬を最大化する行動を学習
強化学習とは	-	教師あり学習との違い	-
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
11
が⼤きく変わるのが厄介
を更新・変化すると
主体的に環境に働きかけ,獲得報酬を最大化する行動を学習
強化学習とは	-	教師あり学習との違い	-
強化学習とは	-	教師あり学習との違い	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
12
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
未知関数
学習データ
⼊⼒ 出⼒
⼊⼒ 予測
ある現象・法則(環境)
教師あり学習器
【教師あり学習】 【強化学習】
モデル
教師あり学習の領分
観測
収集
誤差
模倣
-	学習データから未知関数を学習モデルに模倣させるのが教師あり学習	
-	環境 (⺟集団) から学習データの収集は教師あり学習の範疇外
強化学習とは	-	教師あり学習との違い	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
13
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
未知関数⼊⼒ 出⼒
⼊⼒
ある現象・法則(環境)
教師あり学習器
-	環境の遷移	(=どんなデータが⼿に⼊るか)	はエージェント⾃⾝の選択次第	
-	エージェント⾃⾝によって収集される環境情報が偏る・急激に変わる
【教師あり学習】 【強化学習】
モデル
教師あり学習の領分
予測
学習データ
観測
収集
誤差
模倣
強化学習とは	-	スキナー箱	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
14
理屈は⽝に芸を覚えさせるのとほぼ同じ	(繰り返し)	
→	基本の理屈は単純
状態:ランプ点灯 行動:ボタン押下 報酬:エサ獲得
強化
基本的には鳩の条件付け実験	”スキナー箱”	そのもの
強化学習のゲーム	AI	の何に貢献した?	
+	
近年,強化学習の何が変わった?
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
15
【疑問】
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
16
ゲームプレイ	AI	における技術進化【再掲】
評価関数ありゲーム⽊探索		
(e.g.	MinMax)
評価関数なしゲーム⽊探索	
	(e.g.	MCTS)
動物の学習理論	
+	
MDP	最適制御
⼈⼯	NN	
(パーセプトロン)
強化学習	
(e.g.	Q	学習)
深層学習	
(特に	CNN)
深層強化学習	
(e.g.	DQN,	A3C)
AlphaGo Dota	Ⅱ	AI
発展中 発展中
【ゲーム⽊探索】 【ニューラルネット】 【強化学習】
〜	2010年代	前半の主流	→	ゲーム⽊	(ゲーム展開知識)	に依存
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
17
【問題】
従来⼿法はゲーム⽊	(=	完全なゲーム展開の知識)	が既知	
ゲーム⽊が未知でもゲーム画⾯から学習したい
レトロビデオゲーム	̶	ATARI	̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
18
視覚	(CNN)		+	(Experience	Replay	+)	強化学習	=	DQN	
ゲーム⽊	(全ゲーム展開)	が既知	→	未知でも画⾯から学習可能に
Mnih,	V.,et	al.:	Human-level	control	through	deep	reinforcement	learning.	Nature,	518:529–533,	2015.	
(h:ps://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf)
DQN	-	要素技術の集合体	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
19
-	CNN	との結合によりゲーム画⾯から学習可能に	
 →	強化学習は	”視覚”	を獲得
画⾯認識	
(CNN)
⾏動価値評価	
(強化学習)
ゲーム画⾯	
(環境)
⾏動
-	勝敗	(報酬)	から学習する強化学習はゲーム	AI	と相性良
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
20
蓄積
ゲーム画⾯	
(環境)
⾏動 経験の記憶
夢

(経験再⽣)
-	ランダムに	“記憶	(夢)”	を再⽣して学習	
 →	ニューラルネットと強化学習の相性の悪さを緩和	
  -	相性の悪さ	=	i.i.d	の制約,可塑性と安定性のジレンマ	
DQN	-	要素技術の集合体	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
21
【問題】
“視覚”	=	画⾯外のことを扱えない	
(画⾯の切り替わりに弱い)	
≒	画⾯や⾏動の時系列・履歴を扱えない	
     →	ブロック崩し等	=	俯瞰課題は得意	
     →	3D迷路等	=	⼀⼈称視点課題は不可
⼀⼈称視点ゲーム	̶	3D迷路・FPS	̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
22
基底核	(Actor-Critic)	+	系列記憶	+	並列処理	=	A3C	+	LSTM	
→	ゲーム画⾯の切り替わり・⼀⼈称視点に強く
DeepMind.	Asynchronous	Methods	for	Deep	Reinforcement	Learning:	Labyrinth.	(2015,	June	14)	[Video	file]		
Retrieved	from	h:ps://www.youtube.com/watch?v=nMR5mjCFZCw	(screenshot)
→	Asynchronous	Advantage	Actor-Critic	(A3C)	とは	(中略)	
 -	並列化で	LSTM	=	短〜中期的な	”記憶	(系列)”	が使⽤可能
深層強化学習の進化	-	時系列	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
23
×	並列数分
↓	系列的な記憶
→【問題】記憶を含めても⾒えていない事は学習できない
画⾯の切り替わりを吸収LSTM
ゲーム画⾯	
(環境)
⾏動
経験の記憶
蓄積しない
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
24
環境エージェント
⾒えないものは学習できない
【問題】
制限された観測
誰が環境を変える?	
・エージェント⾃⾝	
・環境そのもの	
 -	法則	
 -	⾃分以外の何か	
 			-	何かは⼀種類?
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
25
環境エージェント
誰が環境を変える?	
・エージェント⾃⾝	
・環境そのもの	
 -	法則	
 -	⾃分以外の何か	
 			-	何かは⼀種類?
⾒えないものは学習できない
【問題】
制限された観測
他の何か種類数	×
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
26
【問題】
強化学習	AI	は対戦ゲームが苦⼿	
→	⾃分以外のエージェントが存在	&	戦略が⼀種ではない
⼆⼈対戦ゲーム	̶	囲碁	̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
27
過去の⾃⾝と⾃⼰対戦	(強化学習)	+	先読み	(ゲーム⽊探索)	=	AlphaGo	
→	様々な戦略に対応する	AI
AlphaGo	の⾏動価値
Silver,	D.,	et	al.:	Mastering	the	Game	of	Go	with	Deep	Neural	Networks	and	Tree	Search,	(1),	1–37.	2016.
深層強化学習の進化	-	⾃⼰対戦と仮想敵の構築	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
28
環境	=	様々な戦術
平均戦術
学習	
エージェント
対戦・学習
戦術G
戦術A
戦術B
戦術D
戦術C
戦術E
戦術F
なぜできたのか?【その1】	
 →	戦略が⼀種でなくても多様な戦略を平均化	(ゲーム理論)	
  -	膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』	
   -	学習段階の違いでバリエーションを担保 
深層強化学習の進化	-	⾃⼰対戦と仮想敵の構築	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
29
なぜできたのか?【その1】	
 →	戦略が⼀種でなくても多様な戦略を平均化	(ゲーム理論)	
  -	膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』	
過去の⾃⾝の戦術
仮想敵
学習	
エージェント
対戦・学習
過去G
過去A
過去B
過去D
過去C
過去E
過去F
⾃⾝を保存
ランダム	
選択
なぜできたのか?【その2】	
 -	平均化敵戦略に対してどこに打つのが「良い」かを数値化	
 -	教師あり,強化学習で学習した評価関数を先読みに利⽤	
→	発展系	AlphaGo	Zero	(⼈間の知識の除外)	
 -	(AlphaGo	上の)	⼈間の知識は⾼品質なサンプリングデータ	
 -	⾼⽔準な環境探索アルゴリズムの動的形成で代替え	
  -	ゲーム⽊が既知であるからこそできる⼿法	
 -	【疑問】ゲーム⽊の知識を除外した場合は?
深層強化学習の進化	-	⾃⼰対戦と仮想敵の構築	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
30
ゲーム⽊探索	(先読み) 深層学習	(評価関数の形成)
AlphaGo
Silver,	D.,	et	al.:	Mastering	the	Game	of	Go	with	Deep	Neural	Networks	and	Tree	Search,	(1),	1–37.	2016.
-	発展系	AlphaGo	Zero	(⼈間の知識の除外)	
 →	⼈間の知識	=	⾼品質な勝敗データ	
 →	⾼品質な環境探索アルゴリズムで置換	
  -	ゲーム⽊が既知であるからこそできる⼿法
深層強化学習の進化	-	⾃⼰対戦と仮想敵の構築	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
31
ゲーム⽊探索	(先読み) 深層学習	(評価関数の形成)
AlphaGo
プロの棋譜
⾼品質探索	
アルゴリズム
動的形成
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
32
ゲームプレイ	AI	における技術進化【再掲】
評価関数ありゲーム⽊探索		
(e.g.	MinMax)
評価関数なしゲーム⽊探索	
	(e.g.	MCTS)
動物の学習理論	
+	
MDP	最適制御
⼈⼯	NN	
(パーセプトロン)
強化学習	
(e.g.	Q	学習)
深層学習	
(特に	CNN)
深層強化学習	
(e.g.	DQN,	A3C)
AlphaGo Dota	Ⅱ	AI
発展中 発展中
【ゲーム⽊探索】 【ニューラルネット】 【強化学習】
結局,ゲーム⽊	(全ゲーム展開の知識)	が必要に
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
33
【疑問】
ゲーム⽊	(=	全ゲーム展開構造)	が得られない場合に	
複雑な課題は不可能?
複雑な課題	̶	e.g.	DOTA2	̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
34
OpenAI.	Learned	Bot	Behaviors	(2017,	August	11)	[Video	file]		
Retrieved	from	h:ps://www.youtube.com/watch?v=wpa5wyutpGc	(screenshot)
ゲーム⽊なしの	
単純なタスク	→	複雑なタスクへの移⾏
深層強化学習の進化	-	学習過程の再現・汎化	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
35
(Dota	Ⅱ	に限らず・・・)	
→	複数のタスクを同時に⾏う	
 -	マルチタスクによって共通する重要な汎化⾏動の発⾒	
Teh,	Y.	W.,	et.al.:	Distral :	Robust	MulAtask	Reinforcement	Learning.	NIPS.	2017.
深層強化学習の進化	-	学習過程の再現・汎化	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
36
(Dota	Ⅱ	に限らず・・・)	
→	好奇⼼の付加	
 -	知らない状況を好む事で環境の探索を促進	
Bellemare,	M.	G.,	et	al.:	Unifying	Count-Based	ExploraAon	and	Intrinsic	MoAvaAon,	NIPS.	2016.	
Ostrovski,	G.,	et	al.:	Count-Based	ExploraAon	with	Neural	Density	Models.	NIPS.	2017.
深層強化学習の進化	-	学習過程の再現・汎化	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
37
(Dota	Ⅱ	に限らず・・・)	
→	複数モジュールで補助	
→	簡単なタスクから徐々にタスクを複雑化	
 -	イルカに複雑な芸を覚えさせるように	
Jaderberg,	M.,	at	al.:	Reinforcement	learning	with	unsupervised	auxiliary	tasks.		
In	Internagonal	Conference	on	Learning	Representagons.	2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
38
では次の課題は?
【疑問】
今後の挑戦	̶	StarCraft	Ⅱ	̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
39
膨⼤な⾏動の組み合わせ・膨⼤な状態パターン	(画⾯内・外)	
→	⻑期戦略・知識の構造化	(強化学習の本質的な課題)
DeepMind.	StarCrah	II	DeepMind	feature	layer	API.	(2016,	November	04)	[Video	file]		
Retrieved	from	h:ps://www.youtube.com/watch?v=5iZlrBqDYPM	(screenshot)
深層強化学習の課題
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
40
【問題】学習に時間がかかる	
【問題】理論上未解決課題が多い	
  不完全知覚,	マルチエージェント,	⾮定常環境への適応	...	etc		
 -	新しい成果に『理論』は昔から存在していた	
 -	多くは莫⼤な計算リソースでクリアしている	
  →	理論的にクリアできない課題はできない	
→	他の技術との融合	or	理論の発展
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
41
-	推論,脳内シミュレート	
 →	エージェント内部に外部環境のシミュレータを構築	
  -	“熟慮”	の獲得
これからの強化学習ゲーム	AI	に必要なもの
Weber,	T.,		et.al.:	ImaginaAon-Augmented	Agents	for	Deep	Reinforcement	Learning.	NIPS.	2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
42
-	⽬的意識,⾏動の抽象化		
 →	プランニング,サブゴール形成	(内部構造の階層化)	
  -	“熟慮”	の低コスト化	=	探索効率化・学習時間削減
これからの強化学習ゲーム	AI	に必要なもの
Vezhnevets,	A.	S.,	et.	al.:	FeUdal	Networks	for	Hierarchical	Reinforcement	Learning.	2017.	arXiv.	h:p://arxiv.org/abs/1703.01161		
	Vezhnevets,	A.,	et	al.:	Strategic	aNenAve	writer	for	learning	macro-acAons.	In	Advances	in	Neural	Informagon	Processing	Systems,	pp.	3486–3494	2016.
おわりに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
43
  古典	
   ゲーム構造	(ゲーム⽊)	が既知なら探索可能	
  これまで	
   強化学習が	”視覚”	と	“記憶”	を獲得しゲーム	AI	へ応⽤	
                    +	莫⼤な計算リソース	
  これから	
   より⻑期戦略を⾃⾝でシミュレートする賢さ	(“熟慮”)	
   ⽬的意識を持った課題の分解・構造化による汎化	
                  or	更に莫⼤な計算リソース
おわりに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
44
【冒頭の問い】	
本当に知的な「強いゲーム	AI」に近づいたのか?	
→	もちろんまだまだ
おわりに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
45
	次世代のAI	の⾃律的な成⻑技術	(≒	強化学習)	の	
理論的拡張はまだ始まったばかり	
AI	が安全に失敗できるゲーム	AI	での探求が	
汎⽤的な	AI	技術を⽣む	”ゆりかご”	になるかも
引⽤⽂献	
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
46
[Reinforcement Learning: Sutton, 1998] Sutton, R. S. and Barto, A. G. Reinforcement Learning: An Introduction. MIT Press, Cambridge, 1998.
[MCTS (UCT): Kocsis, 2006] Kocsis, L., and C. Szepesvari, C., Bandit based Monte-Carlo Planning, in Euro. Conf. Mach. Learn. Berlin,
Germany: Springer, 282–293. 2006.
[DQN: Mnih, 2015] V. Mnih, K. Kavukcuoglu, D. Silver, A. Rusu, J. Veness, M. Bellemare, A. Graves, M. Riedmiller. A. Fidjeland, G.
Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis. Human-level control
through deep reinforcement learning. Nature 518 (7540): 529--533 (2015) http://dx.doi.org/10.1038/nature14236, (https://
storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf).
[A3C: Mnih, 2016] Mnih, V., Mirza, M., Graves, A., Harley, T., Lillicrap, T. P., & Silver, D. Asynchronous Methods for Deep Reinforcement
Learning. ICML, 2016.
[AlphaGo, Silver, 2016] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Den, G. Van, Hassabis, D. Mastering the Game of Go with
Deep Neural Networks and Tree Search, (1), 1–37. 2016. (https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf)
[AlphaGo Zero: Silver, 2017] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Hubert, T., Hassabis, D., et al.: Mastering
the Game of Go without Human Knowledge. 2017.
[Dota Ⅱ AI] https://blog.openai.com/dota-2/ and, https://blog.openai.com/more-on-dota-2/
[StarCraft Ⅱ Challenge: Vinyals, 2017] Vinyals, O., Vezhnevets, A. S., & Silver, D., et.al.: StarCraft II : A New Challenge for Reinforcement
Learning. 2017. https://arxiv.org/pdf/1708.04782.pdf
[UNREAL: Jaderberg, 2017] Jaderberg, M., Mnih, V., Czarnecki, W.M., Schaul, T., Leibo, J.Z., Silver, D., and Kavukcuoglu, K. Reinforcement
learning with unsupervised auxiliary tasks. In International Conference on Learning Representations. 2017.
[Distral: Teh, 2017] Teh, Y. W., Bapst, V., Czarnecki, W. M., Quan, J., Kirkpatrick, J., Hadsell, R. Pascanu, R., et.al.: Distral : Robust Multitask
Reinforcement Learning. NIPS. 2017.
[Pseudo-Counts: Bellemare, 2016] Bellemare, M. G., Schaul, T., Saxton, D., and Ostrovski, G. Unifying Count-Based Exploration and Intrinsic
Motivation, NIPS. 2016.
[PixelCNN pseudo-counts: Ostrovski, 2017] Ostrovski, G., Bellemare, M. G., Oord, V. D. O., Munon, R. Count-Based Exploration with Neural
Density Models. NIPS. 2017.
[I2A: Weber, 2017] Weber, T., Racanière, S., Reichert, D. P., Buesing, L., et.al.: Imagination-Augmented Agents for Deep Reinforcement
Learning. NIPS. 2017. arXiv. https://arxiv.org/pdf/1707.06203.pdf
[STRAW: Vezhnevets, 2017] Vezhnevets, A., Mnih, V., Osindero, S., Graves, A., Vinyals, O., Agapiou, J., et al.: Strategic attentive writer for
learning macro-actions. In: Advances in Neural Information Processing Systems, pp. 3486–3494 2016.[FuN: Vezhnevets, 2017] Vezhnevets, A.
S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement
Learning. 2017. (http://arxiv.org/abs/1703.01161)

More Related Content

What's hot

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習Yusuke Nakata
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)HarukaKiyohara
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
ゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてJun Okumura
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてYusuke Nakata
 

What's hot (20)

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
ゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用について
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
 

Similar to 強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜

強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechconDeNA
 
その後のDeNAのネイティブアプリ開発 #denatechcon
その後のDeNAのネイティブアプリ開発 #denatechconその後のDeNAのネイティブアプリ開発 #denatechcon
その後のDeNAのネイティブアプリ開発 #denatechconDeNA
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNA
 
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)Toshiharu Sugiyama
 
Braindots-開発秘話- Cocos2d-x3.5 開発事例 -
Braindots-開発秘話- Cocos2d-x3.5 開発事例 -Braindots-開発秘話- Cocos2d-x3.5 開発事例 -
Braindots-開発秘話- Cocos2d-x3.5 開発事例 -和樹 川端
 
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote MobbingRegional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote MobbingKeiji Kikuchi
 
FINAL FANTASY
 Record Keeper 演出データについて
FINAL FANTASY
 Record Keeper 演出データについてFINAL FANTASY
 Record Keeper 演出データについて
FINAL FANTASY
 Record Keeper 演出データについてdena_study
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介Recruit Technologies
 
HoloLens参考書読書会 vol9
HoloLens参考書読書会 vol9HoloLens参考書読書会 vol9
HoloLens参考書読書会 vol9Shoji Oshima
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)Tenki Lee
 
【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇
【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇
【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇techgamecollege
 
『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用
『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用
『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用RyoAdachi
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617Jun Okumura
 
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方Hisahiko Shiraishi
 
DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)
DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)
DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)dena_study
 
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~Web Technology Corp.
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]DeNA
 
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)Daisuke Nogami
 
海外Ta事情から日本のta像について考えてみる
海外Ta事情から日本のta像について考えてみる海外Ta事情から日本のta像について考えてみる
海外Ta事情から日本のta像について考えてみるfumoto kazuhiro
 
営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニングSatoru Yamamoto
 

Similar to 強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜 (20)

強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
 
その後のDeNAのネイティブアプリ開発 #denatechcon
その後のDeNAのネイティブアプリ開発 #denatechconその後のDeNAのネイティブアプリ開発 #denatechcon
その後のDeNAのネイティブアプリ開発 #denatechcon
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
 
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
 
Braindots-開発秘話- Cocos2d-x3.5 開発事例 -
Braindots-開発秘話- Cocos2d-x3.5 開発事例 -Braindots-開発秘話- Cocos2d-x3.5 開発事例 -
Braindots-開発秘話- Cocos2d-x3.5 開発事例 -
 
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote MobbingRegional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
 
FINAL FANTASY
 Record Keeper 演出データについて
FINAL FANTASY
 Record Keeper 演出データについてFINAL FANTASY
 Record Keeper 演出データについて
FINAL FANTASY
 Record Keeper 演出データについて
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
HoloLens参考書読書会 vol9
HoloLens参考書読書会 vol9HoloLens参考書読書会 vol9
HoloLens参考書読書会 vol9
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
 
【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇
【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇
【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇
 
『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用
『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用
『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617
 
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
 
DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)
DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)
DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)
 
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
 
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
 
海外Ta事情から日本のta像について考えてみる
海外Ta事情から日本のta像について考えてみる海外Ta事情から日本のta像について考えてみる
海外Ta事情から日本のta像について考えてみる
 
営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング
 

Recently uploaded

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Recently uploaded (9)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜

  • 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeNA Co., Ltd. システム & デザイン本部 AI システム部 AI 研究開発グループ 甲野 佑 強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
  • 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 3 ゲーム AI の進化と強化学習の貢献の話 あるいは 強化学習の進化におけるゲーム AI の貢献の話 本⽇のテーマ
  • 4. はじめに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 4 2010 年代前半「囲碁で⼈間に ”機械” が勝つのは10年先の話」 2016 年 3 ⽉ 9 ⽇ AlphaGo (DeepMind) がイ・セドル九段に勝利 DeepMind は「10 年」を早送りした ゲーム AI に「何が」起こったのか? 本当に知的な「強いゲーム AI」に近づいたのか?
  • 5. ⽬次 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 5 1. はじめに 2. ゲームのプレイヤー AI の歴史 3. 強化学習とは 4. 強化学習 × ゲーム AI のこれまでの進化 5. 強化学習 × ゲーム AI のこれからの挑戦 6. おわりに
  • 6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 6 2014年に何かが起きている 年 備考 バッグギャモン 1990 リバーシ 1997 6 番勝負で世界王者村上健⽒が敗れる チェス 1998 世界王者ガルリ・カスパロフ⽒が敗れる ※ ほぼ完勝できるようになったのは 2006 ATARI (レトロビデオゲーム) 2014 ⼀部のゲームでプロプレーヤーを上回る 囲碁 2016 イ・セドル九段が破れる 将棋 2017 佐藤天彦名⼈が敗れる ポーカー 2017 数⼈のプロ相⼿に勝利 DotaⅡ 2017 Open AI 製 AI がプロプレーヤーに勝利 StarCraftⅡ 継続中 DeepMind が研究開発中 ゲームのプレイヤー AI の歴史
  • 7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 7 ゲームのプレイヤー AI における技術進化 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 〜 2010年代 前半 ゲーム⽊=ゲーム展開の有向グラフの探索が主流
  • 8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 8 ゲームのプレイヤー AI における技術進化 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 2010年代 後半 ⾼度な強化学習技術の出現
  • 9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 9 ゲーム AI に進化をもたらした強化学習とは? 【疑問】
  • 10. 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 10 を最⼤化させる を獲得するのが⽬的 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 強化学習とは - 教師あり学習との違い -
  • 11. 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 11 が⼤きく変わるのが厄介 を更新・変化すると 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 強化学習とは - 教師あり学習との違い -
  • 12. 強化学習とは - 教師あり学習との違い - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 12 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント 未知関数 学習データ ⼊⼒ 出⼒ ⼊⼒ 予測 ある現象・法則(環境) 教師あり学習器 【教師あり学習】 【強化学習】 モデル 教師あり学習の領分 観測 収集 誤差 模倣 - 学習データから未知関数を学習モデルに模倣させるのが教師あり学習 - 環境 (⺟集団) から学習データの収集は教師あり学習の範疇外
  • 13. 強化学習とは - 教師あり学習との違い - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 13 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント 未知関数⼊⼒ 出⼒ ⼊⼒ ある現象・法則(環境) 教師あり学習器 - 環境の遷移 (=どんなデータが⼿に⼊るか) はエージェント⾃⾝の選択次第 - エージェント⾃⾝によって収集される環境情報が偏る・急激に変わる 【教師あり学習】 【強化学習】 モデル 教師あり学習の領分 予測 学習データ 観測 収集 誤差 模倣
  • 14. 強化学習とは - スキナー箱 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 14 理屈は⽝に芸を覚えさせるのとほぼ同じ (繰り返し) → 基本の理屈は単純 状態:ランプ点灯 行動:ボタン押下 報酬:エサ獲得 強化 基本的には鳩の条件付け実験 ”スキナー箱” そのもの
  • 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 16 ゲームプレイ AI における技術進化【再掲】 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 〜 2010年代 前半の主流 → ゲーム⽊ (ゲーム展開知識) に依存
  • 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 17 【問題】 従来⼿法はゲーム⽊ (= 完全なゲーム展開の知識) が既知 ゲーム⽊が未知でもゲーム画⾯から学習したい
  • 18. レトロビデオゲーム ̶ ATARI ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 18 視覚 (CNN) + (Experience Replay +) 強化学習 = DQN ゲーム⽊ (全ゲーム展開) が既知 → 未知でも画⾯から学習可能に Mnih, V.,et al.: Human-level control through deep reinforcement learning. Nature, 518:529–533, 2015. (h:ps://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf)
  • 19. DQN - 要素技術の集合体 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 19 - CNN との結合によりゲーム画⾯から学習可能に  → 強化学習は ”視覚” を獲得 画⾯認識 (CNN) ⾏動価値評価 (強化学習) ゲーム画⾯ (環境) ⾏動 - 勝敗 (報酬) から学習する強化学習はゲーム AI と相性良
  • 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 20 蓄積 ゲーム画⾯ (環境) ⾏動 経験の記憶 夢
 (経験再⽣) - ランダムに “記憶 (夢)” を再⽣して学習  → ニューラルネットと強化学習の相性の悪さを緩和   - 相性の悪さ = i.i.d の制約,可塑性と安定性のジレンマ DQN - 要素技術の集合体 -
  • 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 21 【問題】 “視覚” = 画⾯外のことを扱えない (画⾯の切り替わりに弱い) ≒ 画⾯や⾏動の時系列・履歴を扱えない      → ブロック崩し等 = 俯瞰課題は得意      → 3D迷路等 = ⼀⼈称視点課題は不可
  • 22. ⼀⼈称視点ゲーム ̶ 3D迷路・FPS ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 22 基底核 (Actor-Critic) + 系列記憶 + 並列処理 = A3C + LSTM → ゲーム画⾯の切り替わり・⼀⼈称視点に強く DeepMind. Asynchronous Methods for Deep Reinforcement Learning: Labyrinth. (2015, June 14) [Video file] Retrieved from h:ps://www.youtube.com/watch?v=nMR5mjCFZCw (screenshot)
  • 23. → Asynchronous Advantage Actor-Critic (A3C) とは (中略)  - 並列化で LSTM = 短〜中期的な ”記憶 (系列)” が使⽤可能 深層強化学習の進化 - 時系列 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 23 × 並列数分 ↓ 系列的な記憶 →【問題】記憶を含めても⾒えていない事は学習できない 画⾯の切り替わりを吸収LSTM ゲーム画⾯ (環境) ⾏動 経験の記憶 蓄積しない
  • 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 24 環境エージェント ⾒えないものは学習できない 【問題】 制限された観測 誰が環境を変える? ・エージェント⾃⾝ ・環境そのもの  - 法則  - ⾃分以外の何か   - 何かは⼀種類?
  • 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 25 環境エージェント 誰が環境を変える? ・エージェント⾃⾝ ・環境そのもの  - 法則  - ⾃分以外の何か   - 何かは⼀種類? ⾒えないものは学習できない 【問題】 制限された観測 他の何か種類数 ×
  • 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 26 【問題】 強化学習 AI は対戦ゲームが苦⼿ → ⾃分以外のエージェントが存在 & 戦略が⼀種ではない
  • 27. ⼆⼈対戦ゲーム ̶ 囲碁 ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 27 過去の⾃⾝と⾃⼰対戦 (強化学習) + 先読み (ゲーム⽊探索) = AlphaGo → 様々な戦略に対応する AI AlphaGo の⾏動価値 Silver, D., et al.: Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016.
  • 28. 深層強化学習の進化 - ⾃⼰対戦と仮想敵の構築 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 28 環境 = 様々な戦術 平均戦術 学習 エージェント 対戦・学習 戦術G 戦術A 戦術B 戦術D 戦術C 戦術E 戦術F なぜできたのか?【その1】  → 戦略が⼀種でなくても多様な戦略を平均化 (ゲーム理論)   - 膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』    - 学習段階の違いでバリエーションを担保 
  • 29. 深層強化学習の進化 - ⾃⼰対戦と仮想敵の構築 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 29 なぜできたのか?【その1】  → 戦略が⼀種でなくても多様な戦略を平均化 (ゲーム理論)   - 膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』 過去の⾃⾝の戦術 仮想敵 学習 エージェント 対戦・学習 過去G 過去A 過去B 過去D 過去C 過去E 過去F ⾃⾝を保存 ランダム 選択
  • 30. なぜできたのか?【その2】  - 平均化敵戦略に対してどこに打つのが「良い」かを数値化  - 教師あり,強化学習で学習した評価関数を先読みに利⽤ → 発展系 AlphaGo Zero (⼈間の知識の除外)  - (AlphaGo 上の) ⼈間の知識は⾼品質なサンプリングデータ  - ⾼⽔準な環境探索アルゴリズムの動的形成で代替え   - ゲーム⽊が既知であるからこそできる⼿法  - 【疑問】ゲーム⽊の知識を除外した場合は? 深層強化学習の進化 - ⾃⼰対戦と仮想敵の構築 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 30 ゲーム⽊探索 (先読み) 深層学習 (評価関数の形成) AlphaGo Silver, D., et al.: Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016.
  • 32. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 32 ゲームプレイ AI における技術進化【再掲】 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 結局,ゲーム⽊ (全ゲーム展開の知識) が必要に
  • 33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 33 【疑問】 ゲーム⽊ (= 全ゲーム展開構造) が得られない場合に 複雑な課題は不可能?
  • 34. 複雑な課題 ̶ e.g. DOTA2 ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 34 OpenAI. Learned Bot Behaviors (2017, August 11) [Video file] Retrieved from h:ps://www.youtube.com/watch?v=wpa5wyutpGc (screenshot) ゲーム⽊なしの 単純なタスク → 複雑なタスクへの移⾏
  • 35. 深層強化学習の進化 - 学習過程の再現・汎化 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 35 (Dota Ⅱ に限らず・・・) → 複数のタスクを同時に⾏う  - マルチタスクによって共通する重要な汎化⾏動の発⾒ Teh, Y. W., et.al.: Distral : Robust MulAtask Reinforcement Learning. NIPS. 2017.
  • 36. 深層強化学習の進化 - 学習過程の再現・汎化 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 36 (Dota Ⅱ に限らず・・・) → 好奇⼼の付加  - 知らない状況を好む事で環境の探索を促進 Bellemare, M. G., et al.: Unifying Count-Based ExploraAon and Intrinsic MoAvaAon, NIPS. 2016. Ostrovski, G., et al.: Count-Based ExploraAon with Neural Density Models. NIPS. 2017.
  • 37. 深層強化学習の進化 - 学習過程の再現・汎化 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 37 (Dota Ⅱ に限らず・・・) → 複数モジュールで補助 → 簡単なタスクから徐々にタスクを複雑化  - イルカに複雑な芸を覚えさせるように Jaderberg, M., at al.: Reinforcement learning with unsupervised auxiliary tasks. In Internagonal Conference on Learning Representagons. 2017.
  • 38. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 38 では次の課題は? 【疑問】
  • 39. 今後の挑戦 ̶ StarCraft Ⅱ ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 39 膨⼤な⾏動の組み合わせ・膨⼤な状態パターン (画⾯内・外) → ⻑期戦略・知識の構造化 (強化学習の本質的な課題) DeepMind. StarCrah II DeepMind feature layer API. (2016, November 04) [Video file] Retrieved from h:ps://www.youtube.com/watch?v=5iZlrBqDYPM (screenshot)
  • 40. 深層強化学習の課題 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 40 【問題】学習に時間がかかる 【問題】理論上未解決課題が多い   不完全知覚, マルチエージェント, ⾮定常環境への適応 ... etc  - 新しい成果に『理論』は昔から存在していた  - 多くは莫⼤な計算リソースでクリアしている   → 理論的にクリアできない課題はできない → 他の技術との融合 or 理論の発展
  • 41. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 41 - 推論,脳内シミュレート  → エージェント内部に外部環境のシミュレータを構築   - “熟慮” の獲得 これからの強化学習ゲーム AI に必要なもの Weber, T., et.al.: ImaginaAon-Augmented Agents for Deep Reinforcement Learning. NIPS. 2017.
  • 42. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 42 - ⽬的意識,⾏動の抽象化  → プランニング,サブゴール形成 (内部構造の階層化)   - “熟慮” の低コスト化 = 探索効率化・学習時間削減 これからの強化学習ゲーム AI に必要なもの Vezhnevets, A. S., et. al.: FeUdal Networks for Hierarchical Reinforcement Learning. 2017. arXiv. h:p://arxiv.org/abs/1703.01161 Vezhnevets, A., et al.: Strategic aNenAve writer for learning macro-acAons. In Advances in Neural Informagon Processing Systems, pp. 3486–3494 2016.
  • 43. おわりに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 43   古典    ゲーム構造 (ゲーム⽊) が既知なら探索可能   これまで    強化学習が ”視覚” と “記憶” を獲得しゲーム AI へ応⽤                     + 莫⼤な計算リソース   これから    より⻑期戦略を⾃⾝でシミュレートする賢さ (“熟慮”)    ⽬的意識を持った課題の分解・構造化による汎化                   or 更に莫⼤な計算リソース
  • 44. おわりに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 44 【冒頭の問い】 本当に知的な「強いゲーム AI」に近づいたのか? → もちろんまだまだ
  • 45. おわりに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 45 次世代のAI の⾃律的な成⻑技術 (≒ 強化学習) の 理論的拡張はまだ始まったばかり AI が安全に失敗できるゲーム AI での探求が 汎⽤的な AI 技術を⽣む ”ゆりかご” になるかも
  • 46. 引⽤⽂献 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 46 [Reinforcement Learning: Sutton, 1998] Sutton, R. S. and Barto, A. G. Reinforcement Learning: An Introduction. MIT Press, Cambridge, 1998. [MCTS (UCT): Kocsis, 2006] Kocsis, L., and C. Szepesvari, C., Bandit based Monte-Carlo Planning, in Euro. Conf. Mach. Learn. Berlin, Germany: Springer, 282–293. 2006. [DQN: Mnih, 2015] V. Mnih, K. Kavukcuoglu, D. Silver, A. Rusu, J. Veness, M. Bellemare, A. Graves, M. Riedmiller. A. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis. Human-level control through deep reinforcement learning. Nature 518 (7540): 529--533 (2015) http://dx.doi.org/10.1038/nature14236, (https:// storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf). [A3C: Mnih, 2016] Mnih, V., Mirza, M., Graves, A., Harley, T., Lillicrap, T. P., & Silver, D. Asynchronous Methods for Deep Reinforcement Learning. ICML, 2016. [AlphaGo, Silver, 2016] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Den, G. Van, Hassabis, D. Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016. (https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf) [AlphaGo Zero: Silver, 2017] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Hubert, T., Hassabis, D., et al.: Mastering the Game of Go without Human Knowledge. 2017. [Dota Ⅱ AI] https://blog.openai.com/dota-2/ and, https://blog.openai.com/more-on-dota-2/ [StarCraft Ⅱ Challenge: Vinyals, 2017] Vinyals, O., Vezhnevets, A. S., & Silver, D., et.al.: StarCraft II : A New Challenge for Reinforcement Learning. 2017. https://arxiv.org/pdf/1708.04782.pdf [UNREAL: Jaderberg, 2017] Jaderberg, M., Mnih, V., Czarnecki, W.M., Schaul, T., Leibo, J.Z., Silver, D., and Kavukcuoglu, K. Reinforcement learning with unsupervised auxiliary tasks. In International Conference on Learning Representations. 2017. [Distral: Teh, 2017] Teh, Y. W., Bapst, V., Czarnecki, W. M., Quan, J., Kirkpatrick, J., Hadsell, R. Pascanu, R., et.al.: Distral : Robust Multitask Reinforcement Learning. NIPS. 2017. [Pseudo-Counts: Bellemare, 2016] Bellemare, M. G., Schaul, T., Saxton, D., and Ostrovski, G. Unifying Count-Based Exploration and Intrinsic Motivation, NIPS. 2016. [PixelCNN pseudo-counts: Ostrovski, 2017] Ostrovski, G., Bellemare, M. G., Oord, V. D. O., Munon, R. Count-Based Exploration with Neural Density Models. NIPS. 2017. [I2A: Weber, 2017] Weber, T., Racanière, S., Reichert, D. P., Buesing, L., et.al.: Imagination-Augmented Agents for Deep Reinforcement Learning. NIPS. 2017. arXiv. https://arxiv.org/pdf/1707.06203.pdf [STRAW: Vezhnevets, 2017] Vezhnevets, A., Mnih, V., Osindero, S., Graves, A., Vinyals, O., Agapiou, J., et al.: Strategic attentive writer for learning macro-actions. In: Advances in Neural Information Processing Systems, pp. 3486–3494 2016.[FuN: Vezhnevets, 2017] Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement Learning. 2017. (http://arxiv.org/abs/1703.01161)