24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
24
環境エージェント
⾒えないものは学習できない
【問題】
制限された観測
誰が環境を変える?
・エージェント⾃⾝
・環境そのもの
- 法則
- ⾃分以外の何か
- 何かは⼀種類?
25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
25
環境エージェント
誰が環境を変える?
・エージェント⾃⾝
・環境そのもの
- 法則
- ⾃分以外の何か
- 何かは⼀種類?
⾒えないものは学習できない
【問題】
制限された観測
他の何か種類数 ×
26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
26
【問題】
強化学習 AI は対戦ゲームが苦⼿
→ ⾃分以外のエージェントが存在 & 戦略が⼀種ではない
27. ⼆⼈対戦ゲーム ̶ 囲碁 ̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
27
過去の⾃⾝と⾃⼰対戦 (強化学習) + 先読み (ゲーム⽊探索) = AlphaGo
→ 様々な戦略に対応する AI
AlphaGo の⾏動価値
Silver, D., et al.: Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016.
32. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
32
ゲームプレイ AI における技術進化【再掲】
評価関数ありゲーム⽊探索
(e.g. MinMax)
評価関数なしゲーム⽊探索
(e.g. MCTS)
動物の学習理論
+
MDP 最適制御
⼈⼯ NN
(パーセプトロン)
強化学習
(e.g. Q 学習)
深層学習
(特に CNN)
深層強化学習
(e.g. DQN, A3C)
AlphaGo Dota Ⅱ AI
発展中 発展中
【ゲーム⽊探索】 【ニューラルネット】 【強化学習】
結局,ゲーム⽊ (全ゲーム展開の知識) が必要に
33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
33
【疑問】
ゲーム⽊ (= 全ゲーム展開構造) が得られない場合に
複雑な課題は不可能?
34. 複雑な課題 ̶ e.g. DOTA2 ̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
34
OpenAI. Learned Bot Behaviors (2017, August 11) [Video file]
Retrieved from h:ps://www.youtube.com/watch?v=wpa5wyutpGc (screenshot)
ゲーム⽊なしの
単純なタスク → 複雑なタスクへの移⾏
35. 深層強化学習の進化 - 学習過程の再現・汎化 -
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
35
(Dota Ⅱ に限らず・・・)
→ 複数のタスクを同時に⾏う
- マルチタスクによって共通する重要な汎化⾏動の発⾒
Teh, Y. W., et.al.: Distral : Robust MulAtask Reinforcement Learning. NIPS. 2017.
36. 深層強化学習の進化 - 学習過程の再現・汎化 -
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
36
(Dota Ⅱ に限らず・・・)
→ 好奇⼼の付加
- 知らない状況を好む事で環境の探索を促進
Bellemare, M. G., et al.: Unifying Count-Based ExploraAon and Intrinsic MoAvaAon, NIPS. 2016.
Ostrovski, G., et al.: Count-Based ExploraAon with Neural Density Models. NIPS. 2017.
37. 深層強化学習の進化 - 学習過程の再現・汎化 -
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
37
(Dota Ⅱ に限らず・・・)
→ 複数モジュールで補助
→ 簡単なタスクから徐々にタスクを複雑化
- イルカに複雑な芸を覚えさせるように
Jaderberg, M., at al.: Reinforcement learning with unsupervised auxiliary tasks.
In Internagonal Conference on Learning Representagons. 2017.
39. 今後の挑戦 ̶ StarCraft Ⅱ ̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
39
膨⼤な⾏動の組み合わせ・膨⼤な状態パターン (画⾯内・外)
→ ⻑期戦略・知識の構造化 (強化学習の本質的な課題)
DeepMind. StarCrah II DeepMind feature layer API. (2016, November 04) [Video file]
Retrieved from h:ps://www.youtube.com/watch?v=5iZlrBqDYPM (screenshot)
40. 深層強化学習の課題
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
40
【問題】学習に時間がかかる
【問題】理論上未解決課題が多い
不完全知覚, マルチエージェント, ⾮定常環境への適応 ... etc
- 新しい成果に『理論』は昔から存在していた
- 多くは莫⼤な計算リソースでクリアしている
→ 理論的にクリアできない課題はできない
→ 他の技術との融合 or 理論の発展
41. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
41
- 推論,脳内シミュレート
→ エージェント内部に外部環境のシミュレータを構築
- “熟慮” の獲得
これからの強化学習ゲーム AI に必要なもの
Weber, T., et.al.: ImaginaAon-Augmented Agents for Deep Reinforcement Learning. NIPS. 2017.
42. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
42
- ⽬的意識,⾏動の抽象化
→ プランニング,サブゴール形成 (内部構造の階層化)
- “熟慮” の低コスト化 = 探索効率化・学習時間削減
これからの強化学習ゲーム AI に必要なもの
Vezhnevets, A. S., et. al.: FeUdal Networks for Hierarchical Reinforcement Learning. 2017. arXiv. h:p://arxiv.org/abs/1703.01161
Vezhnevets, A., et al.: Strategic aNenAve writer for learning macro-acAons. In Advances in Neural Informagon Processing Systems, pp. 3486–3494 2016.
43. おわりに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
43
古典
ゲーム構造 (ゲーム⽊) が既知なら探索可能
これまで
強化学習が ”視覚” と “記憶” を獲得しゲーム AI へ応⽤
+ 莫⼤な計算リソース
これから
より⻑期戦略を⾃⾝でシミュレートする賢さ (“熟慮”)
⽬的意識を持った課題の分解・構造化による汎化
or 更に莫⼤な計算リソース
44. おわりに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
44
【冒頭の問い】
本当に知的な「強いゲーム AI」に近づいたのか?
→ もちろんまだまだ
45. おわりに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
45
次世代のAI の⾃律的な成⻑技術 (≒ 強化学習) の
理論的拡張はまだ始まったばかり
AI が安全に失敗できるゲーム AI での探求が
汎⽤的な AI 技術を⽣む ”ゆりかご” になるかも
46. 引⽤⽂献
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
46
[Reinforcement Learning: Sutton, 1998] Sutton, R. S. and Barto, A. G. Reinforcement Learning: An Introduction. MIT Press, Cambridge, 1998.
[MCTS (UCT): Kocsis, 2006] Kocsis, L., and C. Szepesvari, C., Bandit based Monte-Carlo Planning, in Euro. Conf. Mach. Learn. Berlin,
Germany: Springer, 282–293. 2006.
[DQN: Mnih, 2015] V. Mnih, K. Kavukcuoglu, D. Silver, A. Rusu, J. Veness, M. Bellemare, A. Graves, M. Riedmiller. A. Fidjeland, G.
Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis. Human-level control
through deep reinforcement learning. Nature 518 (7540): 529--533 (2015) http://dx.doi.org/10.1038/nature14236, (https://
storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf).
[A3C: Mnih, 2016] Mnih, V., Mirza, M., Graves, A., Harley, T., Lillicrap, T. P., & Silver, D. Asynchronous Methods for Deep Reinforcement
Learning. ICML, 2016.
[AlphaGo, Silver, 2016] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Den, G. Van, Hassabis, D. Mastering the Game of Go with
Deep Neural Networks and Tree Search, (1), 1–37. 2016. (https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf)
[AlphaGo Zero: Silver, 2017] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Hubert, T., Hassabis, D., et al.: Mastering
the Game of Go without Human Knowledge. 2017.
[Dota Ⅱ AI] https://blog.openai.com/dota-2/ and, https://blog.openai.com/more-on-dota-2/
[StarCraft Ⅱ Challenge: Vinyals, 2017] Vinyals, O., Vezhnevets, A. S., & Silver, D., et.al.: StarCraft II : A New Challenge for Reinforcement
Learning. 2017. https://arxiv.org/pdf/1708.04782.pdf
[UNREAL: Jaderberg, 2017] Jaderberg, M., Mnih, V., Czarnecki, W.M., Schaul, T., Leibo, J.Z., Silver, D., and Kavukcuoglu, K. Reinforcement
learning with unsupervised auxiliary tasks. In International Conference on Learning Representations. 2017.
[Distral: Teh, 2017] Teh, Y. W., Bapst, V., Czarnecki, W. M., Quan, J., Kirkpatrick, J., Hadsell, R. Pascanu, R., et.al.: Distral : Robust Multitask
Reinforcement Learning. NIPS. 2017.
[Pseudo-Counts: Bellemare, 2016] Bellemare, M. G., Schaul, T., Saxton, D., and Ostrovski, G. Unifying Count-Based Exploration and Intrinsic
Motivation, NIPS. 2016.
[PixelCNN pseudo-counts: Ostrovski, 2017] Ostrovski, G., Bellemare, M. G., Oord, V. D. O., Munon, R. Count-Based Exploration with Neural
Density Models. NIPS. 2017.
[I2A: Weber, 2017] Weber, T., Racanière, S., Reichert, D. P., Buesing, L., et.al.: Imagination-Augmented Agents for Deep Reinforcement
Learning. NIPS. 2017. arXiv. https://arxiv.org/pdf/1707.06203.pdf
[STRAW: Vezhnevets, 2017] Vezhnevets, A., Mnih, V., Osindero, S., Graves, A., Vinyals, O., Agapiou, J., et al.: Strategic attentive writer for
learning macro-actions. In: Advances in Neural Information Processing Systems, pp. 3486–3494 2016.[FuN: Vezhnevets, 2017] Vezhnevets, A.
S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement
Learning. 2017. (http://arxiv.org/abs/1703.01161)