強化学習技術とゲーム AI 〜今できる事と今後できて欲しい事〜

Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeNA Co., Ltd.
システム & デザイン本部
AI システム部 AI 研究開発グループ
甲野佑
強化学習技術とゲーム AI
〜今できる事と今後できて欲しい事〜

甲野佑
所属 : 株式会社ディー・エヌ・エー AI システム部 AI 研究開発グループ
出⾝ : 東京電機⼤学 (学部〜博⼠)
研究 : 強化学習＋神経⽣理・認知モデル
〜2017年3⽉: ⼤学で強化学習の研究してきました
2017年4⽉〜: 強化学習を応⽤したゲーム AI の研究開発をしています
⾃⼰紹介
2

3
ゲーム AI の進化と強化学習の貢献の話
あるいは
強化学習の進化におけるゲーム AI の貢献の話
本⽇のテーマ

はじめに
4
2010 年代前半「囲碁で⼈間に ”機械” が勝つのは10年先の話」
2016 年 3 ⽉ 9 ⽇ AlphaGo (DeepMind) がイ・セドル九段に勝利
DeepMind は「10 年」を早送りした
ゲーム AI に「何が」起こったのか？
本当に知的な「強いゲーム AI」に近づいたのか？

⽬次
5
1. はじめに
2. ゲームのプレイヤー AI の歴史
3. 強化学習とは
4. 強化学習 × ゲーム AI のこれまでの進化
5. 強化学習 × ゲーム AI のこれからの挑戦
6. おわりに

6
2014年に何かが起きている
年備考
バッグギャモン 1990
リバーシ 1997 6 番勝負で世界王者村上健⽒が敗れる
チェス 1998 世界王者ガルリ・カスパロフ⽒が敗れる
※ ほぼ完勝できるようになったのは 2006
ATARI (レトロビデオゲーム) 2014 ⼀部のゲームでプロプレーヤーを上回る
囲碁 2016 イ・セドル九段が破れる
将棋 2017 佐藤天彦名⼈が敗れる
ポーカー 2017 数⼈のプロ相⼿に勝利
DotaⅡ 2017 Open AI 製 AI がプロプレーヤーに勝利
StarCraftⅡ 継続中 DeepMind が研究開発中
ゲームのプレイヤー AI の歴史

7
ゲームのプレイヤー AI における技術進化
評価関数ありゲーム⽊探索
(e.g. MinMax)
評価関数なしゲーム⽊探索
(e.g. MCTS)
動物の学習理論
＋
MDP 最適制御
⼈⼯ NN
(パーセプトロン)
強化学習
(e.g. Q 学習)
深層学習
(特に CNN)
深層強化学習
(e.g. DQN, A3C)
AlphaGo Dota Ⅱ AI
発展中発展中
【ゲーム⽊探索】【ニューラルネット】【強化学習】
〜 2010年代前半ゲーム⽊＝ゲーム展開の有向グラフの探索が主流

8
ゲームのプレイヤー AI における技術進化
(e.g. MinMax)
(e.g. MCTS)
＋
MDP 最適制御
⼈⼯ NN
強化学習
(e.g. Q 学習)
深層学習
(特に CNN)
深層強化学習
(e.g. DQN, A3C)
AlphaGo Dota Ⅱ AI
発展中発展中
2010年代後半⾼度な強化学習技術の出現

9
ゲーム AI に進化をもたらした強化学習とは？
【疑問】

環境
観測＝環境の変化・報酬
⾏動＝報酬兼情報の収集
エージェント
10
を最⼤化させる
を獲得するのが⽬的
主体的に環境に働きかけ，獲得報酬を最大化する行動を学習
強化学習とは - 教師あり学習との違い -

環境
エージェント
11
が⼤きく変わるのが厄介
を更新・変化すると
主体的に環境に働きかけ，獲得報酬を最大化する行動を学習

12
環境
エージェント
未知関数
学習データ
⼊⼒出⼒
⼊⼒予測
ある現象・法則（環境）
教師あり学習器
【教師あり学習】【強化学習】
モデル
教師あり学習の領分
観測
収集
誤差
模倣
- 学習データから未知関数を学習モデルに模倣させるのが教師あり学習
- 環境 (⺟集団) から学習データの収集は教師あり学習の範疇外

13
環境
エージェント
未知関数⼊⼒出⼒
⼊⼒
ある現象・法則（環境）
教師あり学習器
- 環境の遷移 (＝どんなデータが⼿に⼊るか) はエージェント⾃⾝の選択次第
- エージェント⾃⾝によって収集される環境情報が偏る・急激に変わる
【教師あり学習】【強化学習】
モデル
教師あり学習の領分
予測
学習データ
観測
収集
誤差
模倣

強化学習とは - スキナー箱 -
14
理屈は⽝に芸を覚えさせるのとほぼ同じ (繰り返し)
→ 基本の理屈は単純
状態：ランプ点灯行動：ボタン押下報酬：エサ獲得
強化
基本的には鳩の条件付け実験 ”スキナー箱” そのもの

強化学習のゲーム AI の何に貢献した？
＋
近年，強化学習の何が変わった？
15
【疑問】

16
ゲームプレイ AI における技術進化【再掲】
(e.g. MinMax)
(e.g. MCTS)
＋
MDP 最適制御
⼈⼯ NN
強化学習
(e.g. Q 学習)
深層学習
(特に CNN)
深層強化学習
(e.g. DQN, A3C)
AlphaGo Dota Ⅱ AI
発展中発展中
〜 2010年代前半の主流 → ゲーム⽊ (ゲーム展開知識) に依存

17
【問題】
従来⼿法はゲーム⽊ (＝完全なゲーム展開の知識) が既知
ゲーム⽊が未知でもゲーム画⾯から学習したい

レトロビデオゲーム ̶ ATARI ̶
18
視覚 (CNN) + (Experience Replay +) 強化学習＝ DQN
ゲーム⽊ (全ゲーム展開) が既知 → 未知でも画⾯から学習可能に
Mnih, V.,et al.: Human-level control through deep reinforcement learning. Nature, 518:529–533, 2015.
(h:ps://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf)

DQN - 要素技術の集合体 -
19
- CNN との結合によりゲーム画⾯から学習可能に
→ 強化学習は ”視覚” を獲得
画⾯認識
(CNN)
⾏動価値評価
(強化学習)
ゲーム画⾯
(環境)
⾏動
- 勝敗 (報酬) から学習する強化学習はゲーム AI と相性良

20
蓄積
ゲーム画⾯
(環境)
⾏動経験の記憶
夢 
(経験再⽣)
- ランダムに “記憶 (夢)” を再⽣して学習
→ ニューラルネットと強化学習の相性の悪さを緩和
- 相性の悪さ＝ i.i.d の制約，可塑性と安定性のジレンマ
DQN - 要素技術の集合体 -

21
【問題】
“視覚” ＝画⾯外のことを扱えない
(画⾯の切り替わりに弱い)
≒ 画⾯や⾏動の時系列・履歴を扱えない
→ ブロック崩し等＝俯瞰課題は得意
→ 3D迷路等＝⼀⼈称視点課題は不可

⼀⼈称視点ゲーム ̶ 3D迷路・FPS ̶
22
基底核 (Actor-Critic) + 系列記憶＋並列処理＝ A3C + LSTM
→ ゲーム画⾯の切り替わり・⼀⼈称視点に強く
DeepMind. Asynchronous Methods for Deep Reinforcement Learning: Labyrinth. (2015, June 14) [Video ﬁle]
Retrieved from h:ps://www.youtube.com/watch?v=nMR5mjCFZCw (screenshot)

→ Asynchronous Advantage Actor-Critic (A3C) とは (中略)
- 並列化で LSTM ＝短〜中期的な ”記憶 (系列)” が使⽤可能
深層強化学習の進化 - 時系列 -
23
× 並列数分
↓ 系列的な記憶
→【問題】記憶を含めても⾒えていない事は学習できない
画⾯の切り替わりを吸収LSTM
ゲーム画⾯
(環境)
⾏動
経験の記憶
蓄積しない

24
環境エージェント
⾒えないものは学習できない
【問題】
制限された観測
誰が環境を変える？
・エージェント⾃⾝
・環境そのもの
- 法則
- ⾃分以外の何か
- 何かは⼀種類？

25
環境エージェント
誰が環境を変える？
・エージェント⾃⾝
・環境そのもの
- 法則
- ⾃分以外の何か
- 何かは⼀種類？
⾒えないものは学習できない
【問題】
制限された観測
他の何か種類数 ×

26
【問題】
強化学習 AI は対戦ゲームが苦⼿
→ ⾃分以外のエージェントが存在 & 戦略が⼀種ではない

⼆⼈対戦ゲーム ̶ 囲碁 ̶
27
過去の⾃⾝と⾃⼰対戦 (強化学習) + 先読み (ゲーム⽊探索) ＝ AlphaGo
→ 様々な戦略に対応する AI
AlphaGo の⾏動価値
Silver, D., et al.: Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016.

深層強化学習の進化 - ⾃⼰対戦と仮想敵の構築 -
28
環境 = 様々な戦術
平均戦術
学習
エージェント
対戦・学習
戦術G
戦術A
戦術B
戦術D
戦術C
戦術E
戦術F
なぜできたのか？【その１】
→ 戦略が⼀種でなくても多様な戦略を平均化 (ゲーム理論)
- 膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』
- 学習段階の違いでバリエーションを担保

29
なぜできたのか？【その１】
→ 戦略が⼀種でなくても多様な戦略を平均化 (ゲーム理論)
- 膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』
過去の⾃⾝の戦術
仮想敵
学習
エージェント
対戦・学習
過去G
過去A
過去B
過去D
過去C
過去E
過去F
⾃⾝を保存
ランダム
選択

なぜできたのか？【その２】
- 平均化敵戦略に対してどこに打つのが「良い」かを数値化
- 教師あり，強化学習で学習した評価関数を先読みに利⽤
→ 発展系 AlphaGo Zero (⼈間の知識の除外)
- (AlphaGo 上の) ⼈間の知識は⾼品質なサンプリングデータ
- ⾼⽔準な環境探索アルゴリズムの動的形成で代替え
- ゲーム⽊が既知であるからこそできる⼿法
- 【疑問】ゲーム⽊の知識を除外した場合は？
30
ゲーム⽊探索 (先読み) 深層学習 (評価関数の形成)
AlphaGo
Silver, D., et al.: Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016.

- 発展系 AlphaGo Zero (⼈間の知識の除外)
→ ⼈間の知識＝⾼品質な勝敗データ
→ ⾼品質な環境探索アルゴリズムで置換
- ゲーム⽊が既知であるからこそできる⼿法
31
ゲーム⽊探索 (先読み) 深層学習 (評価関数の形成)
AlphaGo
プロの棋譜
⾼品質探索
アルゴリズム
動的形成

32
ゲームプレイ AI における技術進化【再掲】
(e.g. MinMax)
(e.g. MCTS)
＋
MDP 最適制御
⼈⼯ NN
強化学習
(e.g. Q 学習)
深層学習
(特に CNN)
深層強化学習
(e.g. DQN, A3C)
AlphaGo Dota Ⅱ AI
発展中発展中
結局，ゲーム⽊ (全ゲーム展開の知識) が必要に

33
【疑問】
ゲーム⽊ (＝全ゲーム展開構造) が得られない場合に
複雑な課題は不可能？

複雑な課題 ̶ e.g. DOTA2 ̶
34
OpenAI. Learned Bot Behaviors (2017, August 11) [Video ﬁle]
Retrieved from h:ps://www.youtube.com/watch?v=wpa5wyutpGc (screenshot)
ゲーム⽊なしの
単純なタスク → 複雑なタスクへの移⾏

深層強化学習の進化 - 学習過程の再現・汎化 -
35
(Dota Ⅱ に限らず・・・)
→ 複数のタスクを同時に⾏う
- マルチタスクによって共通する重要な汎化⾏動の発⾒
Teh, Y. W., et.al.: Distral : Robust MulAtask Reinforcement Learning. NIPS. 2017.

36
→ 好奇⼼の付加
- 知らない状況を好む事で環境の探索を促進
Bellemare, M. G., et al.: Unifying Count-Based ExploraAon and Intrinsic MoAvaAon, NIPS. 2016.
Ostrovski, G., et al.: Count-Based ExploraAon with Neural Density Models. NIPS. 2017.

37
→ 複数モジュールで補助
→ 簡単なタスクから徐々にタスクを複雑化
- イルカに複雑な芸を覚えさせるように
Jaderberg, M., at al.: Reinforcement learning with unsupervised auxiliary tasks.
In Internagonal Conference on Learning Representagons. 2017.

38
では次の課題は？
【疑問】

今後の挑戦 ̶ StarCraft Ⅱ ̶
39
膨⼤な⾏動の組み合わせ・膨⼤な状態パターン (画⾯内・外)
→ ⻑期戦略・知識の構造化 (強化学習の本質的な課題)
DeepMind. StarCrah II DeepMind feature layer API. (2016, November 04) [Video ﬁle]
Retrieved from h:ps://www.youtube.com/watch?v=5iZlrBqDYPM (screenshot)

深層強化学習の課題
40
【問題】学習に時間がかかる
【問題】理論上未解決課題が多い
不完全知覚, マルチエージェント, ⾮定常環境への適応 ... etc
- 新しい成果に『理論』は昔から存在していた
- 多くは莫⼤な計算リソースでクリアしている
→ 理論的にクリアできない課題はできない
→ 他の技術との融合 or 理論の発展

41
- 推論，脳内シミュレート
→ エージェント内部に外部環境のシミュレータを構築
- “熟慮” の獲得
これからの強化学習ゲーム AI に必要なもの
Weber, T., et.al.: ImaginaAon-Augmented Agents for Deep Reinforcement Learning. NIPS. 2017.

42
- ⽬的意識，⾏動の抽象化
→ プランニング，サブゴール形成 (内部構造の階層化)
- “熟慮” の低コスト化＝探索効率化・学習時間削減
これからの強化学習ゲーム AI に必要なもの
Vezhnevets, A. S., et. al.: FeUdal Networks for Hierarchical Reinforcement Learning. 2017. arXiv. h:p://arxiv.org/abs/1703.01161
Vezhnevets, A., et al.: Strategic aNenAve writer for learning macro-acAons. In Advances in Neural Informagon Processing Systems, pp. 3486–3494 2016.

おわりに
43
古典
ゲーム構造 (ゲーム⽊) が既知なら探索可能
これまで
強化学習が ”視覚” と “記憶” を獲得しゲーム AI へ応⽤
＋莫⼤な計算リソース
これから
より⻑期戦略を⾃⾝でシミュレートする賢さ (“熟慮”)
⽬的意識を持った課題の分解・構造化による汎化
or 更に莫⼤な計算リソース

おわりに
44
【冒頭の問い】
本当に知的な「強いゲーム AI」に近づいたのか？
→ もちろんまだまだ

おわりに
45
次世代のAI の⾃律的な成⻑技術 (≒ 強化学習) の
理論的拡張はまだ始まったばかり
AI が安全に失敗できるゲーム AI での探求が
汎⽤的な AI 技術を⽣む ”ゆりかご” になるかも

引⽤⽂献
46
[Reinforcement Learning: Sutton, 1998] Sutton, R. S. and Barto, A. G. Reinforcement Learning: An Introduction. MIT Press, Cambridge, 1998.
[MCTS (UCT): Kocsis, 2006] Kocsis, L., and C. Szepesvari, C., Bandit based Monte-Carlo Planning, in Euro. Conf. Mach. Learn. Berlin,
Germany: Springer, 282–293. 2006.
[DQN: Mnih, 2015] V. Mnih, K. Kavukcuoglu, D. Silver, A. Rusu, J. Veness, M. Bellemare, A. Graves, M. Riedmiller. A. Fidjeland, G.
Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis. Human-level control
through deep reinforcement learning. Nature 518 (7540): 529--533 (2015) http://dx.doi.org/10.1038/nature14236, (https://
storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf).
[A3C: Mnih, 2016] Mnih, V., Mirza, M., Graves, A., Harley, T., Lillicrap, T. P., & Silver, D. Asynchronous Methods for Deep Reinforcement
Learning. ICML, 2016.
[AlphaGo, Silver, 2016] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Den, G. Van, Hassabis, D. Mastering the Game of Go with
Deep Neural Networks and Tree Search, (1), 1–37. 2016. (https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf)
[AlphaGo Zero: Silver, 2017] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Hubert, T., Hassabis, D., et al.: Mastering
the Game of Go without Human Knowledge. 2017.
[Dota Ⅱ AI] https://blog.openai.com/dota-2/ and, https://blog.openai.com/more-on-dota-2/
[StarCraft Ⅱ Challenge: Vinyals, 2017] Vinyals, O., Vezhnevets, A. S., & Silver, D., et.al.: StarCraft II : A New Challenge for Reinforcement
Learning. 2017. https://arxiv.org/pdf/1708.04782.pdf
[UNREAL: Jaderberg, 2017] Jaderberg, M., Mnih, V., Czarnecki, W.M., Schaul, T., Leibo, J.Z., Silver, D., and Kavukcuoglu, K. Reinforcement
learning with unsupervised auxiliary tasks. In International Conference on Learning Representations. 2017.
[Distral: Teh, 2017] Teh, Y. W., Bapst, V., Czarnecki, W. M., Quan, J., Kirkpatrick, J., Hadsell, R. Pascanu, R., et.al.: Distral : Robust Multitask
Reinforcement Learning. NIPS. 2017.
[Pseudo-Counts: Bellemare, 2016] Bellemare, M. G., Schaul, T., Saxton, D., and Ostrovski, G. Unifying Count-Based Exploration and Intrinsic
Motivation, NIPS. 2016.
[PixelCNN pseudo-counts: Ostrovski, 2017] Ostrovski, G., Bellemare, M. G., Oord, V. D. O., Munon, R. Count-Based Exploration with Neural
Density Models. NIPS. 2017.
[I2A: Weber, 2017] Weber, T., Racanière, S., Reichert, D. P., Buesing, L., et.al.: Imagination-Augmented Agents for Deep Reinforcement
Learning. NIPS. 2017. arXiv. https://arxiv.org/pdf/1707.06203.pdf
[STRAW: Vezhnevets, 2017] Vezhnevets, A., Mnih, V., Osindero, S., Graves, A., Vinyals, O., Agapiou, J., et al.: Strategic attentive writer for
learning macro-actions. In: Advances in Neural Information Processing Systems, pp. 3486–3494 2016.[FuN: Vezhnevets, 2017] Vezhnevets, A.
S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement
Learning. 2017. (http://arxiv.org/abs/1703.01161)

強化学習技術とゲーム AI 〜今できる事と今後できて欲しい事〜

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 強化学習技術とゲーム AI 〜今できる事と今後できて欲しい事〜

Similar to 強化学習技術とゲーム AI 〜今できる事と今後できて欲しい事〜 (20)

Recently uploaded

Recently uploaded (9)