強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon

Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習を利用した
自律型GameAIの取り組み
高速自動プレイによるステージ設計支援
February 10, 2017
Ryosuke Mashiko, Eiji Sekiya
AI System Dept.
DeNA Co., Ltd.

概要
 前半
⁃ 強化学習について
⁃ 強化学習の最先端
 後半
⁃ FINAL FANTASY Record Keeperでの取り組み
2

自己紹介
 関谷英爾
 AIシステム部
⁃ AI関連の開発および分析基盤開発運用するチーム
 略歴
⁃ 新卒3年目
• VerticaやHadoop等の分析基盤運用
• 機械学習のサービス応用
3

AIシステム部
 Data Engineering
⁃ 社内のアナリストの分析サポートおよびそのためのツール開発
 分散基盤
⁃ Hadoopなどのログ収集基盤開発・運用
 AI/データサービス
⁃ 機械学習などを用いたサービス応用
4

AI/データサービス
 最新動向を把握
⁃ 国際学会への参加
⁃ 論文のキャッチアップ
⁃ 社内勉強会の実施
 注力
⁃ Computer Vision
⁃ 自然言語処理
⁃ 強化学習
5

概要
 前半
 後半
6

強化学習の活用例
7
 ロボットのピッキング作業
⁃ 上手くものを拾えるように手の動かし方を学習
 自動運転
⁃ 事故を起こさないような運転方法を学習
 囲碁AI
⁃ 勝てるような手を学習

強化学習
 環境情報(入力)から取るべき行動(出力)を学ぶ
 行動を繰り返し行うことで良い(報酬が高くなる)行動を学んで
いく
8
状態の観測
報酬
行動
エージェント環境

9
DQN
(Deep Q-Networks)

Deep Learning × 強化学習 (DQN)
 強化学習に画像認識で培ったDeepLearningの技術を用いた
⁃ 画像情報を与えて試行錯誤をすれば取るべき行動を学べる
ようになった
⁃ 状態の特徴を人の手で作り込む必要がなくなった
10
状態(画像)の観測
報酬
行動
エージェント
(Deep Learning)
環境

Deep Learning × 強化学習(DQN)
 2014年にDeepMindのV.Mnihらが出した論文
⁃ Playing Atari with Deep Reinforcement Learning
⁃ Atari 2600のゲームをクリアしたという論文
 Atari 2600って？
⁃ 米国atari社が出した家庭用ゲーム機
• Pong, Space Invaders, Enduro, etc.
• DQNでDeepMindがSpace Invadersを学習させた動画
⁃ https://www.youtube.com/watch?v=W2CAghUiofY
11

AlphaGO
 DeepMind社によって開発された囲碁プログラム
 2015年10月に初めてプロ棋士を破ったことで有名
 年末年始には囲碁がインターネット対戦できる「野狐囲碁」と
「東洋囲碁」で匿名で参加し全勝
 理論の特徴
⁃ DeepLearningを用いた
⁃ 教師あり学習でプロ棋士の手を学習
⁃ コンピュータ同士による対戦で強化学習
⁃ モンテカルロ木探索による最善手の探索
12

概要
 前半
 後半
13

14

15
機械学習のトップカンファレンスの１つ
NIPSの参加者数
指数関数的に増加
(引用: https://media.nips.cc/Conferences/2016/NIPS-2016-Conference-Book.pdf)

16
その中でも「強化学習」は
最も注目されている領域の１つ

NIPS 2016
 Deep Learning関連の研究が多い
 今年の注目領域
⁃ GAN
⁃ 強化学習
 Best Paper
⁃ A. Tamarらの「Value Iteration Networks」
⁃ 強化学習に関する研究が選ばれた
 強化学習に関する大きな二つの発表
⁃ DeepMind Lab
⁃ OpenAI Universe
⁃ 共通点
• シミュレーション環境の構築の難しさや共通の問題を世界で取り組み競える
ようにシミュレーション環境を提供
17

DeepMind Lab
 AlphaGoで有名なDeepMindが公開したフレームワーク
⁃ https://www.youtube.com/watch?v=M40rN7afngY
 FirstPersonViewの問題が対象
⁃ 3D空間を観察(入力)
⁃ 3D空間内での行動(出力)
 2Dではなく、3D空間を観察し行動
⁃ ロボティクスの分野での応用も考えられる
18

OpenAI Universe
 AI技術のOpen化に取り組んでいるOpenAIが公開したフレームワーク
 ブラウザタスクを一般化して取り扱えるように
⁃ ブラウザを観察(入力)
⁃ キーボード操作(出力)
 様々なブラウザタスクが学習できる対象
⁃ Gameのプレイだけでなく、スクロールや文字入力も
19
引用: https://openai.com/assets/blog/universe/interface-
725abed463ba2b83d4a68fd08d1818fed900a939cb9c4b9eb1bac07952b4fe61.png

強化学習を用いてDeNAでどのようなことが可能か？
 様々なサービスのテストの自動化
⁃ QA工数の削減
 リッチなNPC(Non Player Character)戦
⁃ 電脳戦
⁃ マルチプレイ通信断後のプレイ引き継ぎ
 ステージ設計支援
⁃ プランナーの工数削減
20
FINAL FANTASY Record Keeperにおける
高速自動プレイによるステージ設計支援

21
FINAL FANTASY Record Keeper
における自律型AI活用事例

自己紹介
 益子遼介
 2012年新卒入社エンジニア
 2012 ~ 2015/5
 主に、ゲーム事業本部においてMobageタイトルのエンジニア
 2015/5 ~
 AIシステム部
 分散処理アプリケーション開発、基盤運用:
 Elasticsearch, Cassandra, Storm
 AI開発:
 本プロジェクトのシステム全体設計、アルゴリズム実装
 etc..
22

アジェンダ
 FFRKのバトルとは
 ゲームの流れ
 画面構成
 AI設計
 どのようなAIがあればよいか？
 AIの学習アルゴリズム
 探索的アプローチ
 ニューラルネットによるアプローチ
23

FINAL FANTASY Record Keeper (FFRK)
 株式会社スクウェア・エニックスとの共同開発
 2014-09-25 リリース
 リリース後1年半で1000万ダウンロード
 FINAL FANTASYの歴代タイトルにおけるバトルをアプリ上で追体験
24

25
FFRKのバトルとは

26
イベントはダンジョンとし
て実装される
進むにつれ
難易度は上がっていく
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,

27
ダンジョンに登場する
ボスの情報

28
パーティを編成して
ダンジョンに挑む

29
ダンジョンに入ったら
いよいよバトル

FFRKボスバトル仕様
30
キャラクターごとに
• HP
• 各種能力値
• 状態異常
• etc…
ボスキャラクターごとに
• HP
• 状態異常
• etc…
キャラクターごとに
• 攻撃
• 防御
• アビリティ
• 必殺技
• フレンド召喚©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,

ボスAIの内部実装
31
初期状態
通常状態
津波集め状態
防御状態
 ステートベースAIとして実装

ボスAIの設計時の課題
32
初期状態
通常状態
津波集め状態
防御状態
雷属性攻撃をN発受け
ると遷移
or
津波攻撃の後、遷移
残りHPがN以下の場合、
X%の確率で遷移
 ステートはボスごとに異なるため、調整ポイントも毎度設計が必要
ボスごとにチューニングポイントが複数ある

ボスAIの設計時の課題
さらに
 ゲームバランスを破壊するようなパーティ組み合わせの検出
 数百回バトルを繰り返し、統計量の算出
にも応用できそう
33
人手でやるのは大変
AIによる高速自動プレイ
ボスパラメータ調整
実機でのプレイ感評価
端末適用再設計

34
AI設計
AIをどのように作るか？

FFRKにおけるAI要件
 FFRKのバトルには、ランダムな要素が多く含まれる。
⁃ 初期行動順
⁃ 行動結果の振れ幅（行動の成否、ダメージの振れ幅）
⁃ ボス行動
 事前に行動を予測しておくことはできず、
⁃ 進行状況に応じて
⁃ 将来的に最も有利となる行動をとるAIが必要
⁃ 将来的に人間らしさも考慮
35
入力
• 操作キャラのステータス
• ボスのステータス
• 現在取りうる行動
• Etc..
出力
• 誰が
• 誰に
• 何をする行動決定関数

学習環境構成
FFRK シミュレータ
Node.js製
学習エンジン
Python製
Unix Domain Socket
ボス、キャラ、
アビリティな
ど、バトル情
報をまとめた
JSON
初期化API
行動API
結果
結果
行動の結果を評価
し、次の行動を決
定
 学習エンジン: Python
 シミュレーター:Node.js
⁃ Python側から任意のバトルをシミュレートできる
 ソケット通信でやりとりしている。

シミュレーター実装
 行動選択API
⁃ バトル中のプレイヤー行動をシミュレーター内で実行するAPI
⁃ ユーザーのボタンタップに相当
 フレーム進行API
⁃ ゲーム内時間を任意のフレーム（ゲーム内時間）すすめるAPI
⁃ 学習エンジン側で、ゲームの進捗を管理
 Fork API
⁃ 現在のシミュレーターをプロセスまるごとコピーするAPI
⁃ 並列化、探索アルゴリズムに利用
37

38
行動決定のためのアルゴリズム

アルゴリズム
 Monte Carlo Tree Search
 ニューラルネットを用いたアプローチ
 NEAT
 AI学習結果の解説
 Q-learning
39

アルゴリズム
 Monte Carlo Tree Search
 NEAT
 AI学習結果の解説
 Q-learning
40

探索的アプローチ
 現在取りうる行動をそれぞれ試行して算出した行動価値を元に、次の最
適行動を決定する手法
 一般的に、全ての行動パターンを十分探索すれば最適解が得られるが、
現実的には効率的に探索範囲を削減する必要がある。
41
ターン1(初期状態)
ターン2
どのアクションを選択し
たらよいか、実際に行動
してみて評価する
ターン3

Monte Carlo 法
 今回、より効率的に試行を割り振るMonte Carlo Tree Search（
MCTS)を実装して評価
42
①初期行動を選択後
②選択行動後は、ランダムに行動を
選択して終了まで行動する（プレイ
アウト）
③終了時の状態を選択行動の評価値
とする
① 〜 ③を可能限り多く試行する
探索ターン
バトル終了

MCTSの評価
 Pros
⁃ 実装がシンプル
⁃ 評価関数も定義しやすい
• 最終的な勝敗（1[勝ち] or 0[負け])をスコアとする場合が多い
• 実際には 0〜1の間で連続したスコアとなるように調整している。
⁃ （ニューラルネットによるアプローチと比べ）事前の学習が不要
 Cons
⁃ ターン毎に毎回探索する必要があり、現状の環境では実利用可能な
レベルでの応答性は達成できなかった。
• １ターン行動推薦の度に1分半程度かかる
⁃ プレイアウトの影響で、長期戦や勝ち筋の少ないバトルで苦戦
43
イフリート戦勝率 0%

アルゴリズム
 モンテカルロ木探索
 NEAT
 Q-learning
44

ニューラルネットによるアプローチ
 人間のプレイ中の思考過程をニューラルネットで表現できないか
 つまり、行動決定関数をニューラルネットで表現する
45
入力出力

46
ニューラルネットの学習アルゴリズム
NEAT & Q-learning

NEAT
 ニューラルネットを遺伝的アルゴリズムで学習させる手法の１つ
 ネットワーク構造を1つの個体とする
 第１世代として多数のニューラルネット（個体）をランダムに生成、そ
れぞれバトルを試行させ、結果のよかったものを第2世代に引き継ぐ。
47
第1世代
戦績評価

NEAT
 第２世代に引き継がれたもののうち、
 よかったもの同士を混ぜ合わせる（交叉)
 完全にランダムな個体を紛れ込ませる（突然変異）
などの操作をして、ネットワークを改善していく
48
第1世代第2世代
突然変異
交叉

 結果として、世代が進むごとに、自律的にネットワーク構造を学習。
NEAT
49
第N世代
突然変異
交叉

 「遺伝」を模したアルゴリズム
 遺伝子の交叉、突然変異、環境適応による淘汰
 適応度の低い個体を淘汰し、優れた個体を次の世代へ
 交叉・突然変異などを繰り返して最適解に近づけていく
第N世代
ニューラルネットワーク x 遺伝的アルゴリズム
50
突然変異
交叉
初期ネットワーク
出力層
入力層
入力可能な行動フラグと対応
する出力を結ぶだけの構造を
初期値に設定
1000世代 ~

 「遺伝」を模したアルゴリズム
 遺伝子の交叉、突然変異、環境適応による淘汰
 適応度の低い個体を淘汰し、優れた個体を次の世代へ
 交叉・突然変異などを繰り返して最適解に近づけていく
第N世代
ニューラルネットワーク x 遺伝的アルゴリズム
51
突然変異
交叉
世代
学習スコア

52
果てしないチューニングの道のり

初期の学習型AIの問題
 回復スキルを使用しなかったり、タイミングがデタラメ。
 補助スキルを無駄に連打してしまう。
 学習が遅い
53
• キャラクターのHPの入力を 0 ~ 1ではなく、 -0.5 ~ 0.5に
• ステータス値のバトル開始時からの変動率を入力に追加
• 過去のスキル発動履歴を入力に追加
• 並列学習の実装

54
AIによる推薦行動ログの解説

AIによる学習行動ログ解説
 序盤〜中盤の動き
 味方のステータスを引き上げる
 敵のステータスを引き下げる
 敵の弱点を突く氷属性で攻撃
 ダメージを受けたら早めに回復
55
行動
聖なる守護神 (味方全員にヘイスト・リジェネ・魔防
UP)
シェルガ (味方全員にシェル)
敵通常攻撃
ブリザジャ (氷属性の魔法攻撃)
ケアルガ
敵通常攻撃
フルブレイク (敵のステータスを下げる)
ケアルガ
ブリザガ剣 (氷属性の物理攻撃)
ハイマジックブレイク (敵の魔力を下げる)
…

行動ログ解説
 終盤の動き
 敵の強力な全体攻撃が増える
 全体回復必殺技で対応
 味方を強化する必殺技
 敵のステータスを下げる必殺技
 強力な氷魔法必殺技で畳み掛ける
56
行動
…
ほのお (HPの1/4のダメージを与える全体攻撃)
キャニスターショット (防御力・魔防DOWN必殺技)
敵通常攻撃
夢のステージ (味方全体を回復必殺技)
魔女の覚醒 (強力な氷魔法必殺技）
火炎(HPの1/2のダメージ与える攻撃)
G.Fケルベロス (魔法攻撃の詠唱時間を短縮)
メテオ (大ダメージを与える全体攻撃)
真の魔法・氷滅 (4連氷属性魔法)
…

NEATの評価
 Pros
 中間層の構造は全て学習過程で生成されるため、構造を事前に定義
しなくともよい
 ただし、中間ノードの生成確率など、それなりにチューニングは必要
 １世代の個体評価は並列に行うことができるので、並列化により学
習時間の短縮が可能
 Cons
 ランダムな遺伝子生成に依存しているため、学習がいつ収束するの
か未知数（収束しない場合もある）
 基本的にネットワークを拡大させる方向に学習が進むので、無駄に
構造が大きくなる可能性がある
57
イフリート戦勝率 40%前後

強化学習(Q-Learning)
 「バトル」の中で「AI」が状況を観察し、行動、その結果フィードバッ
クを通じて取るべき行動を選択する最適な方法を見出す
 ニューラルネットの構造は、NEATで学習したものを参考に設定
58
行動決定関数
状態の観測
報酬
行動
環境

 状態sにおいて、行動aを選択
59
環境エージェント
行動決定関数
状態s
（味方HP、ボスHPなど）
行動a
（攻撃、防御、必殺技など）

 その結果得られる報酬をr、行動の結果として環境は状態s’に遷移
60
状態s
行動a
報酬r
（与被ダメージの和など）
行動決定関数

 その結果得られる報酬をr、行動の結果として環境は状態s’に遷移
 そして状態s’について行動選択があり… と、状態 -> 行動 -> 報酬は連
鎖
61
状態s
行動a
報酬r
行動決定関数

 最適行動は、将来的な報酬が大きくなるように行動を選択する必要があ
る
 将来的な報酬とは….
 状態sにおける行動a、その後の状態変化後の展開も含めた収益の総
和
 これを予測できるようにネットワークを更新していく
62
状態s
行動a
報酬r
行動決定関数
重み更新

FFRKの問題の特徴と強化学習の取り組み
 行動選択の際にすぐに報酬が得られない(遅延報酬)
 どの行動がよかったのか適切に判定できない
 多くの研究で同じ課題への解決方法が提案されている[1]
 細かい時間間隔でターン制でない
 連続時間や連続行動空間を扱うことを得意とする別の強化学習の枠
組みが必要[2,3]
63
1. NIPS 2016でもAtari 2600のMontezma’s Revengeというゲームを題材に研究報告がされている
2. 価値関数の限界 - Q-Learning, Sarsa
3. Actor-Criticのようなアルゴリズムを採用 .. 行動した価値だけを学ぶのではなく、取るべき行動を学習する
手法

Q-Learningの評価
 Pros
 学習の進み収束具合が定量的に判断しやすい
 LOSS値や累積報酬和の変化
 Cons
 探索とのバランスが難しい
 NEATなどの遺伝的アルゴリズムと違い地道な改善は見られるが学習中に大
きなブレークスルーが起きづらい
 対策となり得る論文紹介
 Prioritized Experience Replay(不均一な探索に対する学習改善)
 Unifying Count-Based Exploration and Intrinsic Motivation(不均一な探索の解
消)
64
イフリート戦勝率 40%前後

65
シミュレーションの
デモムービーを展示しています！
＠展示スペース

AIの現状と残課題
 現状
 ボス1体のバトルにおいて、人間と遜色ないレベルでの勝率
 100戦勝率
 行動解析
 課題
 学習時間
 目標1時間のところ、難易度の高いボスでは10時間ほどかかっている。
 状態異常の評価が上手くできていない
 たとえば回復スキルは一般に評価の高い行動となるが、回復してあげたいキ
ャラがリフレク状態（魔法を跳ね返す）の場合は、ボスを回復してしまうの
でNG
 複数ボスへの対応
 ボスの数だけNNが倍増し、学習時間も倍増
66

まとめ
 AIによるゲームの自動プレイは実際に可能、というところまできている
 対応できていない高度なバトル・戦術については引き続き改善予定
 学習したAIを実際に業務に活用していくフェーズ
67

実サービス向け学習環境構成
68
Learning API Server
学習用インスタン
ス
Jenkins
ジョブジョブジョブ
ス
スAMI
FFRK Development Tool
Memcached
学習済みモデルを
S3
バトルID、バトル情報
行動レコメンデーション
学習フェーズ AI利用フェーズ
S3
Recommendation API Server

最後に、これからゲームへのAI活用をすすめる上で
 途中からAIを利用しようとするとそれなりに工数がかかる
 特に、AIの学習には膨大な試行回数が必要になるケースが多いので
、ゲームを高速で試行できるようなシミュレータの実装は必須
 ゲームの設計段階でどこまでAIを利用するかきちんと定義し、それに合
わせてシミュレーターやデータ形式を用意しておくのが吉。
69

70
ご静聴ありがとうございました

強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (12)

Similar to 強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon

Similar to 強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon (20)

More from DeNA

More from DeNA (20)

Recently uploaded

Recently uploaded (9)

強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon

Editor's Notes