DeNA TechCon2018 ゲーム体験を支えるための強化学習

ゲーム体験を⽀えるための
強化学習
AIシステム部AI研究開発グループ
奥村純・⽥中⼀樹
（in collaboration with 甲野祐・岡⽥健）

講演者の紹介
奥村エルネスト純
• 略歴
– 宇宙物理学の研究（Ph.D）
• ⾼エネルギー天体現象、観測的宇宙論
– データアナリスト
• ゲーム領域：⾏動ログ分析、パラメータデザイン
• オートモーティブ領域：移動体分析
– AI研究開発エンジニア
• 強化学習・深層学習を使ったゲームAI研究開発（チームリーダー）
1
@pacocat

本⽇の講演内容
アプリゲーム『逆転オセロニア』で
強化学習・深層学習を使った
バランス調整に取り組んでいるお話
2

講演の流れ
3
ゲーム領域におけるAI開発の背景1
• 『逆転オセロニア』で解決したい課題
• AI研究開発の進め⽅について
AI技術のご紹介
• 学習アーキテクチャとAI技術の紹介
• 検証結果とノウハウについて
• プロジェクト観点で難しい点、嬉しい点
• ゲーム領域でのAI活⽤に際してやっておいた⽅がいいこと
2
3 今後に向けて

講演の流れ
4
2

『逆転オセロニア』のご紹介
• オセロとトレーディングカードゲームを融合した戦略アプリゲーム
– オセロがベースなのでルールが「誰でも分かる」
– 「駆け引き」や「逆転」が巻き起こるゲームシステム
• 2016年2⽉サービスイン後、成⻑を続けている※
– 2018年1⽉ 1,800万ダウンロード突破
– YouTube、リアルイベント
5
※ “⼀周年で爆発した「逆転オセロニア」における、ゲーム分析の貢献事例
〜開発・運営の意思決定を全⼒でサポートする、DeNAのゲーム分析体制〜”
藤江清隆 & 奥村純, CEDEC2017
http://cedil.cesa.or.jp/cedil_sessions/view/1729

ルール説明：デッキ構築
• 16駒からなるデッキを構築して対戦を⾏う
• 各駒は、ステータス（攻撃⼒、etc）や独⾃のスキルを持っている
6
キャラクター詳細画面
キャラクターステータス
（HP: ヒットポイント、
ATK: 攻撃力…）
キャラクター固有のスキル
2,000種類以上の選択肢から
16個の駒を選択
戦略に応じてバランスよくデッキを構築する必要がある

ルール説明：対戦
• 基本ルールは盤⾯が 6×6 のオセロ
• 駒を置いてダメージを与えながら、相⼿のHPを削ったら勝ち
7
4つの手駒はデッキから
ランダムに選ばれる
特定条件を満たすマスで
スキルが発動する相手の手駒は見えない
使えるキャラクターは多様
（2,000種類以上）
運要素が存在
不完全情報ゲームオセロ力だけでなく、
スキルの運用能力が重要
局面数が莫大（〜10120）
ルールはシンプル、戦い⽅は多様で奥深い

ゲーム環境の変化
• 対戦の遊びを豊かにするため継続的にキャラクターを追加
– 新キャラクター追加：週に2,3体程度
– 新スキル追加：2,3ヶ⽉に⼀回程度
8
キャラクタースキルの微妙なバランスや流⾏によって
ゲーム環境が⽇々変化している

バランス調整の難しさと重要性
• キャラクターのスキルは、熟練プランナーが
「強すぎず、弱すぎず、意図された使い⽅をされる」ように設計
– 絶妙なバランスを保つ難易度が⾼い
– ゲーム環境はどんどん複雑になるので、調整コストも爆発していく
• パラメータが適切ではないと、ゲームサイクルに影響が出てしまう
– ゲームバランスの毀損、デッキの硬直化、対戦UXの単調化、…
9
キャラクタースキルのバランス調整を、
「ミスなく」「効率的に」⾏いたい

解決したい運⽤課題
1. 新しいスキルの評価が正確できない
– 既存スキルに対しては、ログデータを活⽤した調整フローがある※
– 新しいスキルはどのように使われるか正確な予測が困難な場合がある
2. キャラクターの性能をテストするのにかかる⼯数が⼤きい
– テスト環境で確認できる試⾏回数も⼈⼒では限りがある
3. どこまでチューニングを続けても⾒落としリスクがある
– ゲームが複雑になる中で検証する要素が爆発的に増えていく
– 全てのユーザーセグメントの体感を検証するのは難しい
10
※ “ログ分析で⽀えるゲームパラメータ設計”, 奥村純, DeNA TechCon2017
https://www.slideshare.net/dena_tech/denatechcon-72603558

実現できたら嬉しいこと
1. リリース前の新しいスキルでも検証ができること
– ⾃律的なキャラクター運⽤の学習
2. ⼤量の検証によって性能を評価できること
– シミュレータを使った⼤量の⾃⼰対戦の実現
3. 壊れケースを効率的に検知できること
– ⼈間のようなリテラシーで合理的に探索する⽅法の実現
11
新環境でも柔軟に運用方法を獲得する、強いAIの実現

強化学習を使ったアプローチ
12
強化学習とは？
ある環境下で、⽬的とする利益を最⼤化するための、
戦略（⾏動系列）を獲得する機械学習の⼀種
環境
例:ゲームの対戦シミュレータ
現在の盤⾯を観測
勝率が⾼くなりそうな⾏動を選択
駒を置いた結果と報酬を観測
…
• 未知の環境（新しいゲーム環境）に対しても学習が可能
• 試⾏錯誤を繰り返しながら、⾃律的に学習ができる

強化学習とゲームタスク
近年の強化学習技術の進展によって、様々なゲームにおいて
⾼いパフォーマンスを出した研究が報告されている※
13
※“強化学習技術とゲーム AI 〜今できる事と今後できて欲しい事〜”, 甲野祐, SHIBUYA Synapse #2
https://www.slideshare.net/yukono1/ai-82646808
“Playing Atari with Deep Reinforcement Learning”,
Mnih et al., NIPS Deep Learning Workshop 2013
https://arxiv.org/pdf/1312.5602.pdf
“Mastering the game of Go without human knowledge”
Silver et al., Nature 550, 354–359
https://www.nature.com/articles/nature24270.epdf
“StarCraft II: A New Challenge for Reinforcement Learning”,
Vinyals et al.
https://arxiv.org/pdf/1708.04782.pdf
レトロビデオゲーム
（Atari 2600）
ボードゲーム
（囲碁, 将棋, チェス, …）
リアルタイムストラテジー
（StarCraft II, Dota2）

研究開発ロードマップ
14対応キャラ数
強さ
ルールベースAI
（既存NPC）
ランダムAI
①教師あり学習
そもそも学習が出来るのか検証
②表現学習
キャラを拡張できるか検証
トッププレイヤー
相当
③強化学習
自律的に強くなるか検証
④先読み機能
現実的にどこまで強く出来るか検証
ミドルプレイヤー
相当
4つの技術を組み合わせ「環境に柔軟に対応する、強いAI」を作る

オセロニアAIの研究開発概要
1. 教師あり学習
– ⼤量の棋譜ログを活⽤し「⼈間が実際に打つような指し⼿」を学習
2. 表現学習
– キャラクター運⽤の特徴を学習（キャラクター拡張、学習効率化）
3. 強化学習
– ⾃⼰対戦による⾃律的な学習
4. 先読み機能
– 数⼿先を読むことで精度を改善、強化学習時の学習サポート
15

講演の流れ
16
2

講演者の紹介
⽥中⼀樹
略歴
• 2017年新卒⼊社
• 電⼒最適化の研究
– 再⽣可能エネルギー、確率計画法
• 国内外のデータ分析コンペで複数回⼊賞
– Kaggle 3位（Kaggle Master）、KDDCup 10位、…
• AI研究開発エンジニア
– 強化学習・機械学習を⽤いたゲームAI開発（本講演）
• 最近では、『速習強化学習ー基礎理論とアルゴリズムー』（共著）を出版
– 分析業務
• 『「逆転オセロニア」における運⽤効率化⽀援〜デッキログのデータマイニング〜』という
タイトルで解説しました。資料は後⽇公開予定です。（ORANGE Stage、14:00~14:40）
17
@ikki407

2. 表現学習
3. 強化学習
4. 先読み機能
18

教師あり学習学習データ
• 上位プレイヤーの対戦棋譜を⽤いて作成
• ⼊⼒データ（特徴量）
① ステータス
• 最⼤HP、残HP、ターン数、…
② ⼿駒/デッキ情報
• 駒情報（攻撃⼒、スキル、…）、リーダー駒
③ 選択可能な⾏動
• 駒 × マス情報
④ 盤⾯情報
• ⽩⿊駒の配置、特殊マス情報、罠の有無、…
• 出⼒データ（教師信号）
– プレイヤーが選択したか否かのバイナリー変数 19
①
②
③
④

教師あり学習アーキテクチャ概要
20
盤⾯情報
ステータス
⼿駒
デッキ
⾏動全
結
合
層
CNN
全
結
合
層
全
結
合
層
⾏動の評価値
⼀番⼤きい値の
⾏動を選択
⼊⼒（特徴量）ニューラルネットワーク
出⼒
※1 Deep Q-Network
※2 Convolutional neural network
ゲーム画⾯
• 深層強化学習のアルゴリズムであるDQN※1に着想を得た構造
– 盤⾯情報は畳み込みニューラルネットワーク（CNN※2）で処理

教師あり学習実験結果
• 既存NPC※（ルールベースAI）に対して⾼い勝率が出せている
– 17デッキの同デッキ対戦※で平均90%程度の勝率
21
⻯(試)
神(試)
魔(試)
⻯2(定)
⻯1(定)
⻯3(定)
魔2(定)
魔1(定)
魔3(定)
神2(定)
神3(定)
神1(定)
混2(定)
混1(定)
混3(定)
全2(定)
全1(定)
⻯(試)
神(試)
魔(試)
⻯2(定)
⻯1(定)
⻯3(定)
魔2(定)
魔1(定)
魔3(定)
神2(定)
神3(定)
神1(定)
混2(定)
混1(定)
混3(定)
全2(定)
全1(定)
AI
既存NPC
勝率(%)
※ Non-player character
※ 1,000対戦による検証結果
※ 実際のデッキ相性を表現するものではありません
⻘いほど
強い

• 既存NPC（ルールベースAI）に対して⾼い勝率が出せている
22
⻯(試)
神(試)
魔(試)
⻯2(定)
⻯1(定)
⻯3(定)
魔2(定)
魔1(定)
魔3(定)
神2(定)
神3(定)
神1(定)
混2(定)
混1(定)
混3(定)
全2(定)
全1(定)
⻯(試)
神(試)
魔(試)
⻯2(定)
⻯1(定)
⻯3(定)
魔2(定)
魔1(定)
魔3(定)
神2(定)
神3(定)
神1(定)
混2(定)
混1(定)
混3(定)
全2(定)
全1(定)
AI
既存NPC
勝率(%)
不利なデッキでも
勝てなくはない

• 既存NPC（ルールベースAI）に対して⾼い勝率が出せている
23
⻯(試)
神(試)
魔(試)
⻯2(定)
⻯1(定)
⻯3(定)
魔2(定)
魔1(定)
魔3(定)
神2(定)
神3(定)
神1(定)
混2(定)
混1(定)
混3(定)
全2(定)
全1(定)
⻯(試)
神(試)
魔(試)
⻯2(定)
⻯1(定)
⻯3(定)
魔2(定)
魔1(定)
魔3(定)
神2(定)
神3(定)
神1(定)
混2(定)
混1(定)
混3(定)
全2(定)
全1(定)
AI
既存NPC
勝率(%)
デッキの相性で
多少弱い場合
もある

勝率
教師あり学習ベースラインとの⽐較
• AIはチューニングによって既存ルールベースAIより⼤幅に強くなる
– 意味のある戦術を学んでいることが⽰唆できる
24
ルールベースAI
※ 17種類の対戦結果の平均勝率
対ルールベースAIとの平均勝率（同デッキ対戦）
0%
90%
100%
50%
40ポイント勝率UP！
AI（チューニングモデル）

教師あり学習設定と⼯夫点
• 選択/⾮選択を教師信号として採⽤
– ⼈間のようにプレイするAIを獲得したいから
– 上位プレイヤーの負けた情報も有効活⽤している
• ネットワーク・学習の詳細
– Batch Normalizationは有効、Dropoutは弱め
– 活性化関数：ELU（ReLUよりも有効だった）
– 損失関数：Cross Entropy
• ⼤量の棋譜があるためデータ読み込みを効率化
– 並列化、キューなどを駆使した⾼速化
25

2. 表現学習
3. 強化学習
4. 先読み機能
26

表現学習何ができるのか？
27
1. キャラクターを低次元のベクトルで表現できる
– 通常、キャラクター数に応じた⼤きさのベクトルが必要
– モデルサイズ削減、学習速度向上が期待できる
2. 運⽤⽅法が似たキャラクターは同じような表現になる
– 「フィニッシャーとして活躍する」、「⾓に置くと活躍する」など
埋め込み前埋め込み後
1 0 0 … 0 0 0
0 1 0 … 0 0 0
キャラクター数分（約2,000）
-1.5 0.2 0.8 -0.3 1.1
-0.8 0.3 0.4 -0.1 0.5
数次元（固定）
…
…

⼊⼒（特徴量）
表現学習アーキテクチャ
• 低次元ベクトルを獲得する埋め込み層を⾏動⼊⼒の後に導⼊
• マルチタスク学習としてモデルを訓練する
28
盤⾯情報
ステータス
⼿駒
デッキ
⾏動
全
結
合
層CNN
埋め込み層
重み
ダメージ
回復
毒
勝敗
…
ニューラルネットワーク
出⼒（マルチタスク）
ゲーム画⾯

特殊ダメージ
⻯
マス変換
罠毒
カウンター
アンデッド
召喚
回復
オーバー
ロード
吸収
2枚
以上
2枚以上
表現学習獲得した表現の可視化
29
• キャラ表現を2次元に削減し
プロットした例※
– 戦略に応じた表現が
得られていることが分かる
• 低次元ベクトルを活⽤して
教師あり学習・強化学習
を効率化
※ AIの学習過程の図でゲーム戦略の完全な表現を保証するものではありません

2. 表現学習
3. 強化学習
4. 先読み機能
30

強化学習既存のアーキテクチャ
• 通常のDQN※は出⼒が前もって⾏動の数だけ固定されている
– 例）ブロック崩しの⾏動は”左”、”右”、”動かない”の3種類（固定）
31
DQN
盤⾯情報
ステータス
⼿駒
デッキ
⾏動1 ⾏動1の評価値
⼊⼒（特徴量）出⼒（各⾏動の評価値）
ゲーム画⾯
オセロニアでは膨⼤な⾏動
駒(~2,000) x マス(32)=…
※ Mnih, V., et al.: Human-level control through deep reinforcement learning. Nature, 518:529–533, 2015

強化学習使⽤するアーキテクチャ
• 動的に変わる⾏動を扱えるネットワーク構造を採⽤
– オセロニアでは⾏動空間（キャラクター数 × マス）が巨⼤
– ⾏動を⼊⼒することで出⼒層を固定しネットワークサイズを抑制
32
DQN
盤⾯情報
ステータス
⼿駒
デッキ
⾏動⾏動の評価値
⼀つだけになる！（固定）
⾏動
⼊⼒（特徴量）
出⼒（⾏動の評価値）
ゲーム画⾯

強化学習⾃⼰対戦による成⻑
• 強化学習エージェントは⾃分⾃⾝と対戦して⾃律的に戦略を学ぶ
– 対戦相⼿（⾃分⾃⾝）も⾃分と同様に成⻑
33
強さ
⾃分
RL
RL
RL
過去の⾃分⾃⾝AI
相⼿
過去のバージョン
• 直前
• 学習開始時
• 5回前
• …
※ RL: Reinforcement Learning（強化学習）

強化学習⾃⼰対戦による成⻑
• 実際は…、様々なAIエージェントを相⼿として⽤いる
– いろんな戦略に対応するため
– 早く価値のある戦術を学習するため（馴れ合いを防⽌するため）
34
強さ
⾃分
RL
RL
RL
過去のAI
相⼿
敵エージェントの⼀例
• 過去の⾃分⾃⾝
• 教師あり学習エージェント
• ルールベースAI
• …
過去のAI
過去のAI

強化学習実験結果
• ある特定の状況ではゼロからミドルレベルのプレイヤー並みまで
成⻑することが確認できている
35バトル数
勝率(%)
実績値
移動平均
試⾏錯誤の影響で
初期段階では振動
多くのバトルを⾏い学習が
進むと強さが安定する
強化学習
エージェントの
学習曲線
※ 開発段階における既存NPCに対する学習結果です

強化学習難しさと対策
36
• 『逆転オセロニア』への強化学習の適⽤には複数の難しさがある
毎ターン取れる⾏動の種類が
変わる（可変⻑⾏動）
豊富な計算資源を使っても
実験に時間がかかる
いろんな戦術の相⼿がいる
＋
敵デッキが不明（不完全情報）
…

強化学習難しさと対策
37
• 複数の難しさを解決するために取り組んでいる対策
可変⻑⾏動を扱うネットワーク
構造の使⽤（＋表現学習）
教師あり学習の結果を強化学習
の初期化に⼀部使⽤した効率化
様々な戦略をもつ
AIエージェントとの⾃⼰対戦
毎ターン取れる⾏動の種類が
変わる（可変⻑⾏動）
豊富な計算資源を使っても
実験に時間がかかる
いろんな戦術の相⼿がいる
＋
敵デッキが不明（不完全情報）
…
…

2. 表現学習
3. 強化学習
4. 先読み機能
38

先読み機能先読み機能とは？
• 先読みを⾏いながら⽊構造としていろんな盤⾯の系列を表現※
– ⼤量のシミュレーションを⾏い、ある局⾯での最善⼿を決定
39
開始ターン
⾃ターン
敵ターン
⾃ターン
バトル終了
…
①現在の局⾯から次に取りうる⾏動を試す
…
…
現在の局⾯
※ モンテカルロ⽊探索（MCTS）を使⽤

40
開始ターン
⾃ターン
敵ターン
⾃ターン
バトル終了
…
②⾏動後は敵ターン含めてバトル終了まで
ランダムなプレイ（プレイアウト）を⾏う
…
…
現在の局⾯
• 先読みを⾏いながら⽊構造としていろんな盤⾯の系列を表現

41
開始ターン
⾃ターン
敵ターン
⾃ターン
バトル終了
…
②⾏動後は敵ターン含めてバトル終了まで
ランダムなプレイ（プレイアウト）を⾏う
③終了時の勝敗を①の⾏動の評価値とする
これを⼤量に繰り返し取るべき⾏動を決める
…
…
現在の局⾯
• 先読みを⾏いながら⽊構造としていろんな盤⾯の系列を表現

先読み機能最新の動向
• 最新ゲームAIの研究成果では先読み機能が重要な要素になっている
– 囲碁AI、将棋AI、チェスAI、…
• AlphaGo Zero※(2017)という棋譜なしで強くなる囲碁AIが登場
– 強化学習を⽤いて学習
– ニューラルネットと先読み機能を組み合わせて精度向上
42※ 出典: David S. et al., Mastering the game of Go without human knowledge, Nature, Vol. 550 (2017), pp. 354–359

先読み機能オセロニアでの活⽤案
• 強化学習との組み合わせによるAIの強化
– 推論サポート（ランダム探索では限界がある）
– “ミスが許されない勝ち筋”を⾒つけやすくなる
• 先読み機能だけでも教師あり学習/強化学習と同じような強さが
確認できている
– 不利なデッキ同⼠の対戦でも⾼い勝率
– シミュレータの計算速度に依存した課題も存在
43

技術内容まとめ
• 『逆転オセロニア』におけるAI開発では課題を細かく分解し
柔軟に既存技術の改造と新規技術の発案をしている
– ドメイン毎に異なる性質を深く理解することが⼤事
– 複雑なゲームに既存技術を単純に適⽤するだけではうまくいかない
• 今後の⾒通し
– ロバストな強化学習アルゴリズムの開発
• 確率的な要素への対応
– 最新アルゴリズムの検証と改良
• AlphaZero、A3C、PGQ/PCL、Rainbow、APE-X、Curiosity、Inverse RL…
44

Webツールを活⽤したチューニング
• AIの戦いを可視化するWebツールを作成しチューニングを効率化
– AIがどのような戦術で戦っているのか確認できる
– 勝率だけでは⾒えてこないAIの強さ・考え⽅がわかる
45
⾏動の評価値
どこに置くか？
何ターン⽬にどのくらい
ダメージを与えたか？
各ターンに取った
⾏動の結果
※ 画⾯上のデータは全て開発環境のものです

Webツールを活⽤したチューニング
• 統計量を可視化してAIの⼈間らしさを検証
– ⼈間プレイヤーの取った⾏動とどれだけ似ているか？
– 駒を適切に運⽤できているか？
46
AIが置いたマスの
ヒートマップ
ダメージ分布を
AIと⼈間で⽐較
※ 画⾯上のデータは全て開発環境のものです
⼈間が置いたマスの
ヒートマップ

講演の流れ
47
2

プロジェクトで難しいポイント
1. 学習環境をゼロベースで作る必要がある
• 強化学習研究に使われるゲームは、扱いやすい学習環境が既に存在
2. シミュレータ速度がボトルネックになる
• 多くの試⾏をするために、応答をどれだけ⾼速化できるかが鍵
3. ドメイン固有の情報を扱うため特徴量エンジニアリングが複雑
• 経過ターン, 盤⾯のスキル情報, …
4. ゲームの構造に応じたアルゴリズムの開発が必要
• 最新研究を実装するだけでは上⼿くいかない
5. ユースケースの要件定義
• 成果をどのような形で実現させるかは⾃明ではない
48

AI活⽤を⾒越してやっておいたほうがいいこと
1. ⾼速なシミュレータ開発
• バトルロジックのみを切り離しやすいゲーム実装、最適化
2. AIの学習を念頭に置いたログ設計
• プレイヤー分析のためのログ以外にも、AI学習⽤のログ設計が必要
3. 最新技術に追従する体制作り
• アップデートが⾮常に早い最新技術をキャッチアップして、
課題の理論的理解やチューニング知⾒を溜めていく必要
4. 現場との密なコミュニケーション
• 課題を適切に定義、企画提案するためのサービス理解
• ⼀緒にゴールを考える、期待値を⾼頻度で同期する 49

研究開発観点のやりがい
1. ⾃前の「箱庭」で研究開発ができる
– 最新論⽂の試⾏錯誤を通じて理論や技術の知⾒が集約されている
– 既存研究が扱っているゲーム（Atari, 囲碁, Poker, …）とは
異なる課題で独⾃のアルゴリズムが検証できる
2. 強化学習におけるビジネスケースを⽰せる
– 強化学習はまだビジネスアプリケーションが⽐較的困難な領域
– ⽐較的取り組みやすいゲーム領域で0→1のケースを⽣み出すことで、
今後のビジネス活⽤が加速していく可能性がある
50

今後、AIによって⾒えてくる可能性
51
業界全体でAI技術の実用化を加速させるためにも
会社の枠を超えて知見発信・交流を行いたい
• 強化学習エージェントを使ったバランス調整サポート
• 新しいAIを使ったコンテンツ創出
• 指導碁のような戦略学習サポート
• …

ご清聴ありがとうございました

DeNA TechCon2018 ゲーム体験を支えるための強化学習

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to DeNA TechCon2018 ゲーム体験を支えるための強化学習

Similar to DeNA TechCon2018 ゲーム体験を支えるための強化学習 (19)

More from Jun Okumura

More from Jun Okumura (10)

DeNA TechCon2018 ゲーム体験を支えるための強化学習