SlideShare a Scribd company logo
1 of 70
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習を利用した
自律型GameAIの取り組み
高速自動プレイによるステージ設計支援
February 10, 2017
Ryosuke Mashiko, Eiji Sekiya
AI System Dept.
DeNA Co., Ltd.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
概要
 前半
⁃ 強化学習について
⁃ 強化学習の最先端
 後半
⁃ FINAL FANTASY Record Keeperでの取り組み
2
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
自己紹介
 関谷 英爾
 AIシステム部
⁃ AI関連の開発および分析基盤開発運用するチーム
 略歴
⁃ 新卒3年目
• VerticaやHadoop等の分析基盤運用
• 機械学習のサービス応用
3
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
AIシステム部
 Data Engineering
⁃ 社内のアナリストの分析サポートおよびそのためのツール開発
 分散基盤
⁃ Hadoopなどのログ収集基盤開発・運用
 AI/データサービス
⁃ 機械学習などを用いたサービス応用
4
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
AI/データサービス
 最新動向を把握
⁃ 国際学会への参加
⁃ 論文のキャッチアップ
⁃ 社内勉強会の実施
 注力
⁃ Computer Vision
⁃ 自然言語処理
⁃ 強化学習
5
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
概要
 前半
⁃ 強化学習について
⁃ 強化学習の最先端
 後半
⁃ FINAL FANTASY Record Keeperでの取り組み
6
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習の活用例
7
 ロボットのピッキング作業
⁃ 上手くものを拾えるように手の動かし方を学習
 自動運転
⁃ 事故を起こさないような運転方法を学習
 囲碁AI
⁃ 勝てるような手を学習
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習
 環境情報(入力)から取るべき行動(出力)を学ぶ
 行動を繰り返し行うことで良い(報酬が高くなる)行動を学んで
いく
8
状態の観測
報酬
行動
エージェント環境
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
9
DQN
(Deep Q-Networks)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Deep Learning × 強化学習 (DQN)
 強化学習に画像認識で培ったDeepLearningの技術を用いた
⁃ 画像情報を与えて試行錯誤をすれば取るべき行動を学べる
ようになった
⁃ 状態の特徴を人の手で作り込む必要がなくなった
10
状態(画像)の観測
報酬
行動
エージェント
(Deep Learning)
環境
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Deep Learning × 強化学習(DQN)
 2014年にDeepMindのV.Mnihらが出した論文
⁃ Playing Atari with Deep Reinforcement Learning
⁃ Atari 2600のゲームをクリアしたという論文
 Atari 2600って?
⁃ 米国atari社が出した家庭用ゲーム機
• Pong, Space Invaders, Enduro, etc.
• DQNでDeepMindがSpace Invadersを学習させた動画
⁃ https://www.youtube.com/watch?v=W2CAghUiofY
11
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
AlphaGO
 DeepMind社によって開発された囲碁プログラム
 2015年10月に初めてプロ棋士を破ったことで有名
 年末年始には囲碁がインターネット対戦できる「野狐囲碁」と
「東洋囲碁」で匿名で参加し全勝
 理論の特徴
⁃ DeepLearningを用いた
⁃ 教師あり学習でプロ棋士の手を学習
⁃ コンピュータ同士による対戦で強化学習
⁃ モンテカルロ木探索による最善手の探索
12
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
概要
 前半
⁃ 強化学習について
⁃ 強化学習の最先端
 後半
⁃ FINAL FANTASY Record Keeperでの取り組み
13
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
14
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
15
機械学習のトップカンファレンスの1つ
NIPSの参加者数
指数関数的に増加
(引用: https://media.nips.cc/Conferences/2016/NIPS-2016-Conference-Book.pdf)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
16
その中でも「強化学習」は
最も注目されている領域の1つ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS 2016
 Deep Learning関連の研究が多い
 今年の注目領域
⁃ GAN
⁃ 強化学習
 Best Paper
⁃ A. Tamarらの「Value Iteration Networks」
⁃ 強化学習に関する研究が選ばれた
 強化学習に関する大きな二つの発表
⁃ DeepMind Lab
⁃ OpenAI Universe
⁃ 共通点
• シミュレーション環境の構築の難しさや共通の問題を世界で取り組み競える
ようにシミュレーション環境を提供
17
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeepMind Lab
 AlphaGoで有名なDeepMindが公開したフレームワーク
⁃ https://www.youtube.com/watch?v=M40rN7afngY
 FirstPersonViewの問題が対象
⁃ 3D空間を観察(入力)
⁃ 3D空間内での行動(出力)
 2Dではなく、3D空間を観察し行動
⁃ ロボティクスの分野での応用も考えられる
18
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
OpenAI Universe
 AI技術のOpen化に取り組んでいるOpenAIが公開したフレームワーク
 ブラウザタスクを一般化して取り扱えるように
⁃ ブラウザを観察(入力)
⁃ キーボード操作(出力)
 様々なブラウザタスクが学習できる対象
⁃ Gameのプレイだけでなく、スクロールや文字入力も
19
引用: https://openai.com/assets/blog/universe/interface-
725abed463ba2b83d4a68fd08d1818fed900a939cb9c4b9eb1bac07952b4fe61.png
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習を用いてDeNAでどのようなことが可能か?
 様々なサービスのテストの自動化
⁃ QA工数の削減
 リッチなNPC(Non Player Character)戦
⁃ 電脳戦
⁃ マルチプレイ通信断後のプレイ引き継ぎ
 ステージ設計支援
⁃ プランナーの工数削減
20
FINAL FANTASY Record Keeperにおける
高速自動プレイによるステージ設計支援
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
21
FINAL FANTASY Record Keeper
における自律型AI活用事例
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
自己紹介
 益子 遼介
 2012年 新卒入社 エンジニア
 2012 ~ 2015/5
 主に、ゲーム事業本部においてMobageタイトルのエンジニア
 2015/5 ~
 AIシステム部
 分散処理アプリケーション開発、基盤運用:
 Elasticsearch, Cassandra, Storm
 AI開発:
 本プロジェクトのシステム全体設計、アルゴリズム実装
 etc..
22
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
アジェンダ
 FFRKのバトルとは
 ゲームの流れ
 画面構成
 AI設計
 どのようなAIがあればよいか?
 AIの学習アルゴリズム
 探索的アプローチ
 ニューラルネットによるアプローチ
23
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FINAL FANTASY Record Keeper (FFRK)
 株式会社スクウェア・エニックスとの共同開発
 2014-09-25 リリース
 リリース後1年半で1000万ダウンロード
 FINAL FANTASYの歴代タイトルにおけるバトルをアプリ上で追体験
24
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
25
FFRKのバトルとは
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
26
イベントはダンジョンとし
て実装される
進むにつれ
難易度は上がっていく
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
27
ダンジョンに登場する
ボスの情報
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
28
パーティを編成して
ダンジョンに挑む
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
29
ダンジョンに入ったら
いよいよバトル
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FFRKボスバトル仕様
30
キャラクターごとに
• HP
• 各種能力値
• 状態異常
• etc…
ボスキャラクターごとに
• HP
• 状態異常
• etc…
キャラクターごとに
• 攻撃
• 防御
• アビリティ
• 必殺技
• フレンド召喚©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
ボスAIの内部実装
31
初期状態
通常状態
津波集め状態
防御状態
 ステートベースAIとして実装
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
ボスAIの設計時の課題
32
初期状態
通常状態
津波集め状態
防御状態
雷属性攻撃をN発受け
ると遷移
or
津波攻撃の後、遷移
残りHPがN以下の場合、
X%の確率で遷移
 ステートはボスごとに異なるため、調整ポイントも毎度設計が必要
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
ボスごとにチューニングポイントが複数ある
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
ボスAIの設計時の課題
さらに
 ゲームバランスを破壊するようなパーティ組み合わせの検出
 数百回バトルを繰り返し、統計量の算出
にも応用できそう
33
人手でやるのは大変
AIによる高速自動プレイ
ボスパラメータ調整
実機でのプレイ感評価
端末適用再設計
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
34
AI設計
AIをどのように作るか?
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FFRKにおけるAI要件
 FFRKのバトルには、ランダムな要素が多く含まれる。
⁃ 初期行動順
⁃ 行動結果の振れ幅(行動の成否、ダメージの振れ幅)
⁃ ボス行動
 事前に行動を予測しておくことはできず、
⁃ 進行状況に応じて
⁃ 将来的に最も有利となる行動をとるAIが必要
⁃ 将来的に人間らしさも考慮
35
入力
• 操作キャラのステータス
• ボスのステータス
• 現在取りうる行動
• Etc..
出力
• 誰が
• 誰に
• 何をする行動決定関数
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
学習環境構成
FFRK シミュレータ
Node.js製
学習エンジン
Python製
Unix Domain Socket
ボス、キャラ、
アビリティな
ど、バトル情
報をまとめた
JSON
初期化API
行動API
結果
結果
行動の結果を評価
し、次の行動を決
定
 学習エンジン: Python
 シミュレーター:Node.js
⁃ Python側から任意のバトルをシミュレートできる
 ソケット通信でやりとりしている。
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
シミュレーター実装
 行動選択API
⁃ バトル中のプレイヤー行動をシミュレーター内で実行するAPI
⁃ ユーザーのボタンタップに相当
 フレーム進行API
⁃ ゲーム内時間を任意のフレーム(ゲーム内時間)すすめるAPI
⁃ 学習エンジン側で、ゲームの進捗を管理
 Fork API
⁃ 現在のシミュレーターをプロセスまるごとコピーするAPI
⁃ 並列化、探索アルゴリズムに利用
37
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
38
行動決定のためのアルゴリズム
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
アルゴリズム
 探索的アプローチ
 Monte Carlo Tree Search
 ニューラルネットを用いたアプローチ
 NEAT
 AI学習結果の解説
 Q-learning
39
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
アルゴリズム
 探索的アプローチ
 Monte Carlo Tree Search
 ニューラルネットを用いたアプローチ
 NEAT
 AI学習結果の解説
 Q-learning
40
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
探索的アプローチ
 現在取りうる行動をそれぞれ試行して算出した行動価値を元に、次の最
適行動を決定する手法
 一般的に、全ての行動パターンを十分探索すれば最適解が得られるが、
現実的には効率的に探索範囲を削減する必要がある。
41
ターン1(初期状態)
ターン2
どのアクションを選択し
たらよいか、実際に行動
してみて評価する
ターン3
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Monte Carlo 法
 今回、より効率的に試行を割り振るMonte Carlo Tree Search(
MCTS)を実装して評価
42
①初期行動を選択後
②選択行動後は、ランダムに行動を
選択して終了まで行動する(プレイ
アウト)
③終了時の状態を選択行動の評価値
とする
① 〜 ③を可能限り多く試行する
探索ターン
バトル終了
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
MCTSの評価
 Pros
⁃ 実装がシンプル
⁃ 評価関数も定義しやすい
• 最終的な勝敗(1[勝ち] or 0[負け])をスコアとする場合が多い
• 実際には 0〜1の間で連続したスコアとなるように調整している。
⁃ (ニューラルネットによるアプローチと比べ)事前の学習が不要
 Cons
⁃ ターン毎に毎回探索する必要があり、現状の環境では実利用可能な
レベルでの応答性は達成できなかった。
• 1ターン行動推薦の度に1分半程度かかる
⁃ プレイアウトの影響で、長期戦や勝ち筋の少ないバトルで苦戦
43
イフリート戦勝率 0%
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
アルゴリズム
 探索的アプローチ
 モンテカルロ木探索
 ニューラルネットを用いたアプローチ
 NEAT
 Q-learning
44
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
ニューラルネットによるアプローチ
 人間のプレイ中の思考過程をニューラルネットで表現できないか
 つまり、行動決定関数をニューラルネットで表現する
45
入力 出力
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
46
ニューラルネットの学習アルゴリズム
NEAT & Q-learning
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NEAT
 ニューラルネットを遺伝的アルゴリズムで学習させる手法の1つ
 ネットワーク構造を1つの個体とする
 第1世代として多数のニューラルネット(個体)をランダムに生成、そ
れぞれバトルを試行させ、結果のよかったものを第2世代に引き継ぐ。
47
第1世代
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
戦績評価
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NEAT
 第2世代に引き継がれたもののうち、
 よかったもの同士を混ぜ合わせる(交叉)
 完全にランダムな個体を紛れ込ませる(突然変異)
などの操作をして、ネットワークを改善していく
48
第1世代 第2世代
突然変異
交叉
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
 結果として、世代が進むごとに、自律的にネットワーク構造を学習。
NEAT
49
第N世代
第1世代 第2世代
突然変異
交叉
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
 「遺伝」を模したアルゴリズム
 遺伝子の交叉、突然変異、環境適応による淘汰
 適応度の低い個体を淘汰し、優れた個体を次の世代へ
 交叉・突然変異などを繰り返して最適解に近づけていく
第N世代
ニューラルネットワーク x 遺伝的アルゴリズム
50
第1世代 第2世代
突然変異
交叉
初期ネットワーク
出力層
入力層
入力可能な行動フラグと対応
する出力を結ぶだけの構造を
初期値に設定
1000世代 ~
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
 「遺伝」を模したアルゴリズム
 遺伝子の交叉、突然変異、環境適応による淘汰
 適応度の低い個体を淘汰し、優れた個体を次の世代へ
 交叉・突然変異などを繰り返して最適解に近づけていく
第N世代
ニューラルネットワーク x 遺伝的アルゴリズム
51
第1世代 第2世代
突然変異
交叉
世代
学習スコア
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
52
果てしないチューニングの道のり
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
初期の学習型AIの問題
 回復スキルを使用しなかったり、タイミングがデタラメ。
 補助スキルを無駄に連打してしまう。
 学習が遅い
53
• キャラクターのHPの入力を 0 ~ 1ではなく、 -0.5 ~ 0.5に
• ステータス値のバトル開始時からの変動率を入力に追加
• 過去のスキル発動履歴を入力に追加
• 並列学習の実装
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
54
AIによる推薦行動ログの解説
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
AIによる学習行動ログ解説
 序盤〜中盤の動き
 味方のステータスを引き上げる
 敵のステータスを引き下げる
 敵の弱点を突く氷属性で攻撃
 ダメージを受けたら早めに回復
55
行動
聖なる守護神 (味方全員にヘイスト・リジェネ・魔防
UP)
シェルガ (味方全員にシェル)
敵通常攻撃
ブリザジャ (氷属性の魔法攻撃)
ケアルガ
敵通常攻撃
フルブレイク (敵のステータスを下げる)
ケアルガ
ブリザガ剣 (氷属性の物理攻撃)
ハイマジックブレイク (敵の魔力を下げる)
…
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
行動ログ解説
 終盤の動き
 敵の強力な全体攻撃が増える
 全体回復必殺技で対応
 味方を強化する必殺技
 敵のステータスを下げる必殺技
 強力な氷魔法必殺技で畳み掛ける
56
行動
…
ほのお (HPの1/4のダメージを与える全体攻撃)
キャニスターショット (防御力・魔防DOWN必殺技)
敵通常攻撃
夢のステージ (味方全体を回復必殺技)
魔女の覚醒 (強力な氷魔法必殺技)
火炎(HPの1/2のダメージ与える攻撃)
G.Fケルベロス (魔法攻撃の詠唱時間を短縮)
メテオ (大ダメージを与える全体攻撃)
真の魔法・氷滅 (4連氷属性魔法)
…
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NEATの評価
 Pros
 中間層の構造は全て学習過程で生成されるため、構造を事前に定義
しなくともよい
 ただし、中間ノードの生成確率など、それなりにチューニングは必要
 1世代の個体評価は並列に行うことができるので、並列化により学
習時間の短縮が可能
 Cons
 ランダムな遺伝子生成に依存しているため、学習がいつ収束するの
か未知数(収束しない場合もある)
 基本的にネットワークを拡大させる方向に学習が進むので、無駄に
構造が大きくなる可能性がある
57
イフリート戦勝率 40%前後
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習(Q-Learning)
 「バトル」の中で「AI」が状況を観察し、行動、その結果フィードバッ
クを通じて取るべき行動を選択する最適な方法を見出す
 ニューラルネットの構造は、NEATで学習したものを参考に設定
58
行動決定関数
状態の観測
報酬
行動
環境
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習(Q-Learning)
 状態sにおいて、行動aを選択
59
環境 エージェント
行動決定関数
状態s
(味方HP、ボスHPなど)
行動a
(攻撃、防御、必殺技など)
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習(Q-Learning)
 状態sにおいて、行動aを選択
 その結果得られる報酬をr、行動の結果として環境は状態s’に遷移
60
環境 エージェント
状態s
(味方HP、ボスHPなど)
行動a
(攻撃、防御、必殺技など)
報酬r
(与被ダメージの和など)
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
行動決定関数
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習(Q-Learning)
 状態sにおいて、行動aを選択
 その結果得られる報酬をr、行動の結果として環境は状態s’に遷移
 そして状態s’について行動選択があり… と、状態 -> 行動 -> 報酬 は連
鎖
61
環境 エージェント
状態s
(味方HP、ボスHPなど)
行動a
(攻撃、防御、必殺技など)
報酬r
(与被ダメージの和など)
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
行動決定関数
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習(Q-Learning)
 最適行動は、将来的な報酬が大きくなるように行動を選択する必要があ
る
 将来的な報酬とは….
 状態sにおける行動a、その後の状態変化後の展開も含めた収益の総
和
 これを予測できるようにネットワークを更新していく
62
環境 エージェント
状態s
(味方HP、ボスHPなど)
行動a
(攻撃、防御、必殺技など)
報酬r
(与被ダメージの和など)
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
行動決定関数
重み更新
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FFRKの問題の特徴と強化学習の取り組み
 行動選択の際にすぐに報酬が得られない(遅延報酬)
 どの行動がよかったのか適切に判定できない
 多くの研究で同じ課題への解決方法が提案されている[1]
 細かい時間間隔でターン制でない
 連続時間や連続行動空間を扱うことを得意とする別の強化学習の枠
組みが必要[2,3]
63
1. NIPS 2016でもAtari 2600のMontezma’s Revengeというゲームを題材に研究報告がされている
2. 価値関数の限界 - Q-Learning, Sarsa
3. Actor-Criticのようなアルゴリズムを採用 .. 行動した価値だけを学ぶのではなく、取るべき行動を学習する
手法
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Q-Learningの評価
 Pros
 学習の進み収束具合が定量的に判断しやすい
 LOSS値や累積報酬和の変化
 Cons
 探索とのバランスが難しい
 NEATなどの遺伝的アルゴリズムと違い地道な改善は見られるが学習中に大
きなブレークスルーが起きづらい
 対策となり得る論文紹介
 Prioritized Experience Replay(不均一な探索に対する学習改善)
 Unifying Count-Based Exploration and Intrinsic Motivation(不均一な探索の解
消)
64
イフリート戦勝率 40%前後
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
65
シミュレーションの
デモムービーを展示しています!
@展示スペース
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
AIの現状と残課題
 現状
 ボス1体のバトルにおいて、人間と遜色ないレベルでの勝率
 100戦勝率
 行動解析
 課題
 学習時間
 目標1時間のところ、難易度の高いボスでは10時間ほどかかっている。
 状態異常の評価が上手くできていない
 たとえば回復スキルは一般に評価の高い行動となるが、回復してあげたいキ
ャラがリフレク状態(魔法を跳ね返す)の場合は、ボスを回復してしまうの
でNG
 複数ボスへの対応
 ボスの数だけNNが倍増し、学習時間も倍増
66
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
まとめ
 AIによるゲームの自動プレイは実際に可能、というところまできている
 対応できていない高度なバトル・戦術については引き続き改善予定
 学習したAIを実際に業務に活用していくフェーズ
67
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
実サービス向け学習環境構成
68
Learning API Server
学習用インスタン
ス
Jenkins
ジョブ ジョブ ジョブ
学習用インスタン
ス
学習用インスタン
スAMI
FFRK Development Tool
Memcached
学習済みモデルを
S3
バトルID、バトル情報
行動レコメンデーション
学習フェーズ AI利用フェーズ
S3
Recommendation API Server
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
最後に、これからゲームへのAI活用をすすめる上で
 途中からAIを利用しようとするとそれなりに工数がかかる
 特に、AIの学習には膨大な試行回数が必要になるケースが多いので
、ゲームを高速で試行できるようなシミュレータの実装は必須
 ゲームの設計段階でどこまでAIを利用するかきちんと定義し、それに合
わせてシミュレーターやデータ形式を用意しておくのが吉。
69
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
70
ご静聴ありがとうございました

More Related Content

What's hot

深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
ゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてJun Okumura
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜佑 甲野
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景Deep Learning JP
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話mooopan
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic DatasetsDeep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用Hiroyuki Masuda
 
機械学習の未解決課題
機械学習の未解決課題機械学習の未解決課題
機械学習の未解決課題Hiroyuki Masuda
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 

What's hot (20)

深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
ゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用について
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Contrastive learning 20200607
Contrastive learning 20200607Contrastive learning 20200607
Contrastive learning 20200607
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
TabNetの論文紹介
TabNetの論文紹介TabNetの論文紹介
TabNetの論文紹介
 
機械学習の未解決課題
機械学習の未解決課題機械学習の未解決課題
機械学習の未解決課題
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 

Viewers also liked

2017 Fighting Game AI Competition
2017 Fighting Game AI Competition2017 Fighting Game AI Competition
2017 Fighting Game AI Competitionftgaic
 
2016 Fighting Game Artificial Intelligence Competition
2016 Fighting Game Artificial Intelligence Competition2016 Fighting Game Artificial Intelligence Competition
2016 Fighting Game Artificial Intelligence Competitionftgaic
 
DeNAのAIとは #denatechcon
DeNAのAIとは #denatechconDeNAのAIとは #denatechcon
DeNAのAIとは #denatechconDeNA
 
2015 Fighting Game Artificial Intelligence Competition
2015 Fighting Game Artificial Intelligence Competition2015 Fighting Game Artificial Intelligence Competition
2015 Fighting Game Artificial Intelligence Competitionftgaic
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用Kazuki Fujikawa
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?Seiichi Uchida
 
Pythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI GymトレーニングPythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI GymトレーニングTakahiro Kubo
 
強化学習その1
強化学習その1強化学習その1
強化学習その1nishio
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明Seiichi Uchida
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 

Viewers also liked (12)

2017 Fighting Game AI Competition
2017 Fighting Game AI Competition2017 Fighting Game AI Competition
2017 Fighting Game AI Competition
 
2016 Fighting Game Artificial Intelligence Competition
2016 Fighting Game Artificial Intelligence Competition2016 Fighting Game Artificial Intelligence Competition
2016 Fighting Game Artificial Intelligence Competition
 
DeNAのAIとは #denatechcon
DeNAのAIとは #denatechconDeNAのAIとは #denatechcon
DeNAのAIとは #denatechcon
 
2015 Fighting Game Artificial Intelligence Competition
2015 Fighting Game Artificial Intelligence Competition2015 Fighting Game Artificial Intelligence Competition
2015 Fighting Game Artificial Intelligence Competition
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?
 
Pythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI GymトレーニングPythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI Gymトレーニング
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 

Similar to 強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon

[JISA][変革リーダー養成部会]組織の中で自分を活かす生き方
[JISA][変革リーダー養成部会]組織の中で自分を活かす生き方[JISA][変革リーダー養成部会]組織の中で自分を活かす生き方
[JISA][変革リーダー養成部会]組織の中で自分を活かす生き方Shigeki Morizane
 
営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニングSatoru Yamamoto
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNA
 
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)Toshiharu Sugiyama
 
Unity開発で週イチ呑み会を支える技術
Unity開発で週イチ呑み会を支える技術Unity開発で週イチ呑み会を支える技術
Unity開発で週イチ呑み会を支える技術kazuya noshiro
 
FINAL FANTASY Record Keeperのマスターデータを支える技術
FINAL FANTASY Record Keeperのマスターデータを支える技術FINAL FANTASY Record Keeperのマスターデータを支える技術
FINAL FANTASY Record Keeperのマスターデータを支える技術dena_study
 
Unityネイティブプラグインマニアクス #denatechcon
Unityネイティブプラグインマニアクス #denatechconUnityネイティブプラグインマニアクス #denatechcon
Unityネイティブプラグインマニアクス #denatechconDeNA
 
DeNAインフラの今とこれから - 今編 -
DeNAインフラの今とこれから - 今編 -DeNAインフラの今とこれから - 今編 -
DeNAインフラの今とこれから - 今編 -Tomoya Kabe
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話Kamonohashi
 
20120416 3年後のeラーニング予想大会 中嶋さん
20120416 3年後のeラーニング予想大会 中嶋さん20120416 3年後のeラーニング予想大会 中嶋さん
20120416 3年後のeラーニング予想大会 中嶋さんVisso株式会社
 
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote MobbingRegional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote MobbingKeiji Kikuchi
 
「らしく」ハタラコウ。 ChatWork x クラウドソーシング
「らしく」ハタラコウ。 ChatWork x クラウドソーシング「らしく」ハタラコウ。 ChatWork x クラウドソーシング
「らしく」ハタラコウ。 ChatWork x クラウドソーシングHiroshi KURABAYASHI
 
[141004] cedec 2014 참관기 & 강연 리뷰 #1
[141004] cedec 2014 참관기 & 강연 리뷰 #1[141004] cedec 2014 참관기 & 강연 리뷰 #1
[141004] cedec 2014 참관기 & 강연 리뷰 #1MinGeun Park
 
FFRKを支えるWebアプリケーションフレームワークの技術
FFRKを支えるWebアプリケーションフレームワークの技術FFRKを支えるWebアプリケーションフレームワークの技術
FFRKを支えるWebアプリケーションフレームワークの技術dena_study
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHIKamonohashi
 
HoloLens参考書読書会 vol9
HoloLens参考書読書会 vol9HoloLens参考書読書会 vol9
HoloLens参考書読書会 vol9Shoji Oshima
 
虎の穴ラボ TechDay#3 フルリモート率100%!リモートワークを可能にするマネージメント
虎の穴ラボ TechDay#3 フルリモート率100%!リモートワークを可能にするマネージメント 虎の穴ラボ TechDay#3 フルリモート率100%!リモートワークを可能にするマネージメント
虎の穴ラボ TechDay#3 フルリモート率100%!リモートワークを可能にするマネージメント 虎の穴 開発室
 

Similar to 強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon (20)

[JISA][変革リーダー養成部会]組織の中で自分を活かす生き方
[JISA][変革リーダー養成部会]組織の中で自分を活かす生き方[JISA][変革リーダー養成部会]組織の中で自分を活かす生き方
[JISA][変革リーダー養成部会]組織の中で自分を活かす生き方
 
営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
 
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
 
Unity開発で週イチ呑み会を支える技術
Unity開発で週イチ呑み会を支える技術Unity開発で週イチ呑み会を支える技術
Unity開発で週イチ呑み会を支える技術
 
FINAL FANTASY Record Keeperのマスターデータを支える技術
FINAL FANTASY Record Keeperのマスターデータを支える技術FINAL FANTASY Record Keeperのマスターデータを支える技術
FINAL FANTASY Record Keeperのマスターデータを支える技術
 
Unityネイティブプラグインマニアクス #denatechcon
Unityネイティブプラグインマニアクス #denatechconUnityネイティブプラグインマニアクス #denatechcon
Unityネイティブプラグインマニアクス #denatechcon
 
アンラーニング
アンラーニングアンラーニング
アンラーニング
 
DeNAインフラの今とこれから - 今編 -
DeNAインフラの今とこれから - 今編 -DeNAインフラの今とこれから - 今編 -
DeNAインフラの今とこれから - 今編 -
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
 
Soft neuro
Soft neuroSoft neuro
Soft neuro
 
Yapc::Asia_2012
Yapc::Asia_2012Yapc::Asia_2012
Yapc::Asia_2012
 
20120416 3年後のeラーニング予想大会 中嶋さん
20120416 3年後のeラーニング予想大会 中嶋さん20120416 3年後のeラーニング予想大会 中嶋さん
20120416 3年後のeラーニング予想大会 中嶋さん
 
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote MobbingRegional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
 
「らしく」ハタラコウ。 ChatWork x クラウドソーシング
「らしく」ハタラコウ。 ChatWork x クラウドソーシング「らしく」ハタラコウ。 ChatWork x クラウドソーシング
「らしく」ハタラコウ。 ChatWork x クラウドソーシング
 
[141004] cedec 2014 참관기 & 강연 리뷰 #1
[141004] cedec 2014 참관기 & 강연 리뷰 #1[141004] cedec 2014 참관기 & 강연 리뷰 #1
[141004] cedec 2014 참관기 & 강연 리뷰 #1
 
FFRKを支えるWebアプリケーションフレームワークの技術
FFRKを支えるWebアプリケーションフレームワークの技術FFRKを支えるWebアプリケーションフレームワークの技術
FFRKを支えるWebアプリケーションフレームワークの技術
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
 
HoloLens参考書読書会 vol9
HoloLens参考書読書会 vol9HoloLens参考書読書会 vol9
HoloLens参考書読書会 vol9
 
虎の穴ラボ TechDay#3 フルリモート率100%!リモートワークを可能にするマネージメント
虎の穴ラボ TechDay#3 フルリモート率100%!リモートワークを可能にするマネージメント 虎の穴ラボ TechDay#3 フルリモート率100%!リモートワークを可能にするマネージメント
虎の穴ラボ TechDay#3 フルリモート率100%!リモートワークを可能にするマネージメント
 

More from DeNA

DRIVE CHARTの裏側 〜 AI ☓ IoT ☓ ビッグデータを 支えるアーキテクチャ 〜
DRIVE CHARTの裏側  〜 AI ☓ IoT ☓ ビッグデータを 支えるアーキテクチャ 〜DRIVE CHARTの裏側  〜 AI ☓ IoT ☓ ビッグデータを 支えるアーキテクチャ 〜
DRIVE CHARTの裏側 〜 AI ☓ IoT ☓ ビッグデータを 支えるアーキテクチャ 〜DeNA
 
IoTと業務システムをつなぐgRPC/RESTサービスの開発と運用
IoTと業務システムをつなぐgRPC/RESTサービスの開発と運用IoTと業務システムをつなぐgRPC/RESTサービスの開発と運用
IoTと業務システムをつなぐgRPC/RESTサービスの開発と運用DeNA
 
Can We Make Maps from Videos? ~From AI Algorithm to Engineering for Continuou...
Can We Make Maps from Videos? ~From AI Algorithm to Engineering for Continuou...Can We Make Maps from Videos? ~From AI Algorithm to Engineering for Continuou...
Can We Make Maps from Videos? ~From AI Algorithm to Engineering for Continuou...DeNA
 
SHOWROOMとDeNAで取り組んだライブ配信基盤刷新・超低遅延ライブ配信の裏側【DeNA TechCon 2020 ライブ配信】
SHOWROOMとDeNAで取り組んだライブ配信基盤刷新・超低遅延ライブ配信の裏側【DeNA TechCon 2020 ライブ配信】SHOWROOMとDeNAで取り組んだライブ配信基盤刷新・超低遅延ライブ配信の裏側【DeNA TechCon 2020 ライブ配信】
SHOWROOMとDeNAで取り組んだライブ配信基盤刷新・超低遅延ライブ配信の裏側【DeNA TechCon 2020 ライブ配信】DeNA
 
クラウド環境でのセキュリティ監査自動化【DeNA TechCon 2020 ライブ配信】
クラウド環境でのセキュリティ監査自動化【DeNA TechCon 2020 ライブ配信】クラウド環境でのセキュリティ監査自動化【DeNA TechCon 2020 ライブ配信】
クラウド環境でのセキュリティ監査自動化【DeNA TechCon 2020 ライブ配信】DeNA
 
DeClang 誕生!Clang ベースのハッキング対策コンパイラ【DeNA TechCon 2020 ライブ配信】
DeClang 誕生!Clang ベースのハッキング対策コンパイラ【DeNA TechCon 2020 ライブ配信】DeClang 誕生!Clang ベースのハッキング対策コンパイラ【DeNA TechCon 2020 ライブ配信】
DeClang 誕生!Clang ベースのハッキング対策コンパイラ【DeNA TechCon 2020 ライブ配信】DeNA
 
仕様起因の手戻りを減らして開発効率アップを目指すチャレンジ 【DeNA TechCon 2020 ライブ配信】
仕様起因の手戻りを減らして開発効率アップを目指すチャレンジ 【DeNA TechCon 2020 ライブ配信】仕様起因の手戻りを減らして開発効率アップを目指すチャレンジ 【DeNA TechCon 2020 ライブ配信】
仕様起因の手戻りを減らして開発効率アップを目指すチャレンジ 【DeNA TechCon 2020 ライブ配信】DeNA
 
DeNA データプラットフォームにおける 自由と統制のバランス【DeNA TechCon 2020 ライブ配信】
DeNA データプラットフォームにおける 自由と統制のバランス【DeNA TechCon 2020 ライブ配信】DeNA データプラットフォームにおける 自由と統制のバランス【DeNA TechCon 2020 ライブ配信】
DeNA データプラットフォームにおける 自由と統制のバランス【DeNA TechCon 2020 ライブ配信】DeNA
 
リアルタイムリモートデバッグ環境によるゲーム開発イテレーションの高速化【DeNA TechCon 2020 ライブ配信】
リアルタイムリモートデバッグ環境によるゲーム開発イテレーションの高速化【DeNA TechCon 2020 ライブ配信】リアルタイムリモートデバッグ環境によるゲーム開発イテレーションの高速化【DeNA TechCon 2020 ライブ配信】
リアルタイムリモートデバッグ環境によるゲーム開発イテレーションの高速化【DeNA TechCon 2020 ライブ配信】DeNA
 
MOV の機械学習システムを支える MLOps 実践【DeNA TechCon 2020 ライブ配信】
MOV の機械学習システムを支える MLOps 実践【DeNA TechCon 2020 ライブ配信】MOV の機械学習システムを支える MLOps 実践【DeNA TechCon 2020 ライブ配信】
MOV の機械学習システムを支える MLOps 実践【DeNA TechCon 2020 ライブ配信】DeNA
 
コンピュータビジョン技術の実応用〜DRIVE CHARTにおける脇見・車間距離不足検知〜【DeNA TechCon 2020 ライブ配信】
コンピュータビジョン技術の実応用〜DRIVE CHARTにおける脇見・車間距離不足検知〜【DeNA TechCon 2020 ライブ配信】コンピュータビジョン技術の実応用〜DRIVE CHARTにおける脇見・車間距離不足検知〜【DeNA TechCon 2020 ライブ配信】
コンピュータビジョン技術の実応用〜DRIVE CHARTにおける脇見・車間距離不足検知〜【DeNA TechCon 2020 ライブ配信】DeNA
 
DeNA の Slack 導入と活用の事例紹介
DeNA の Slack 導入と活用の事例紹介DeNA の Slack 導入と活用の事例紹介
DeNA の Slack 導入と活用の事例紹介DeNA
 
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]DeNA
 
オートモーティブ領域における 位置情報関連アルゴリズムあれこれ
オートモーティブ領域における 位置情報関連アルゴリズムあれこれオートモーティブ領域における 位置情報関連アルゴリズムあれこれ
オートモーティブ領域における 位置情報関連アルゴリズムあれこれDeNA
 
後部座席タブレットにおけるMaaS時代を見据えた半歩先のUX設計」 [MOBILITY:dev]
後部座席タブレットにおけるMaaS時代を見据えた半歩先のUX設計」 [MOBILITY:dev]後部座席タブレットにおけるMaaS時代を見据えた半歩先のUX設計」 [MOBILITY:dev]
後部座席タブレットにおけるMaaS時代を見据えた半歩先のUX設計」 [MOBILITY:dev]DeNA
 
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]DeNA
 
MOVで実践したサーバーAPI実装の超最適化について [MOBILITY:dev]
MOVで実践したサーバーAPI実装の超最適化について [MOBILITY:dev]MOVで実践したサーバーAPI実装の超最適化について [MOBILITY:dev]
MOVで実践したサーバーAPI実装の超最適化について [MOBILITY:dev]DeNA
 
MOV お客さま探索ナビの GCP ML開発フローについて
MOV お客さま探索ナビの GCP ML開発フローについてMOV お客さま探索ナビの GCP ML開発フローについて
MOV お客さま探索ナビの GCP ML開発フローについてDeNA
 
課題ドリブン、フルスタックAI開発術 [MOBILITY:dev]
課題ドリブン、フルスタックAI開発術 [MOBILITY:dev]課題ドリブン、フルスタックAI開発術 [MOBILITY:dev]
課題ドリブン、フルスタックAI開発術 [MOBILITY:dev]DeNA
 
DeNA の AWS アカウント管理とセキュリティ監査自動化
DeNA の AWS アカウント管理とセキュリティ監査自動化DeNA の AWS アカウント管理とセキュリティ監査自動化
DeNA の AWS アカウント管理とセキュリティ監査自動化DeNA
 

More from DeNA (20)

DRIVE CHARTの裏側 〜 AI ☓ IoT ☓ ビッグデータを 支えるアーキテクチャ 〜
DRIVE CHARTの裏側  〜 AI ☓ IoT ☓ ビッグデータを 支えるアーキテクチャ 〜DRIVE CHARTの裏側  〜 AI ☓ IoT ☓ ビッグデータを 支えるアーキテクチャ 〜
DRIVE CHARTの裏側 〜 AI ☓ IoT ☓ ビッグデータを 支えるアーキテクチャ 〜
 
IoTと業務システムをつなぐgRPC/RESTサービスの開発と運用
IoTと業務システムをつなぐgRPC/RESTサービスの開発と運用IoTと業務システムをつなぐgRPC/RESTサービスの開発と運用
IoTと業務システムをつなぐgRPC/RESTサービスの開発と運用
 
Can We Make Maps from Videos? ~From AI Algorithm to Engineering for Continuou...
Can We Make Maps from Videos? ~From AI Algorithm to Engineering for Continuou...Can We Make Maps from Videos? ~From AI Algorithm to Engineering for Continuou...
Can We Make Maps from Videos? ~From AI Algorithm to Engineering for Continuou...
 
SHOWROOMとDeNAで取り組んだライブ配信基盤刷新・超低遅延ライブ配信の裏側【DeNA TechCon 2020 ライブ配信】
SHOWROOMとDeNAで取り組んだライブ配信基盤刷新・超低遅延ライブ配信の裏側【DeNA TechCon 2020 ライブ配信】SHOWROOMとDeNAで取り組んだライブ配信基盤刷新・超低遅延ライブ配信の裏側【DeNA TechCon 2020 ライブ配信】
SHOWROOMとDeNAで取り組んだライブ配信基盤刷新・超低遅延ライブ配信の裏側【DeNA TechCon 2020 ライブ配信】
 
クラウド環境でのセキュリティ監査自動化【DeNA TechCon 2020 ライブ配信】
クラウド環境でのセキュリティ監査自動化【DeNA TechCon 2020 ライブ配信】クラウド環境でのセキュリティ監査自動化【DeNA TechCon 2020 ライブ配信】
クラウド環境でのセキュリティ監査自動化【DeNA TechCon 2020 ライブ配信】
 
DeClang 誕生!Clang ベースのハッキング対策コンパイラ【DeNA TechCon 2020 ライブ配信】
DeClang 誕生!Clang ベースのハッキング対策コンパイラ【DeNA TechCon 2020 ライブ配信】DeClang 誕生!Clang ベースのハッキング対策コンパイラ【DeNA TechCon 2020 ライブ配信】
DeClang 誕生!Clang ベースのハッキング対策コンパイラ【DeNA TechCon 2020 ライブ配信】
 
仕様起因の手戻りを減らして開発効率アップを目指すチャレンジ 【DeNA TechCon 2020 ライブ配信】
仕様起因の手戻りを減らして開発効率アップを目指すチャレンジ 【DeNA TechCon 2020 ライブ配信】仕様起因の手戻りを減らして開発効率アップを目指すチャレンジ 【DeNA TechCon 2020 ライブ配信】
仕様起因の手戻りを減らして開発効率アップを目指すチャレンジ 【DeNA TechCon 2020 ライブ配信】
 
DeNA データプラットフォームにおける 自由と統制のバランス【DeNA TechCon 2020 ライブ配信】
DeNA データプラットフォームにおける 自由と統制のバランス【DeNA TechCon 2020 ライブ配信】DeNA データプラットフォームにおける 自由と統制のバランス【DeNA TechCon 2020 ライブ配信】
DeNA データプラットフォームにおける 自由と統制のバランス【DeNA TechCon 2020 ライブ配信】
 
リアルタイムリモートデバッグ環境によるゲーム開発イテレーションの高速化【DeNA TechCon 2020 ライブ配信】
リアルタイムリモートデバッグ環境によるゲーム開発イテレーションの高速化【DeNA TechCon 2020 ライブ配信】リアルタイムリモートデバッグ環境によるゲーム開発イテレーションの高速化【DeNA TechCon 2020 ライブ配信】
リアルタイムリモートデバッグ環境によるゲーム開発イテレーションの高速化【DeNA TechCon 2020 ライブ配信】
 
MOV の機械学習システムを支える MLOps 実践【DeNA TechCon 2020 ライブ配信】
MOV の機械学習システムを支える MLOps 実践【DeNA TechCon 2020 ライブ配信】MOV の機械学習システムを支える MLOps 実践【DeNA TechCon 2020 ライブ配信】
MOV の機械学習システムを支える MLOps 実践【DeNA TechCon 2020 ライブ配信】
 
コンピュータビジョン技術の実応用〜DRIVE CHARTにおける脇見・車間距離不足検知〜【DeNA TechCon 2020 ライブ配信】
コンピュータビジョン技術の実応用〜DRIVE CHARTにおける脇見・車間距離不足検知〜【DeNA TechCon 2020 ライブ配信】コンピュータビジョン技術の実応用〜DRIVE CHARTにおける脇見・車間距離不足検知〜【DeNA TechCon 2020 ライブ配信】
コンピュータビジョン技術の実応用〜DRIVE CHARTにおける脇見・車間距離不足検知〜【DeNA TechCon 2020 ライブ配信】
 
DeNA の Slack 導入と活用の事例紹介
DeNA の Slack 導入と活用の事例紹介DeNA の Slack 導入と活用の事例紹介
DeNA の Slack 導入と活用の事例紹介
 
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
 
オートモーティブ領域における 位置情報関連アルゴリズムあれこれ
オートモーティブ領域における 位置情報関連アルゴリズムあれこれオートモーティブ領域における 位置情報関連アルゴリズムあれこれ
オートモーティブ領域における 位置情報関連アルゴリズムあれこれ
 
後部座席タブレットにおけるMaaS時代を見据えた半歩先のUX設計」 [MOBILITY:dev]
後部座席タブレットにおけるMaaS時代を見据えた半歩先のUX設計」 [MOBILITY:dev]後部座席タブレットにおけるMaaS時代を見据えた半歩先のUX設計」 [MOBILITY:dev]
後部座席タブレットにおけるMaaS時代を見据えた半歩先のUX設計」 [MOBILITY:dev]
 
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
 
MOVで実践したサーバーAPI実装の超最適化について [MOBILITY:dev]
MOVで実践したサーバーAPI実装の超最適化について [MOBILITY:dev]MOVで実践したサーバーAPI実装の超最適化について [MOBILITY:dev]
MOVで実践したサーバーAPI実装の超最適化について [MOBILITY:dev]
 
MOV お客さま探索ナビの GCP ML開発フローについて
MOV お客さま探索ナビの GCP ML開発フローについてMOV お客さま探索ナビの GCP ML開発フローについて
MOV お客さま探索ナビの GCP ML開発フローについて
 
課題ドリブン、フルスタックAI開発術 [MOBILITY:dev]
課題ドリブン、フルスタックAI開発術 [MOBILITY:dev]課題ドリブン、フルスタックAI開発術 [MOBILITY:dev]
課題ドリブン、フルスタックAI開発術 [MOBILITY:dev]
 
DeNA の AWS アカウント管理とセキュリティ監査自動化
DeNA の AWS アカウント管理とセキュリティ監査自動化DeNA の AWS アカウント管理とセキュリティ監査自動化
DeNA の AWS アカウント管理とセキュリティ監査自動化
 

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 

Recently uploaded (9)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 

強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon

  • 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習を利用した 自律型GameAIの取り組み 高速自動プレイによるステージ設計支援 February 10, 2017 Ryosuke Mashiko, Eiji Sekiya AI System Dept. DeNA Co., Ltd.
  • 2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 概要  前半 ⁃ 強化学習について ⁃ 強化学習の最先端  後半 ⁃ FINAL FANTASY Record Keeperでの取り組み 2
  • 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 自己紹介  関谷 英爾  AIシステム部 ⁃ AI関連の開発および分析基盤開発運用するチーム  略歴 ⁃ 新卒3年目 • VerticaやHadoop等の分析基盤運用 • 機械学習のサービス応用 3
  • 4. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. AIシステム部  Data Engineering ⁃ 社内のアナリストの分析サポートおよびそのためのツール開発  分散基盤 ⁃ Hadoopなどのログ収集基盤開発・運用  AI/データサービス ⁃ 機械学習などを用いたサービス応用 4
  • 5. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. AI/データサービス  最新動向を把握 ⁃ 国際学会への参加 ⁃ 論文のキャッチアップ ⁃ 社内勉強会の実施  注力 ⁃ Computer Vision ⁃ 自然言語処理 ⁃ 強化学習 5
  • 6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 概要  前半 ⁃ 強化学習について ⁃ 強化学習の最先端  後半 ⁃ FINAL FANTASY Record Keeperでの取り組み 6
  • 7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習の活用例 7  ロボットのピッキング作業 ⁃ 上手くものを拾えるように手の動かし方を学習  自動運転 ⁃ 事故を起こさないような運転方法を学習  囲碁AI ⁃ 勝てるような手を学習
  • 8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習  環境情報(入力)から取るべき行動(出力)を学ぶ  行動を繰り返し行うことで良い(報酬が高くなる)行動を学んで いく 8 状態の観測 報酬 行動 エージェント環境
  • 9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 9 DQN (Deep Q-Networks)
  • 10. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Deep Learning × 強化学習 (DQN)  強化学習に画像認識で培ったDeepLearningの技術を用いた ⁃ 画像情報を与えて試行錯誤をすれば取るべき行動を学べる ようになった ⁃ 状態の特徴を人の手で作り込む必要がなくなった 10 状態(画像)の観測 報酬 行動 エージェント (Deep Learning) 環境
  • 11. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Deep Learning × 強化学習(DQN)  2014年にDeepMindのV.Mnihらが出した論文 ⁃ Playing Atari with Deep Reinforcement Learning ⁃ Atari 2600のゲームをクリアしたという論文  Atari 2600って? ⁃ 米国atari社が出した家庭用ゲーム機 • Pong, Space Invaders, Enduro, etc. • DQNでDeepMindがSpace Invadersを学習させた動画 ⁃ https://www.youtube.com/watch?v=W2CAghUiofY 11
  • 12. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. AlphaGO  DeepMind社によって開発された囲碁プログラム  2015年10月に初めてプロ棋士を破ったことで有名  年末年始には囲碁がインターネット対戦できる「野狐囲碁」と 「東洋囲碁」で匿名で参加し全勝  理論の特徴 ⁃ DeepLearningを用いた ⁃ 教師あり学習でプロ棋士の手を学習 ⁃ コンピュータ同士による対戦で強化学習 ⁃ モンテカルロ木探索による最善手の探索 12
  • 13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 概要  前半 ⁃ 強化学習について ⁃ 強化学習の最先端  後半 ⁃ FINAL FANTASY Record Keeperでの取り組み 13
  • 14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 14
  • 15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 15 機械学習のトップカンファレンスの1つ NIPSの参加者数 指数関数的に増加 (引用: https://media.nips.cc/Conferences/2016/NIPS-2016-Conference-Book.pdf)
  • 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 16 その中でも「強化学習」は 最も注目されている領域の1つ
  • 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS 2016  Deep Learning関連の研究が多い  今年の注目領域 ⁃ GAN ⁃ 強化学習  Best Paper ⁃ A. Tamarらの「Value Iteration Networks」 ⁃ 強化学習に関する研究が選ばれた  強化学習に関する大きな二つの発表 ⁃ DeepMind Lab ⁃ OpenAI Universe ⁃ 共通点 • シミュレーション環境の構築の難しさや共通の問題を世界で取り組み競える ようにシミュレーション環境を提供 17
  • 18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeepMind Lab  AlphaGoで有名なDeepMindが公開したフレームワーク ⁃ https://www.youtube.com/watch?v=M40rN7afngY  FirstPersonViewの問題が対象 ⁃ 3D空間を観察(入力) ⁃ 3D空間内での行動(出力)  2Dではなく、3D空間を観察し行動 ⁃ ロボティクスの分野での応用も考えられる 18
  • 19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. OpenAI Universe  AI技術のOpen化に取り組んでいるOpenAIが公開したフレームワーク  ブラウザタスクを一般化して取り扱えるように ⁃ ブラウザを観察(入力) ⁃ キーボード操作(出力)  様々なブラウザタスクが学習できる対象 ⁃ Gameのプレイだけでなく、スクロールや文字入力も 19 引用: https://openai.com/assets/blog/universe/interface- 725abed463ba2b83d4a68fd08d1818fed900a939cb9c4b9eb1bac07952b4fe61.png
  • 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習を用いてDeNAでどのようなことが可能か?  様々なサービスのテストの自動化 ⁃ QA工数の削減  リッチなNPC(Non Player Character)戦 ⁃ 電脳戦 ⁃ マルチプレイ通信断後のプレイ引き継ぎ  ステージ設計支援 ⁃ プランナーの工数削減 20 FINAL FANTASY Record Keeperにおける 高速自動プレイによるステージ設計支援
  • 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 21 FINAL FANTASY Record Keeper における自律型AI活用事例
  • 22. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 自己紹介  益子 遼介  2012年 新卒入社 エンジニア  2012 ~ 2015/5  主に、ゲーム事業本部においてMobageタイトルのエンジニア  2015/5 ~  AIシステム部  分散処理アプリケーション開発、基盤運用:  Elasticsearch, Cassandra, Storm  AI開発:  本プロジェクトのシステム全体設計、アルゴリズム実装  etc.. 22
  • 23. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. アジェンダ  FFRKのバトルとは  ゲームの流れ  画面構成  AI設計  どのようなAIがあればよいか?  AIの学習アルゴリズム  探索的アプローチ  ニューラルネットによるアプローチ 23
  • 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FINAL FANTASY Record Keeper (FFRK)  株式会社スクウェア・エニックスとの共同開発  2014-09-25 リリース  リリース後1年半で1000万ダウンロード  FINAL FANTASYの歴代タイトルにおけるバトルをアプリ上で追体験 24
  • 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 25 FFRKのバトルとは
  • 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 26 イベントはダンジョンとし て実装される 進むにつれ 難易度は上がっていく ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 27 ダンジョンに登場する ボスの情報 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 28 パーティを編成して ダンジョンに挑む ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 29 ダンジョンに入ったら いよいよバトル ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 30. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FFRKボスバトル仕様 30 キャラクターごとに • HP • 各種能力値 • 状態異常 • etc… ボスキャラクターごとに • HP • 状態異常 • etc… キャラクターごとに • 攻撃 • 防御 • アビリティ • 必殺技 • フレンド召喚©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 31. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ボスAIの内部実装 31 初期状態 通常状態 津波集め状態 防御状態  ステートベースAIとして実装 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 32. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ボスAIの設計時の課題 32 初期状態 通常状態 津波集め状態 防御状態 雷属性攻撃をN発受け ると遷移 or 津波攻撃の後、遷移 残りHPがN以下の場合、 X%の確率で遷移  ステートはボスごとに異なるため、調整ポイントも毎度設計が必要 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd, ボスごとにチューニングポイントが複数ある
  • 33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ボスAIの設計時の課題 さらに  ゲームバランスを破壊するようなパーティ組み合わせの検出  数百回バトルを繰り返し、統計量の算出 にも応用できそう 33 人手でやるのは大変 AIによる高速自動プレイ ボスパラメータ調整 実機でのプレイ感評価 端末適用再設計
  • 34. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 34 AI設計 AIをどのように作るか?
  • 35. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FFRKにおけるAI要件  FFRKのバトルには、ランダムな要素が多く含まれる。 ⁃ 初期行動順 ⁃ 行動結果の振れ幅(行動の成否、ダメージの振れ幅) ⁃ ボス行動  事前に行動を予測しておくことはできず、 ⁃ 進行状況に応じて ⁃ 将来的に最も有利となる行動をとるAIが必要 ⁃ 将来的に人間らしさも考慮 35 入力 • 操作キャラのステータス • ボスのステータス • 現在取りうる行動 • Etc.. 出力 • 誰が • 誰に • 何をする行動決定関数
  • 36. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 学習環境構成 FFRK シミュレータ Node.js製 学習エンジン Python製 Unix Domain Socket ボス、キャラ、 アビリティな ど、バトル情 報をまとめた JSON 初期化API 行動API 結果 結果 行動の結果を評価 し、次の行動を決 定  学習エンジン: Python  シミュレーター:Node.js ⁃ Python側から任意のバトルをシミュレートできる  ソケット通信でやりとりしている。
  • 37. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. シミュレーター実装  行動選択API ⁃ バトル中のプレイヤー行動をシミュレーター内で実行するAPI ⁃ ユーザーのボタンタップに相当  フレーム進行API ⁃ ゲーム内時間を任意のフレーム(ゲーム内時間)すすめるAPI ⁃ 学習エンジン側で、ゲームの進捗を管理  Fork API ⁃ 現在のシミュレーターをプロセスまるごとコピーするAPI ⁃ 並列化、探索アルゴリズムに利用 37
  • 38. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 38 行動決定のためのアルゴリズム
  • 39. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. アルゴリズム  探索的アプローチ  Monte Carlo Tree Search  ニューラルネットを用いたアプローチ  NEAT  AI学習結果の解説  Q-learning 39
  • 40. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. アルゴリズム  探索的アプローチ  Monte Carlo Tree Search  ニューラルネットを用いたアプローチ  NEAT  AI学習結果の解説  Q-learning 40
  • 41. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 探索的アプローチ  現在取りうる行動をそれぞれ試行して算出した行動価値を元に、次の最 適行動を決定する手法  一般的に、全ての行動パターンを十分探索すれば最適解が得られるが、 現実的には効率的に探索範囲を削減する必要がある。 41 ターン1(初期状態) ターン2 どのアクションを選択し たらよいか、実際に行動 してみて評価する ターン3
  • 42. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Monte Carlo 法  今回、より効率的に試行を割り振るMonte Carlo Tree Search( MCTS)を実装して評価 42 ①初期行動を選択後 ②選択行動後は、ランダムに行動を 選択して終了まで行動する(プレイ アウト) ③終了時の状態を選択行動の評価値 とする ① 〜 ③を可能限り多く試行する 探索ターン バトル終了
  • 43. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. MCTSの評価  Pros ⁃ 実装がシンプル ⁃ 評価関数も定義しやすい • 最終的な勝敗(1[勝ち] or 0[負け])をスコアとする場合が多い • 実際には 0〜1の間で連続したスコアとなるように調整している。 ⁃ (ニューラルネットによるアプローチと比べ)事前の学習が不要  Cons ⁃ ターン毎に毎回探索する必要があり、現状の環境では実利用可能な レベルでの応答性は達成できなかった。 • 1ターン行動推薦の度に1分半程度かかる ⁃ プレイアウトの影響で、長期戦や勝ち筋の少ないバトルで苦戦 43 イフリート戦勝率 0%
  • 44. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. アルゴリズム  探索的アプローチ  モンテカルロ木探索  ニューラルネットを用いたアプローチ  NEAT  Q-learning 44
  • 45. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ニューラルネットによるアプローチ  人間のプレイ中の思考過程をニューラルネットで表現できないか  つまり、行動決定関数をニューラルネットで表現する 45 入力 出力 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 46. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 46 ニューラルネットの学習アルゴリズム NEAT & Q-learning
  • 47. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NEAT  ニューラルネットを遺伝的アルゴリズムで学習させる手法の1つ  ネットワーク構造を1つの個体とする  第1世代として多数のニューラルネット(個体)をランダムに生成、そ れぞれバトルを試行させ、結果のよかったものを第2世代に引き継ぐ。 47 第1世代 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd, 戦績評価
  • 48. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NEAT  第2世代に引き継がれたもののうち、  よかったもの同士を混ぜ合わせる(交叉)  完全にランダムな個体を紛れ込ませる(突然変異) などの操作をして、ネットワークを改善していく 48 第1世代 第2世代 突然変異 交叉 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 49. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.  結果として、世代が進むごとに、自律的にネットワーク構造を学習。 NEAT 49 第N世代 第1世代 第2世代 突然変異 交叉 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 50. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.  「遺伝」を模したアルゴリズム  遺伝子の交叉、突然変異、環境適応による淘汰  適応度の低い個体を淘汰し、優れた個体を次の世代へ  交叉・突然変異などを繰り返して最適解に近づけていく 第N世代 ニューラルネットワーク x 遺伝的アルゴリズム 50 第1世代 第2世代 突然変異 交叉 初期ネットワーク 出力層 入力層 入力可能な行動フラグと対応 する出力を結ぶだけの構造を 初期値に設定 1000世代 ~
  • 51. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.  「遺伝」を模したアルゴリズム  遺伝子の交叉、突然変異、環境適応による淘汰  適応度の低い個体を淘汰し、優れた個体を次の世代へ  交叉・突然変異などを繰り返して最適解に近づけていく 第N世代 ニューラルネットワーク x 遺伝的アルゴリズム 51 第1世代 第2世代 突然変異 交叉 世代 学習スコア
  • 52. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 52 果てしないチューニングの道のり
  • 53. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 初期の学習型AIの問題  回復スキルを使用しなかったり、タイミングがデタラメ。  補助スキルを無駄に連打してしまう。  学習が遅い 53 • キャラクターのHPの入力を 0 ~ 1ではなく、 -0.5 ~ 0.5に • ステータス値のバトル開始時からの変動率を入力に追加 • 過去のスキル発動履歴を入力に追加 • 並列学習の実装
  • 54. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 54 AIによる推薦行動ログの解説
  • 55. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. AIによる学習行動ログ解説  序盤〜中盤の動き  味方のステータスを引き上げる  敵のステータスを引き下げる  敵の弱点を突く氷属性で攻撃  ダメージを受けたら早めに回復 55 行動 聖なる守護神 (味方全員にヘイスト・リジェネ・魔防 UP) シェルガ (味方全員にシェル) 敵通常攻撃 ブリザジャ (氷属性の魔法攻撃) ケアルガ 敵通常攻撃 フルブレイク (敵のステータスを下げる) ケアルガ ブリザガ剣 (氷属性の物理攻撃) ハイマジックブレイク (敵の魔力を下げる) … ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 56. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 行動ログ解説  終盤の動き  敵の強力な全体攻撃が増える  全体回復必殺技で対応  味方を強化する必殺技  敵のステータスを下げる必殺技  強力な氷魔法必殺技で畳み掛ける 56 行動 … ほのお (HPの1/4のダメージを与える全体攻撃) キャニスターショット (防御力・魔防DOWN必殺技) 敵通常攻撃 夢のステージ (味方全体を回復必殺技) 魔女の覚醒 (強力な氷魔法必殺技) 火炎(HPの1/2のダメージ与える攻撃) G.Fケルベロス (魔法攻撃の詠唱時間を短縮) メテオ (大ダメージを与える全体攻撃) 真の魔法・氷滅 (4連氷属性魔法) … ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 57. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NEATの評価  Pros  中間層の構造は全て学習過程で生成されるため、構造を事前に定義 しなくともよい  ただし、中間ノードの生成確率など、それなりにチューニングは必要  1世代の個体評価は並列に行うことができるので、並列化により学 習時間の短縮が可能  Cons  ランダムな遺伝子生成に依存しているため、学習がいつ収束するの か未知数(収束しない場合もある)  基本的にネットワークを拡大させる方向に学習が進むので、無駄に 構造が大きくなる可能性がある 57 イフリート戦勝率 40%前後
  • 58. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習(Q-Learning)  「バトル」の中で「AI」が状況を観察し、行動、その結果フィードバッ クを通じて取るべき行動を選択する最適な方法を見出す  ニューラルネットの構造は、NEATで学習したものを参考に設定 58 行動決定関数 状態の観測 報酬 行動 環境 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 59. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習(Q-Learning)  状態sにおいて、行動aを選択 59 環境 エージェント 行動決定関数 状態s (味方HP、ボスHPなど) 行動a (攻撃、防御、必殺技など) ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  • 60. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習(Q-Learning)  状態sにおいて、行動aを選択  その結果得られる報酬をr、行動の結果として環境は状態s’に遷移 60 環境 エージェント 状態s (味方HP、ボスHPなど) 行動a (攻撃、防御、必殺技など) 報酬r (与被ダメージの和など) ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd, 行動決定関数
  • 61. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習(Q-Learning)  状態sにおいて、行動aを選択  その結果得られる報酬をr、行動の結果として環境は状態s’に遷移  そして状態s’について行動選択があり… と、状態 -> 行動 -> 報酬 は連 鎖 61 環境 エージェント 状態s (味方HP、ボスHPなど) 行動a (攻撃、防御、必殺技など) 報酬r (与被ダメージの和など) ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd, 行動決定関数
  • 62. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習(Q-Learning)  最適行動は、将来的な報酬が大きくなるように行動を選択する必要があ る  将来的な報酬とは….  状態sにおける行動a、その後の状態変化後の展開も含めた収益の総 和  これを予測できるようにネットワークを更新していく 62 環境 エージェント 状態s (味方HP、ボスHPなど) 行動a (攻撃、防御、必殺技など) 報酬r (与被ダメージの和など) ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd, 行動決定関数 重み更新
  • 63. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FFRKの問題の特徴と強化学習の取り組み  行動選択の際にすぐに報酬が得られない(遅延報酬)  どの行動がよかったのか適切に判定できない  多くの研究で同じ課題への解決方法が提案されている[1]  細かい時間間隔でターン制でない  連続時間や連続行動空間を扱うことを得意とする別の強化学習の枠 組みが必要[2,3] 63 1. NIPS 2016でもAtari 2600のMontezma’s Revengeというゲームを題材に研究報告がされている 2. 価値関数の限界 - Q-Learning, Sarsa 3. Actor-Criticのようなアルゴリズムを採用 .. 行動した価値だけを学ぶのではなく、取るべき行動を学習する 手法
  • 64. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Q-Learningの評価  Pros  学習の進み収束具合が定量的に判断しやすい  LOSS値や累積報酬和の変化  Cons  探索とのバランスが難しい  NEATなどの遺伝的アルゴリズムと違い地道な改善は見られるが学習中に大 きなブレークスルーが起きづらい  対策となり得る論文紹介  Prioritized Experience Replay(不均一な探索に対する学習改善)  Unifying Count-Based Exploration and Intrinsic Motivation(不均一な探索の解 消) 64 イフリート戦勝率 40%前後
  • 65. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 65 シミュレーションの デモムービーを展示しています! @展示スペース
  • 66. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. AIの現状と残課題  現状  ボス1体のバトルにおいて、人間と遜色ないレベルでの勝率  100戦勝率  行動解析  課題  学習時間  目標1時間のところ、難易度の高いボスでは10時間ほどかかっている。  状態異常の評価が上手くできていない  たとえば回復スキルは一般に評価の高い行動となるが、回復してあげたいキ ャラがリフレク状態(魔法を跳ね返す)の場合は、ボスを回復してしまうの でNG  複数ボスへの対応  ボスの数だけNNが倍増し、学習時間も倍増 66
  • 67. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. まとめ  AIによるゲームの自動プレイは実際に可能、というところまできている  対応できていない高度なバトル・戦術については引き続き改善予定  学習したAIを実際に業務に活用していくフェーズ 67
  • 68. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 実サービス向け学習環境構成 68 Learning API Server 学習用インスタン ス Jenkins ジョブ ジョブ ジョブ 学習用インスタン ス 学習用インスタン スAMI FFRK Development Tool Memcached 学習済みモデルを S3 バトルID、バトル情報 行動レコメンデーション 学習フェーズ AI利用フェーズ S3 Recommendation API Server
  • 69. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 最後に、これからゲームへのAI活用をすすめる上で  途中からAIを利用しようとするとそれなりに工数がかかる  特に、AIの学習には膨大な試行回数が必要になるケースが多いので 、ゲームを高速で試行できるようなシミュレータの実装は必須  ゲームの設計段階でどこまでAIを利用するかきちんと定義し、それに合 わせてシミュレーターやデータ形式を用意しておくのが吉。 69
  • 70. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 70 ご静聴ありがとうございました

Editor's Notes

  1. それでは私達が行っている、 「強化学習を利用した自律型GameAIの取り組み 〜高速自動プレイによるステージ設計支援〜」 についてご紹介させていただきます。 よろしくお願い致します。
  2. このセッションでは、前半で強化学習について、後半で実際のプロジェクト内容のお話させていただきます。
  3. まず、自己紹介を簡単にさせてください。 現在、AIシステム部というAI関連および分析基盤の開発や運用するチームに所属しています。 新卒3年目で最初の2年はHadoopなどの分析基盤運用、最近は機械学習のサービス応用を行っております。
  4. 私の所属しているAIシステム部では、大きく分けると3チームあり、アナリストの分析をサポートするData Engineering, Hadoopなどのログ収集基盤の開発および運用をしている分散基盤チーム
  5. AI/データサービスチームでは、機械学習などの技術をサービス応用をしていくために その最新動向の把握も積極的に行っており、 国際学会への参加、論文のキャッチアップやその再現、社内勉強会 を実施しています。 注力している領域は、 Computer Vision 自然言語処理 強化学習 の3つがあり
  6. では、その強化学習がなにか?という部分からご紹介させてください。
  7. 強化学習がどんなところで使われているかというところからイメージをしていきたいと思います。 まず一つ目にあげているのがロボットのピッキング作業です。 ロボットは上手くものを拾えるように何度も掴もうと試行し、徐々に上手く掴めるように学習していきます。 自動運転では、何度もシミュレーションをしていく中で、事故をおこなさないような運転方法を学習していきます。 囲碁AIでは、何度もプレイし、勝てるプレイを学んでいきます。
  8. こういった事例のようにロボットなどの学習を行うエージェントが、 自分がいる環境に対して、なんらかの行動を試みて、 環境の変化を検知して、そこから行動が良かったのか悪かったのかという報酬を得て、 良かった行動とれるように学習していくというものが、強化学習となります。
  9. 急になのですが 「DQN」 というものをご存知でしょうか?
  10. DQNは画像認識などで培ったDeepLearningの技術を強化学習に応用した理論です。 DeepLearningを用いることで、例えば環境の変化を画像として把握し試行錯誤することで取るべき行動を学べるようになりました。 それまでがどうったかというと、学習に必要な環境の特徴を人手で作り込んでエージェントに伝える必要がありました。 Deep Learningを用いてより1次情報に近い部分をほぼそのまま用いて学習できるようになったのが大きな進展です。
  11. このDQNという研究は2014年でてきました。 この研究ではAtari 2600というゲーム機のいくつかのゲームをクリアできたという報告がされています。 Atari 2600とは、
  12. Atari 2600以外でも、強化学習とDeep Learningを使っている研究があります。 有名でご存じの方も多いと思いますが、囲碁のAIプログラムのAlphaGoもその1つです。 2015年10月に初めてプロの棋士を破ったことで注目を集めました。 また、2016年から2017年にかけてのこの年末年始にはインターネット対戦に匿名で参加し、全勝したことでもニュースとなりました。
  13. それでは強化学習の最先端について見ていきたいと思います。
  14. このグラフがなにの推移を表しているか分かるでしょうか?
  15. このグラフは機械学習のトップカンファレンスの1つNIPSの参加者数の推移で、指数関数的に増加していることがわかります。 世の中でAIがバズワードになっているだけでなく、研究も多くされており、研究者の中でもかなり注目を集めいています。
  16. それではNIPS 2016という学会についての紹介をします。 DeepLearningの研究が多く報告されており、今年の注目領域はGANという画像生成モデルと強化学習でした。 Best Paperをとったのは、Value Iteration Networksという論文で、強化学習に関する研究が選ばれました。 またこの学会では強化学習に関する大きな二つの発表がされました。 その1つがDeepMind Lab、もう一つがOpenAI Universeです。 これら二つには共通点があります。 強化学習を行うためにシミュレーション環境を構築する必要があるのですが、難しかったり、そもそも世界で共通した問題に取り組むということがこれまで行いづらいという実体がありました。 そういった課題に対して、世界で統一的なシミュレーション環境を共有していこうというモチベーションでできたものとなります。 ただし、これらの扱う問題の特徴に違いがあります。 それは1つずつ見ていきます。
  17. 学習を行うエージェントは3D空間を観測して、3D空間内での行動を学習していきます。 2Dではなく3D空間を観察し行動を学んでいくことで、この問題を利用した研究が進むことで、Gameの分野だけでなく、ロボティクスの分野でも応用されることが期待できます。
  18. もう一つのOpenAI Universeについても見ていきたいと思います。 AI技術のOpen化に取り組んでいる非営利組織のOpenAIが公開したフレームワークで、 これは図のようにブラウザタスクを一般化して取り扱えるようになったのが特徴です。 学習を行うエージェントはブラウザの画面を観察して、キーボードでどう操作を行うかを学習していくことになります。 Gameのプレイだけでなく、スクロールや文字入力なども問題の対象に含まれているのが大きな特徴です。
  19. シミュレーターはゲーム内のロジックを全て再現できるように実装されている。
  20. 入力層 ある時刻における、バトル内の各種パラメータを入力として扱う 400ノード前後 出力層 「どのキャラクターで x どのアクションを x 誰に」を一意に表すノードを全パターン分 150ノード前後 最も出力値の大きいノードを次のアクションとする
  21. アーバインに必殺技
  22. 最初は攻撃力UPする行動をしても相手のHPを削れないので良さは分からない 何度もバトルを繰り返していく中で、攻撃力をあげたことでその後の与ダメージが増えることを学習し、攻撃力UPする価値を高く見直す