SlideShare a Scribd company logo
1 of 20
Download to read offline
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
AI	System	Dept.
System	Management	Unit
Kazuki	Fujikawa
Intrinsic Motivation and Automatic
Curricula via Asymmetric Self-Play
ICLR2018読み会 - 個別論⽂報告
May 26, 2018
Jun Ernesto Okumura
DeNA Co., Ltd.
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
講演者の紹介
奥村 エルネスト 純 @pacocat
■ 略歴
⁃ 宇宙物理学の研究(Ph.D)
• ⾼エネルギー天体現象、観測的宇宙論
⁃ データアナリスト
• ゲーム領域:⾏動ログ分析、ゲームデザイン
• オートモーティブ領域:移動体分析
⁃ AI研究開発エンジニア
• 強化学習・深層学習を使ったゲームAI研究開発推進
⁃ 『ゲーム体験を⽀えるための強化学習』@DeNA TechCon 2018
https://www.slideshare.net/juneokumura/dena-techcon2018
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
強化学習とは?
ある環境下で、⽬的とする利益を最⼤化するための、
戦略(⾏動系列)を獲得する機械学習の⼀種
環境
例:ゲームの対戦シミュレータ
現在の状況を観測
勝率が⾼くなりそうな⾏動を選択
⾏動の結果と報酬を観測
…
• 未知の環境(新しい環境)に対しても学習が可能
• 試⾏錯誤を繰り返しながら、⾃律的に学習ができる
強化学習の問題系
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
複雑なゲームを解かせる時に困っていること
■ 既存の強化学習⼿法で解決できていない課題への対応
⁃ 探索すべき状態・⾏動空間が膨⼤
⁃ 不完全情報
• “Libratus”, “DeepStack”, 等のポーカーAIを参照中※1
⁃ 環境に対する汎化性
• キャラ追加やトレンドによりゲーム内環境が次々と変化する
• 相⼿の戦い⽅が変わると環境も変わる
⁃ 階層的な意思決定構造
• ゲームの局⾯において複数のサブ戦略がある
■ 現在関⼼を持っている領域
⁃ 階層型強化学習
⁃ 内的動機付け
⁃ 逆強化学習(GAIL※2、LogReg※3、etc…)
※1: 『ポーカーAIの最新動向』(奥村純)
https://www.slideshare.net/juneokumura/ai-20171031
※2: “Generative Adversarial Imitation Learning” (Ho&Ermon 16)
※3: “Deep Inverse Reinforcement Learning by Logistic Regression” (Uchibe 16)
『逆転オセロニア』のゲーム画⾯
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
複雑なゲームを解かせる時に困っていること
■ 既存の強化学習⼿法で解決できていない課題への対応
⁃ 探索すべき状態・⾏動空間が膨⼤★
⁃ 不完全情報
• “Libratus”, “DeepStack”, 等のポーカーAIを参照中※1
⁃ 環境に対する汎化性(★)
• キャラ追加やトレンドによりゲーム内環境が次々と変化する
• 相⼿の戦い⽅が変わると環境も変わる
⁃ 階層的な意思決定構造(★)
• ゲームの局⾯において複数のサブ戦略がある
■ 現在関⼼を持っている領域
⁃ 階層型強化学習
⁃ 内的動機付け
⁃ 逆強化学習(GAIL※2、LogReg※3、etc…)
※1: 『ポーカーAIの最新動向』(奥村純)
https://www.slideshare.net/juneokumura/ai-20171031
※2: “Generative Adversarial Imitation Learning” (Ho&Ermon 16)
※3: “Deep Inverse Reinforcement Learning by Logistic Regression” (Uchibe 16)
『逆転オセロニア』のゲーム画⾯
★:本紹介論⽂で関連する項⽬
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
探索の効率化について
■ 探索の困難
⁃ 学習に有効なサンプルを活⽤したいが、サンプルを得るためには
膨⼤な状態⾏動空間を訪問する必要がある(探索と活⽤のトレードオフ)
⁃ そもそもスパースな報酬にたどり着きにくい
■ 関連する話題(⼀部)
⁃ Intrinsic Motivation※1
• これまでに訪問したことのない状態になるべく訪問する
⁃ Hierarchy※2
• 中間ゴールを設定することで探索空間を縮減
⁃ カリキュラム学習※3
• 徐々にタスク難易度を上げることで⾼度な⾏動系列を獲得
⁃ And More…
※1: e.g. M. G. Bellemare, et al., Unifying count-based exploration and intrinsic motivation. In NIPS, pp. 1471–1479, 2016.
D. Pathak, et al., Curiosity-driven exploration by self-supervised prediction. In ICML, 2017.,
H. Tang et al., #exploration: A study of count-based exploration for deep reinforcement learning. In NIPS, 2017.
※2: 『 NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α 』(甲野祐)
https://www.slideshare.net/yukono1/nips2017pfn-hierarchical-reinforcement-learning
※3: e.g. Y. Bengio et al., Curriculum learning. In ICML, pp. 41–48, 2009.
M. P. Kumar et al., Self-paced learning for latent variable models. In NIPS. 2010.
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
本論⽂に関連する最近の話題
■ Universal Value Function Approximators (UVFA)※1
⁃ (学習対象の)状態価値関数※2に(固定された)ゴール状態を⼊れて拡張
⁃ 状態とゴールを分離することで、下位⽅策が獲得されやすくなる
■ Hindsight Experience Replay (HER)※3
⁃ UVFA のようにゴールを決めて学習を⾏う
⁃ 実際にゴールに到達しなかった場合は「その終端状態がゴールだった」と
思い込ませて学習に取り⼊れる(暗黙的なカリキュラム学習)
• イメージ:100点を⽬指していたが90点で終わった
⇒とはいえ頑張ったので、この経験も成功体験と誤認させて学習に利⽤
⁃ スパースな報酬のタスクにおいて有効なことが⽰された
※1: T. Schaul., et al., Universal value function approximators. In ICML, pp. 1312–1320, 2016.
※2: ある⽅策 π のもと、状態 s で⾏動 a を選択した時に得られる期待報酬。ここでθは近似関数のパラメータを表す。
※3: M. Andrychowicz., et al., Hindsight Experience Replay. In NIPS, 2017.
⼀般的な状態⾏動価値関数
拡張された状態⾏動価値関数
(最初からゴール状態を定義して学習を⾏う)
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
紹介する論⽂※1(TL;DR)
■ 役割の違う2つのエージェントを使った事前学習によって、
意味のある⾏動系列を獲得させて学習を効率化した話
⁃ エージェントは「タスクを定義する役」と「タスクを解く役」を⽤意
⁃ 徐々に複雑なタスクを解かせるカリキュラムを⾃律的に獲得
• Adversarialにタスクのゴールが設定される
• UVFAやHERをさらに拡張してる、という⾒⽅もできる
⁃ 環境の振る舞いを内包する学習⼿法
⁃ 5種類のテスト課題で学習の効率化を検証した
※1: S. Sukhbaatar, et al. Intrinsic motivation and automatic curricula via asymmetric self-play. In ICLR. 2017.
https://openreview.net/forum?id=SkT5Yg-RZ
http://search.iclr2018.smerity.com/
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
提案⼿法の概要:事前学習
■ エージェントの相互プレイによる事前学習
⁃ AliceとBobを⽤意する
• AliceはBobにタスクを提⽰、Bobは与えられたタスクを解く
• BobはAliceの初期状態から終端状態を再現しようとするタスク(Repeat)
と、終端状態から初期状態に戻ろうとするタスク(Reverse)がある
⁃ 敵対的に学習が進むことでより複雑なタスクが解けるようになる(次⾴)
MazeBase: 扉の反対側にあるゴールに到達するタスク。
ドアを開けるスイッチや、部屋の電気スイッチなどのオブジェクトがある。
Alice:ある初期状態からスタートして、適当に進んだ後に⽌まる(STOP状態)
Bob:「AliceのSTOP状態から初期状態に移動するタスクを解く」(Reverseタスク)
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
提案⼿法の概要:敵対的なカリキュラムの⽣成
■ Bobにとっての問題設定(≒Discriminator)
⁃ なるべく経過時間 が最短となるようにタスクをクリアしたい
⁃ Aliceの⾏動時間 と合わせ⼀定時間 経過するとエピソード終了
■ Aliceにとっての問題設定(≒Generator)
⁃ が⼤きいほど報酬が⼤きい ⇒ Bobが苦労するタスクほど嬉しい
⁃ が⼩さいほど報酬が⼤きい ⇒ タスクはシンプルなほど嬉しい
Aliceが設定したゴール状態
Aliceは “Bobが苦労するなるべく単純なタスク” を設定しようとする
⇒ タスク難易度が徐々に上昇し、カリキュラムが⾃動獲得される
Aliceの始状態
報酬:
⽅策:
報酬:
⽅策:
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
提案⼿法の概要:ターゲットタスクの強化学習
■ 事前学習したBobの⽅策をもとに、ターゲット⽅策を学習
⁃ ターゲットタスクではゴール状態を明⽰的に与えない
⁃ 学習アルゴリズムは⽅策勾配法※1を⽤いる
• REINFORCE
• TRPO (Trust Region Policy Optimization)※2
※1: サンプルした報酬から、報酬をより期待できる勾配⽅向に⽅策 π を改良していくアルゴリズム
※2: J. Schulman., et al. Trust region policy optimization. In ICML. 2015.
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
実験結果:MazeBase
■ FAIRが提供している強化学習環境※1の⼀種(Light Key)
⁃ エージェントはKeyを訪問しドアを開け、壁の反対側のゴールに辿り着く
⁃ 電気が確率p(light off)で消えており、その場合電気の場所しか⾒えない
• 著者らは確率pを操作することでBobのタスク設定(Reverse/Repeat)の
難易度を議論しているがここでは詳細は割愛
■ 左図:対象タスクを直接学習するよりも事前学習した⽅が成績がいい
■ 右図:Aliceは徐々に複雑な( の⼤きな)タスクを出題している
※1: MazeBase: A Sandbox for Learning from Games (https://arxiv.org/abs/1511.07401)
https://github.com/facebook/MazeBase
事前学習したBobは早くタスクが解けている
Aliceをランダム⽅策にすると上⼿い出題が出来ない
事前学習しないと⾮効率
Aliceは徐々に複雑なタスクを出題
⇒敵対的なカリキュラム⽣成がワークしている
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
実験結果: Swimmer Gather
■ RLLabで提供されている運動制御タスク※1
⁃ ⾚⽟を避けながら緑⽟を獲得するタスク
⁃ エージェントは関節の動きを学習しながら泳ぎ⽅を覚えないといけない
■ 右図:事前学習によって学習が効率化されている(⾚・⻘)
⁃ 過去の探索効率化⼿法よりも成績がいい
Swimmer Gather (Accessed on 2018-05-25)
https://www.youtube.com/watch?v=w78kFy4x8ck
※1: https://github.com/rll/rllab
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
実験結果: Swimmer Gather
■ Aliceの出題するSTOPと完全に状態が⼀致することは稀なので、
近くに到達すれば課題クリアという条件 を⼊れている
■ AliceのSTOP状態分布を⾒ると、フェーズ毎に出題傾向が変化している
⁃ 最初は真ん中付近で簡単なタスクを出題
⁃ 徐々に遠くに移動するようなタスクを出題
⁃ (最終的に中⼼部に集中しているのはあまり腹落ちせず)
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
実験結果:StarCraft II
■ DeepMindとBlizzardによって提供されているStarCraft IIの学習環境※1
⁃ 様々な種類のユニットを⽣成することでMarine(兵隊)を作る
⁃ 効率よくMarineを⽣成するには様々な建造物を建てる必要がある
⁃ 建設にはミネラルを効率よく採掘する必要がある
※1: StarCraft II: A New Challenge for Reinforcement Learning (https://arxiv.org/abs/1708.04782)
https://ejje.weblio.jp/content/marine
司令センター
SCV
(ワーカーユニット)
ミネラル採掘
50m/13s
建設
150m/50s
Barracks
(Marine⽣成施設) 50m/15s
Marine
(歩兵ユニット)
訓練
-1m/1s
Supply Depot
(サプライ上限
を増やす建物)
建設 100m/25s
必要なミネラル
必要な時間
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
実験結果:StarCraft II
■ Aliceと同じ状態を訪問することは稀なので、Bobは
各ユニットの⽣成数・ミネラル量が条件を満たせば課題クリア
■ 事前学習で学習が促進され、⽣成されるMarine数は増加している
⁃ Count-based(緑)は、なるべく未訪問の状態に訪問しようという
動機づけによって探索を促進する学習⼿法
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
まとめ・感想
■ まとめ
⁃ ゴール内包した⽅策を事前学習することで様々なゴールに共通する⽅策を
ゴールを与えられなくても暗黙的に有する状態からスタートできた
⁃ ゴールを敵対的に学習することで⾃律的なカリキュラムを実現した
■ 感想
⁃ 環境の学習を内包した事前学習を敵対的に⾏うアイデアが⾯⽩い
■ その他感じた点
⁃ エージェントが到達困難な⻑⼤なゴールに対しては、Alice⾃⾝も
課題を出せない可能性がある
⁃ AliceとBobの敵対的な学習によって、ターゲットタスクを解くのに最適な
事前知識が得られるかは⾮⾃明
• mode collapseのようにAliceが多様なタスクを出さなくなる可能性
• Swimmer GatherにおけるAliceのSTOP分布が少し気になる
⁃ Bobの学習⽅法(Reverse/Repeat)がタスク依存になってるところなど、
⾃律的なカリキュラム獲得とはいえhand engineeringの余地が残る
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
Appendix:Pseudo-Code
■ AliceとBobによる事前学習
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
Appendix:Pseudo-Code
■ ターゲットタスクの学習
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
Appendix
■ 学習パラメータ
⁃ Self-play modeの選択はタスク依存

More Related Content

What's hot

ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことJiro Nishitoba
 
FeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement LearningFeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement Learning佑 甲野
 
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + αNIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α佑 甲野
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingYasunori Ozaki
 
実装ディープラーニング
実装ディープラーニング実装ディープラーニング
実装ディープラーニングYurie Oka
 
Building High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised LearningBuilding High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised LearningTakuya Minagawa
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 
「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門Hideto Masuoka
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用Seiya Tokui
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)cvpaper. challenge
 
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakiCvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakitomoaki0705
 
Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Brains Consulting, Inc.
 
ゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてJun Okumura
 

What's hot (20)

Rainbow
RainbowRainbow
Rainbow
 
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
 
FeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement LearningFeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement Learning
 
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + αNIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
実装ディープラーニング
実装ディープラーニング実装ディープラーニング
実装ディープラーニング
 
Building High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised LearningBuilding High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised Learning
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
深層学習入門
深層学習入門深層学習入門
深層学習入門
 
「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門
 
Deep learning入門
Deep learning入門Deep learning入門
Deep learning入門
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 
20160329.dnn講演
20160329.dnn講演20160329.dnn講演
20160329.dnn講演
 
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakiCvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoaki
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Deep Learningについて(改訂版)
Deep Learningについて(改訂版)
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
ゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用について
 

Similar to ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play

Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven explorationTakuya Minagawa
 
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechconDeNA
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]DeNA
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習Hori Tasuku
 
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~Insight Technology, Inc.
 
ChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くないChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くないCarnot Inc.
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さんAkira Shibata
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 
ソフトウェア開発における『知の高速道路』
ソフトウェア開発における『知の高速道路』ソフトウェア開発における『知の高速道路』
ソフトウェア開発における『知の高速道路』Yoshitaka Kawashima
 
ディープラーニングによるゆるキャラグランプリの得票数予想
ディープラーニングによるゆるキャラグランプリの得票数予想ディープラーニングによるゆるキャラグランプリの得票数予想
ディープラーニングによるゆるキャラグランプリの得票数予想Katsuya Ishiyama
 
深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22Naoto Yoshida
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回Kohei Wakamatsu
 
Dots deep learning部_20161221
Dots deep learning部_20161221Dots deep learning部_20161221
Dots deep learning部_20161221陽平 山口
 
Deep nlp 4.2-4.3_0309
Deep nlp 4.2-4.3_0309Deep nlp 4.2-4.3_0309
Deep nlp 4.2-4.3_0309cfiken
 
TensorFlow User Group #1
TensorFlow User Group #1TensorFlow User Group #1
TensorFlow User Group #1陽平 山口
 
Start rl with_unity_machine_learning_agents
Start rl with_unity_machine_learning_agentsStart rl with_unity_machine_learning_agents
Start rl with_unity_machine_learning_agentsinfinite_loop
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
KaggleのテクニックYasunori Ozaki
 

Similar to ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play (20)

Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
 
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
 
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
 
Soft neuro
Soft neuroSoft neuro
Soft neuro
 
ChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くないChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くない
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 
ソフトウェア開発における『知の高速道路』
ソフトウェア開発における『知の高速道路』ソフトウェア開発における『知の高速道路』
ソフトウェア開発における『知の高速道路』
 
ディープラーニングによるゆるキャラグランプリの得票数予想
ディープラーニングによるゆるキャラグランプリの得票数予想ディープラーニングによるゆるキャラグランプリの得票数予想
ディープラーニングによるゆるキャラグランプリの得票数予想
 
深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
Dots deep learning部_20161221
Dots deep learning部_20161221Dots deep learning部_20161221
Dots deep learning部_20161221
 
Deep nlp 4.2-4.3_0309
Deep nlp 4.2-4.3_0309Deep nlp 4.2-4.3_0309
Deep nlp 4.2-4.3_0309
 
TensorFlow User Group #1
TensorFlow User Group #1TensorFlow User Group #1
TensorFlow User Group #1
 
Start rl with_unity_machine_learning_agents
Start rl with_unity_machine_learning_agentsStart rl with_unity_machine_learning_agents
Start rl with_unity_machine_learning_agents
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 

More from Jun Okumura

Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)Jun Okumura
 
CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用Jun Okumura
 
DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習Jun Okumura
 
ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031Jun Okumura
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617Jun Okumura
 
Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜Jun Okumura
 

More from Jun Okumura (6)

Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)
 
CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用
 
DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習
 
ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617
 
Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜
 

Recently uploaded

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 

Recently uploaded (9)

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 

ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play