More Related Content
Similar to Pythonではじめる OpenAI Gymトレーニング (20)
More from Takahiro Kubo (20)
Pythonではじめる OpenAI Gymトレーニング
- 2. Agenda
● OpenAI Gymを体験しよう
○ OpenAIとOpenAI Gym
○ OpenAI Gymを動かしてみる
○ 簡単な「AI」を作ってみる
○ 「AI」の限界
● 「AI」を成長させよう
○ 強化学習というアイデア
○ アイデアのモデル化と、最適化の方法
○ より複雑なタスクへの挑戦
● Deep Learningとの融合
○ Deep Q-learningの登場
○ Deep Q-learningにおける3つのトリック
○ Deep Q-learningの実装
● おわりに
2
- 6. 人とロボットとの分業による、生産的な接客の実現を検証中
Robot Dash Board Human
customerA
customerB
customerC
report
take over
(telepresence)
背景:生産年齢人口の現象による販売員単価増+ネットショッピングの普及による来店
者数減
コンセプト:ロボットが得意なところ/できることは任せ、人は人ならでは応対に注力する
icoxfog417
対話システムシンポジ
ウムでデモ予定
- 10. OpenAIとOpenAI Gym
10
Ilya Sutskever氏 Trevor Blackwell氏
Andrej Karpathy氏
所属する研究員の方たちは、Seq2Seqを提案したIlya
Sutskever、Segwayを発明したTrevor Blackwell、画像の
説明文生成を行ったAndrej Karpathなど、泣く子も黙る
世界的に優秀な研究員・エンジニア達が所属。
日本人はまだいないようなので、ぜひ日本人初の
OpenAI研究員を目指そう!
- 15. OpenAI Gymを動かしてみる
Gymの基本的な使い方は以下の通り。
15
import gym
env = gym.make("CartPole-v0")
for i_episode in range(20):
observation = env.reset()
done = False
while not done:
env.render()
action = env.action_space.sample()
observation, reward, done, info = env.step(action)
Environment
(CartPole-v0)
Agent
action
observation, reward
done (episode
end)
gym
episodeの単位は、各ゲームによって異なる。そのため、gymを使っていきなり強化学習に入るよりは、試しに動かし
てepisodeの単位、actionの意味を調べるのがおすすめ。
- 18. 簡単な「AI」を作ってみる
18
Agent Environment
action
(フン=左 & フン=右)
observation, reward
def test_funfun_defence(self):
env = Environment(env_name="Pong-v0")
agent = CycleAgent((2, 3), keep_length=20)
for episode, step, reward in env.play(agent, episode=1):
pass
- 54. Convolutional Neural Network
54
Deep Learning界において、「香川といえばうどん」と同じくらい「画像といえば
CNN(Convolutional Neural Network)」は当然のこととして扱われている。
Clarifai
CNNは、画像から特徴を抽出して判断するのに優れた手法。
これを応用して、以下のような仕組みを構築する。