SlideShare a Scribd company logo
1 of 42
Download to read offline
強化
学習
Naoto Yoshida / GROOVE X
2017-Jan-27
のはなしをまるっと
自己紹介・会社紹介
自己紹介
名前: 吉田 尚人
Twitter : Ugo-Nama @movingsloth
所属:GROOVE X 株式会社
夢:動物ロボットをつくりあげること
創業2年目のロボット・スタートアップ@人形町 ロボット作ってます!
企業名
設立年月
GROOVE X株式会社
2015年11月
従業員数
24名、うちエンジニア16名
(2017年1月現在)
事業内容 新世代の家庭用ロボット開発事業
会社概要
http://www.groove-x.com/
GROOVE Xについて
→ 今後2年でメンバー数3倍になる予定
STRICTLY CONFIDENTIAL  |
GROOVE Xのロボットとチーム
“かわいさ”に重点をおいたロボットを自社開発中!
   
GROOVE Xのロボット GROOVE Xのチーム
会話
完璧なタスク遂行
かわいいは正義
まだまだ募集中!!
http://www.groove-x.com/
ソフトウェア・エレキ・メカ・デザイン
本題:強化学習
強化学習を学ぶことは困難だ!
推定
予測
計画
制御
強化学習
最近は統合が進む: Kappen, Hilbert J., Vicenç Gómez, and Manfred Opper. "Optimal control as a
graphical model inference problem." Machine learning 87.2 (2012): 159-182.
強化学習とは何か
エージェントが未知の環境において自律的に行動を決定し,
かつ行動決定規則を学習することで将来に渡る累積報酬を最大化
することをめざす技術
@ ICRA2015, Google Deepmind
エージェント
環境
報酬: r
?
時刻
?
報酬: r
方策(行動決定規則)のパラメータに依存
して,取りうる軌道が異なる
やりたいこと
時刻
最大化
方策(行動決定規則)の改善
やりたいこと
?
報酬: r
※ 独立同時分布,Markov性,
Training・Validation・Test datasetの存在
などのキモチイイ前提が一旦無くなります
強化学習の枠組み
● 環境とエージェントの相互作用を考える
● エージェントが環境から受け取るもの
○ 観測:センサの値・入力
○ 報酬:直近の行動に対する評価
● エージェントが出力するもの
○ 行動:モータ出力 etc.
● 目標:累積報酬を最大化
行動: a 観測: o
報酬: r
環境
エージェント
行動決定規則
状態: s,状態遷移ルール: P(s’|s, a)
観測モデル: P(o|s)
0 ≦ γ < 1
方策
強化学習の枠組み
行動: a 観測: o
報酬: r
Black Box
● 環境とエージェントの相互作用を考える
● エージェントが環境から受け取るもの
○ 観測:センサの値・入力
○ 報酬:直近の行動に対する評価
● エージェントが出力するもの
○ 行動:モータ出力 etc. (連続値/離散値)
● 目標:累積報酬を最大化
● エージェントは環境に対する事前知識を全く
持たない状態でスタートする エージェント
行動決定規則
0 ≦ γ < 1
※報酬の関数は既知とすることもある
方策
強化学習の枠組み
行動: a 観測: o
報酬: r
Black Box
● 環境とエージェントの相互作用を考える
● エージェントが環境から受け取るもの
○ 観測:センサの値・入力
○ 報酬:直近の行動に対する評価
● エージェントが出力するもの
○ 行動:モータ出力 etc. (連続値/離散値)
● 目標:累積報酬を最大化
● エージェントは環境に対する事前知識を全く
持たない状態でスタートする エージェント
行動決定規則
※報酬の関数は既知とすることもある
0 ≦ γ < 1
方策
もう少し,目的について
γ が小さい
γ = 0
γ が大きい
γ = 0.999
γ (割引率)が大きいほどよ
り遠い未来を加味して行動
を決定できるが,そのかわ
り学習時に
長い時間が必要となる
Credit Assignment Problem
-1
期待値を計算
時刻
これがより大きな値になるように学習させる
Black
Box
真の確率には
アクセスできない
実際の目的関数
実際は,パラメータを持つ
行動決定規則
を決めた上での   の期待値を
目的関数にし,これを最大化
実際は,パラメータを持つ
行動決定規則
を決めた上での   の期待値を
目的関数にし,これを最大化
期待値を計算
これがより大きな値になるように学習させる
真の目的関数に直接アクセスできない
→ 目的関数を推定する必要がある
→ その目的関数を使って,行動を最適化
実際の目的関数
真の確率には
アクセスできない
実際は,パラメータを持つ
行動決定規則
を決めた上での   の期待値を
目的関数にし,これを最大化
期待値を計算
これがより大きな値になるように学習させる
真の目的関数に直接アクセスできない
→ 目的関数を推定する必要がある
→ その目的関数を使って,行動を最適化
2つの最適化を回すことがポピュラー
● 方策評価
● 方策改善
実際の目的関数
真の確率には
アクセスできない
実際は,パラメータを持つ
行動決定規則
を決めた上での   の期待値を
目的関数にし,これを最大化
真の目的関数に直接アクセスできない
→ 目的関数を推定する必要がある
→ その目的関数を使って,行動を最適化
2つの最適化を回すことがポピュラー
● 方策評価
● 方策改善
MDP環境下では,Value Function
実際の目的関数
真の確率には
アクセスできない
強化学習の種類
行動 観測
報酬
(状態,状態遷移ルール )
エージェント
Black Box
↑目的関数を計算する方法で分類
強化学習の種類
大きく,2つの強化学習がある
● モデルベース強化学習
○ モデルを作って間接的に近似
● モデルフリー強化学習
○ モデル無しで直接的に近似
行動 観測
報酬
(状態,状態遷移ルール )
エージェント
Black Box
↑目的関数を計算する方法で分類
行
動
観測
報酬
(状態,状態遷移ルール)
Black Box
行
動
観測
報酬
(状態,状態遷移ルール)
Black Box
?
?
行動決定器
MCTSなど
シミュレーション
モデルベース
学習:速
不確定度:明示的
可視化:◯
デバッグ:◯
事前知識:◯
転移学習:◯
※↑ シミュレータに依存
行動決定に時間がかかる
モデルフリー
学習:遅
不確定度:非明示的
可視化:✕
デバッグ:✕
事前知識:✕
転移学習:△
行動決定は高速
シミュレータ:パラメータ
パラメータ
行動決定器
(方策)
行
動
観測
報酬
(状態,状態遷移ルール)
Black Box
行
動
観測
報酬
(状態,状態遷移ルール)
Black Box
?
?
シミュレータ:パラメータ
パラメータ
行動決定器
(方策)
熟考
型
直感
型
行動決定器
MCTSなど
シミュレーション
モデルベース
学習:速
不確定度:明示的
可視化:◯
デバッグ:◯
事前知識:◯
転移学習:◯
※↑ シミュレータに依存
行動決定に時間がかかる
モデルフリー
学習:遅
不確定度:非明示的
可視化:✕
デバッグ:✕
事前知識:✕
転移学習:△
行動決定は高速
“Vanilla” Policy Gradient
Note: 確率的なサンプリングを含む目的関数の
勾配を取ると,よく出てくる
期待値の形に直す
軌道の確率を展開
微分すると,方策に関する項だけ残る
学習は遅い.これに色々理論的な工夫をして高速化
モデルベース・モデルフリー強化学習の例
モデルベース
● テーブル関数系(MDP)
○ R-max, Dyna
● カーネル系(MDP)
○ PILCO(Gaussian Process)
● 深層学習系
○ Embed to Control
○ 深層PILCO
● 最適強化学習
○ AIXI (理論的存在, Bayesian RL)
● 特殊な例:
○ Alpha Go (モデルが既知)
モデルフリー
● Markov 決定過程(MDP, 後述)を仮定
○ Q学習,遅延Q学習,SARSA
○ 初期の Actor-Critic
● 深層Q学習:Q学習 + DNN
○ DQN, double DQN, etc.
● 方策勾配法(Policy Gradient)
○ MDPを超えて強化学習を扱える
● その他
○ TRPO
● A3C:Actor-Critic + DNN + α
○ PGを大規模化し,発展させたもの
○ Asynchronous Advantage Actor Critic
モデルベース強化学習は現状,小規模な問
題に適用される例が多い
深層学習の登場によって,テレビゲームや
自動操縦のような複雑なタスクも適用可能
になってきた
モデルベース強化学習の適用例
https://www.youtube.com/watch?v=ov5COSPYync
A3C での自動運転学習 (モデルフリー)
https://www.youtube.com/watch?v=0xo1Ldx3L5Q
https://www.youtube.com/watch?v=ov5COS
PYync
https://www.youtube.com/watch?v=0xo1Ldx
3L5Q
使う時に注意すべきパラメータ
● 強化学習アルゴリズムにだいたいある重要なパラメータ
○ 減衰率パラメータ:γ
■ エージェントの最終的な頭の良さを決める.大きいと学習は遅い
○ 学習率パラメータ:α
■ 学習のはやさを決める.十分小さい必要がある
○ 探索パラメータ
■ エージェントがどれだけ積極的に冒険するかを決める
■ アルゴリズムによって性質が大きく異なる
● その他,深層強化学習をする時は深層学習のパラメータ設定が必要
○ モデルの大きさ
○ 特徴量抽出
○ 事前処理
○ etc. etc.
(前提なし)強化学習問題の注意・難しさ
● エージェントがアクセスできる情報に制約がある
○ 縛り付き機械学習というような考え方もとっつきにくい
■ ”エージェントと環境の相互作用 ”という考え方は機械学習ではあまりしない
● エージェントに流れ込んでくるデータは独立同時分布ではない
○ 系列データとも微妙に意味が異なる
○ 系列データは,各系列については独立
● 入ってくるデータは全てテストデータ(?)であるが,
しかし過去手に入れたデータ(訓練データ?)と独立ではない
● エージェントが自分で環境から情報を取ってこなければならない
○ 探索と利用のジレンマ( Exploration-Exploitation)
(前提なし)強化学習問題の注意・難しさ
そこで,色々な仮定を入れて議論できるようにする
仮定
● タスク設定の仮定
○ Episodic Task:エピソードタスク
■ 終了条件が存在し,実験を打ち切る
■ 各軌道が独立となる
■ 特に重要なもの
● Multi-Armed Bandit Problem
○ Continual Task:継続タスク
■ 終了条件が存在しない
仮定:Markov決定過程
● Markov Decision Process: MDP
○ 強化学習を語る上で頻出する,環境に関する仮定
○ エージェントの観測は,環境の状態そのものであるという仮定
■ o = s,
■ 報酬は
○ 直感的には
■ 各ステップに与えられている情報だけから,次のステップを予測することができる
● 例)ダイナミクスがNewton力学 + ノイズで記述可能
○ 特性
■ 最適な方策が存在し,それと同等な方策が 決定論的な関数↓の形でも表される
■ Q学習などの効率的な学習手法が導出できる
Torque
ロボットの強化学習
● ロボットの強化学習は難しい
○ 試行回数に限界がある(ロボットは壊れる)
○ 1つのロボットが収集できるデータには限界がある
■ 100万回も試行できない
○ 確立したロボティクスの分野に入り込む余地がない
■ SLAM, Planning, 確立した技術が成立している
○ ロボットの計算リソースは限られている
ロボットの強化学習
● ロボットの強化学習は難しい
○ 試行回数に限界がある(ロボットは壊れる)
○ 1つのロボットが収集できるデータには限界がある
■ 100万回も試行できない
○ 確立したロボティクスの分野に入り込む余地がない
■ SLAM, Planning, 確立した技術が成立している
○ ロボットの計算リソースは限られている
学習時,最初は壊れても良い
ロボットは大量生産される
品質は管理される
Levine, Sergey, et al. "Learning hand-eye coordination for robotic grasping with deep learning and large-scale
data collection." arXiv preprint arXiv:1603.02199 (2016).
https://www.youtube.com/wat
ch?v=iaF43Ze1oeI
ロボットの強化学習
● ロボットの強化学習は難しい
○ 試行回数に限界がある(ロボットは壊れる)
○ 1つのロボットが収集できるデータには限界がある
■ 100万回も試行できない
○ 確立したロボティクスの分野に入り込む余地がない
■ SLAM, Planning, 確立した技術が成立している
○ ロボットの計算リソースは限られている
学習時,最初は壊れても良い
ロボットは大量生産される
品質は管理される
SLAMはMLE・MAP・Bayes推定
Planningは状態(モデルパラメータ)が推
定されれば可能
強化学習で同時に解く試みもある
Mirowski, Piotr, et al.
"Learning to navigate in complex environments."
arXiv preprint arXiv:1611.03673 (2016).
https://www.youtube.com/watch?v
=JL8F82qUG-Q
ロボットの強化学習
● ロボットの強化学習は難しい
○ 試行回数に限界がある(ロボットは壊れる)
○ 1つのロボットが収集できるデータには限界がある
■ 100万回も試行できない
○ 確立したロボティクスの分野に入り込む余地がない
■ SLAM, Planning, 確立した技術が成立している
○ ロボットの計算リソースは限られている
学習時,最初は壊れても良い
ロボットは大量生産される
品質は管理される
SLAMはMLE・MAP・Bayes推定
Planningは状態(モデルパラメータ)が推
定されれば可能
強化学習で同時に解く試みもある
クラウド・無線通信・小型 PC
巨大なネットワークで画像認識させながら
ロボットをリアルタイムで動かすくらいは可能
据え置きシステムなら 計算リソースは無尽蔵
http://jabelone.com.au/blog/make-autonomous-car-code-included/
https://www.youtube.com/watch?v=tFwCyHdAWf
0
ロボットの強化学習
● ロボットの強化学習は難しい
○ 試行回数に限界がある(ロボットは壊れる)
○ 1つのロボットが収集できるデータには限界がある
■ 100万回も試行できない
○ 確立したロボティクスの分野に入り込む余地がない
■ SLAM, Planning, 確立した技術が成立している
○ ロボットの計算リソースは限られている
学習時,最初は壊れても良い
ロボットは大量生産される
品質は管理される
SLAMは最尤推定・Bayes推定
Planningは状態(モデルパラメータ)が推
定されれば可能
強化学習で同時に解く試みもある
クラウド・無線通信・小型 PC
巨大なネットワークで画像認識させながら
ロボットをリアルタイムで動かすくらいは可能
据え置きシステムなら 計算リソースは無尽蔵
最近のトレンド
● ソフトウェアフレームワーク が公開されはじめた
(Open-AI Gym etc.): モダンなものは Python のみ
● 共通のインターフェース で多様な問題を扱う
○ インターフェースを合わせることで,新たな問題が扱える
https://github.com/erlerobot/gym-gazebo
https://github.com/wbap/lis
https://universe.openai.com
https://deepmind.com/docum
ents/29/DeepMindLab.pdf
https://github.com/ugo-nama-k
un/gym_torcs
文献情報
● Reinforcement Learning State-of-the-Art
○ Wiering, Marco, van Otterlo, Martijn (Eds.), 2012
● Sutton & Barto 本 2.0
○ 近日発売予定?
○ https://webdocs.cs.ualberta.ca/~sutton/book/bookdraft2016sep.pdf
● これからの強化学習
○ 牧野 貴樹, 澁谷 長史, 白川 真一 (著, 編集), 2016
● 強くなるロボティック・ゲームプレイヤーの作り方
○ 八谷 大岳, 杉山 将 (著), 2008 ← 再版された!
Yan Duan, Xi Chen, Rein Houthooft, John Schulman, Pieter Abbeel.
"Benchmarking Deep Reinforcement Learning for Continuous Control".
Proceedings of the 33rd International Conference on Machine Learning
(ICML), 2016.
ちいさな王子(星の王子様)より
もしきみがぼくのことをなつかせてくれれば,ぼくの暮らしはお日さまに照らされたように
なる.ほかの足音とはちがう足音を,ききわけられるようになるんだ.ほかの足音がした
ら,ぼくは穴のなかにもぐっちゃう.きみの足音が聞こえたら,まるで音楽が聞こえてきた
みたいに,穴から出ていくよ.
(略)あそこ,麦畑になってるでしょ?ぼくはパンなんか食べない.だから麦なんか役に立
たない.麦畑を見たって何も感じないんだ.さびしいことだよ!でも,きみは金色の髪色
をしてるね.だから,きみがぼくのことをなつかせてくれたら,とっても良いと思うんだ!
麦も金色だから,麦畑を見ればきみのことが思い出せるでしょ.それにぼく,麦畑に吹く
風の音がきっと好きになるよ・・・
特徴の選択
フィルタリング
後天的な学習 学習の汎化・関数近似・情報の圧縮
(ちいさな王子 21節 光文社古典新訳文庫より)特徴を選択する Drive : Reward
予測
Take Home Message
● 強化学習にアクセスするのはなかなか難しい
● 深層学習と,強化学習は全然別のこと
○ 強化学習は学習の「枠組み」
○ 深層学習はニューラルネットワークという「やり方」
● モデルベース強化学習 と モデルフリー強化学習 がある
○ それぞれに強さ・弱点がある
● ロボットの強化学習も,よく考えれば適用できそうな場面が増えてきた
○ よく考えなければ,難しい.まだまだ研究が必要.量産ロボットの可能性
● 近年のモデルベース強化学習をより詳しく知りたい方は
○ 「Model-based 強化学習とその周辺」
■ https://drive.google.com/drive/folders/0BzMTR9k7rE1_d2p0TG15Q0tvZzQ

More Related Content

What's hot

強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷Eiji Sekiya
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめsleepy_yoshi
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...Deep Learning JP
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
TalkingData AdTracking  Fraud Detection Challenge (1st place solution)TalkingData AdTracking  Fraud Detection Challenge (1st place solution)
TalkingData AdTracking Fraud Detection Challenge (1st place solution)Takanori Hayashi
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 

What's hot (20)

強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
TalkingData AdTracking  Fraud Detection Challenge (1st place solution)TalkingData AdTracking  Fraud Detection Challenge (1st place solution)
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 

Viewers also liked

Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
ツイートの取得と解析の間
ツイートの取得と解析の間ツイートの取得と解析の間
ツイートの取得と解析の間nemupm
 
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131Hangyo Masatsugu
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみたYoshihiko Shiraki
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話mooopan
 
Pythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI GymトレーニングPythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI GymトレーニングTakahiro Kubo
 
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないことNorishige Fukushima
 
サラリーマンでギョーミーなプログラマ(つまりオレ)でも片手間で作れるXFD
サラリーマンでギョーミーなプログラマ(つまりオレ)でも片手間で作れるXFDサラリーマンでギョーミーなプログラマ(つまりオレ)でも片手間で作れるXFD
サラリーマンでギョーミーなプログラマ(つまりオレ)でも片手間で作れるXFDKazuhito Miura
 
自動家(オートメーター)大地に立つ!! 〜オールドタイプの一年戦争〜
自動家(オートメーター)大地に立つ!! 〜オールドタイプの一年戦争〜自動家(オートメーター)大地に立つ!! 〜オールドタイプの一年戦争〜
自動家(オートメーター)大地に立つ!! 〜オールドタイプの一年戦争〜Kazuhito Miura
 
Shibuyatrac#13 scurmでやってみた
Shibuyatrac#13 scurmでやってみたShibuyatrac#13 scurmでやってみた
Shibuyatrac#13 scurmでやってみたKanu orz
 
Startup jenkins!
Startup jenkins!Startup jenkins!
Startup jenkins!Kanu orz
 
自動化パタンランゲージ
自動化パタンランゲージ自動化パタンランゲージ
自動化パタンランゲージHiroshi Maekawa
 
Jenkins 2を使った究極のpipeline ~ 明日もう一度来てください、本物のpipelineをお見せしますよ ~
Jenkins 2を使った究極のpipeline ~ 明日もう一度来てください、本物のpipelineをお見せしますよ ~Jenkins 2を使った究極のpipeline ~ 明日もう一度来てください、本物のpipelineをお見せしますよ ~
Jenkins 2を使った究極のpipeline ~ 明日もう一度来てください、本物のpipelineをお見せしますよ ~ikikko
 
よろしい、ならば自動化だっ! ~自動家の自動化哲学~ #AsianAA
よろしい、ならば自動化だっ! ~自動家の自動化哲学~ #AsianAAよろしい、ならば自動化だっ! ~自動家の自動化哲学~ #AsianAA
よろしい、ならば自動化だっ! ~自動家の自動化哲学~ #AsianAAKazuhito Miura
 
書類作成環境のあるべき論とは
書類作成環境のあるべき論とは書類作成環境のあるべき論とは
書類作成環境のあるべき論とはJun Iio
 
スクラムにおける事前期待のマネジメント - Customer Expectations Management of Scrum #sgt2016
スクラムにおける事前期待のマネジメント - Customer Expectations Management of Scrum  #sgt2016スクラムにおける事前期待のマネジメント - Customer Expectations Management of Scrum  #sgt2016
スクラムにおける事前期待のマネジメント - Customer Expectations Management of Scrum #sgt2016満徳 関
 
Jenkins User Conference 2012 Tokyo 「SIerのJenkins事情」
Jenkins User Conference 2012 Tokyo 「SIerのJenkins事情」Jenkins User Conference 2012 Tokyo 「SIerのJenkins事情」
Jenkins User Conference 2012 Tokyo 「SIerのJenkins事情」Takahisa Wada
 
第4回品川Redmine勉強会資料「チケット駆動開発のフレームワーク~現場の経験知からパターン言語へ(ベータ版)」
第4回品川Redmine勉強会資料「チケット駆動開発のフレームワーク~現場の経験知からパターン言語へ(ベータ版)」第4回品川Redmine勉強会資料「チケット駆動開発のフレームワーク~現場の経験知からパターン言語へ(ベータ版)」
第4回品川Redmine勉強会資料「チケット駆動開発のフレームワーク~現場の経験知からパターン言語へ(ベータ版)」akipii Oga
 
モックアップ共有のススメ
モックアップ共有のススメモックアップ共有のススメ
モックアップ共有のススメKazuyoshi Goto
 
「実録!となりのJenkins2.0」 - 第7回大阪 / 第9回(東京)Jenkins勉強会 #jenkinsstudy
「実録!となりのJenkins2.0」 - 第7回大阪 / 第9回(東京)Jenkins勉強会 #jenkinsstudy「実録!となりのJenkins2.0」 - 第7回大阪 / 第9回(東京)Jenkins勉強会 #jenkinsstudy
「実録!となりのJenkins2.0」 - 第7回大阪 / 第9回(東京)Jenkins勉強会 #jenkinsstudyKazuhito Miura
 

Viewers also liked (20)

Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
ツイートの取得と解析の間
ツイートの取得と解析の間ツイートの取得と解析の間
ツイートの取得と解析の間
 
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみた
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
 
Pythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI GymトレーニングPythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI Gymトレーニング
 
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
 
サラリーマンでギョーミーなプログラマ(つまりオレ)でも片手間で作れるXFD
サラリーマンでギョーミーなプログラマ(つまりオレ)でも片手間で作れるXFDサラリーマンでギョーミーなプログラマ(つまりオレ)でも片手間で作れるXFD
サラリーマンでギョーミーなプログラマ(つまりオレ)でも片手間で作れるXFD
 
自動家(オートメーター)大地に立つ!! 〜オールドタイプの一年戦争〜
自動家(オートメーター)大地に立つ!! 〜オールドタイプの一年戦争〜自動家(オートメーター)大地に立つ!! 〜オールドタイプの一年戦争〜
自動家(オートメーター)大地に立つ!! 〜オールドタイプの一年戦争〜
 
Shibuyatrac#13 scurmでやってみた
Shibuyatrac#13 scurmでやってみたShibuyatrac#13 scurmでやってみた
Shibuyatrac#13 scurmでやってみた
 
Startup jenkins!
Startup jenkins!Startup jenkins!
Startup jenkins!
 
自動化パタンランゲージ
自動化パタンランゲージ自動化パタンランゲージ
自動化パタンランゲージ
 
Jenkins 2を使った究極のpipeline ~ 明日もう一度来てください、本物のpipelineをお見せしますよ ~
Jenkins 2を使った究極のpipeline ~ 明日もう一度来てください、本物のpipelineをお見せしますよ ~Jenkins 2を使った究極のpipeline ~ 明日もう一度来てください、本物のpipelineをお見せしますよ ~
Jenkins 2を使った究極のpipeline ~ 明日もう一度来てください、本物のpipelineをお見せしますよ ~
 
よろしい、ならば自動化だっ! ~自動家の自動化哲学~ #AsianAA
よろしい、ならば自動化だっ! ~自動家の自動化哲学~ #AsianAAよろしい、ならば自動化だっ! ~自動家の自動化哲学~ #AsianAA
よろしい、ならば自動化だっ! ~自動家の自動化哲学~ #AsianAA
 
書類作成環境のあるべき論とは
書類作成環境のあるべき論とは書類作成環境のあるべき論とは
書類作成環境のあるべき論とは
 
スクラムにおける事前期待のマネジメント - Customer Expectations Management of Scrum #sgt2016
スクラムにおける事前期待のマネジメント - Customer Expectations Management of Scrum  #sgt2016スクラムにおける事前期待のマネジメント - Customer Expectations Management of Scrum  #sgt2016
スクラムにおける事前期待のマネジメント - Customer Expectations Management of Scrum #sgt2016
 
Jenkins User Conference 2012 Tokyo 「SIerのJenkins事情」
Jenkins User Conference 2012 Tokyo 「SIerのJenkins事情」Jenkins User Conference 2012 Tokyo 「SIerのJenkins事情」
Jenkins User Conference 2012 Tokyo 「SIerのJenkins事情」
 
第4回品川Redmine勉強会資料「チケット駆動開発のフレームワーク~現場の経験知からパターン言語へ(ベータ版)」
第4回品川Redmine勉強会資料「チケット駆動開発のフレームワーク~現場の経験知からパターン言語へ(ベータ版)」第4回品川Redmine勉強会資料「チケット駆動開発のフレームワーク~現場の経験知からパターン言語へ(ベータ版)」
第4回品川Redmine勉強会資料「チケット駆動開発のフレームワーク~現場の経験知からパターン言語へ(ベータ版)」
 
モックアップ共有のススメ
モックアップ共有のススメモックアップ共有のススメ
モックアップ共有のススメ
 
「実録!となりのJenkins2.0」 - 第7回大阪 / 第9回(東京)Jenkins勉強会 #jenkinsstudy
「実録!となりのJenkins2.0」 - 第7回大阪 / 第9回(東京)Jenkins勉強会 #jenkinsstudy「実録!となりのJenkins2.0」 - 第7回大阪 / 第9回(東京)Jenkins勉強会 #jenkinsstudy
「実録!となりのJenkins2.0」 - 第7回大阪 / 第9回(東京)Jenkins勉強会 #jenkinsstudy
 

Similar to 強化学習@PyData.Tokyo

深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22Naoto Yoshida
 
[社内セッション]DevOps時代の僕の生き方、働き方
[社内セッション]DevOps時代の僕の生き方、働き方[社内セッション]DevOps時代の僕の生き方、働き方
[社内セッション]DevOps時代の僕の生き方、働き方Shigeki Morizane
 
Microsoft機械学習の簡単な紹介
Microsoft機械学習の簡単な紹介Microsoft機械学習の簡単な紹介
Microsoft機械学習の簡単な紹介A AOKI
 
機械学習でテスト実行を効率化するLaunchable.pdf
機械学習でテスト実行を効率化するLaunchable.pdf機械学習でテスト実行を効率化するLaunchable.pdf
機械学習でテスト実行を効率化するLaunchable.pdfyusuke shibui
 
今から学ぶLinux(基礎とトレンド)
今から学ぶLinux(基礎とトレンド)今から学ぶLinux(基礎とトレンド)
今から学ぶLinux(基礎とトレンド)Kujirai Takahiro
 
企業主催勉強会BPStudy〜個人が輝くコミュニティを目指して
企業主催勉強会BPStudy〜個人が輝くコミュニティを目指して企業主催勉強会BPStudy〜個人が輝くコミュニティを目指して
企業主催勉強会BPStudy〜個人が輝くコミュニティを目指してHaruo Sato
 
Reviewing_machine_learning_program.pdf
Reviewing_machine_learning_program.pdfReviewing_machine_learning_program.pdf
Reviewing_machine_learning_program.pdfyusuke shibui
 
CoderDojo ひばりヶ丘の取り組み
CoderDojo ひばりヶ丘の取り組みCoderDojo ひばりヶ丘の取り組み
CoderDojo ひばりヶ丘の取り組みMasao Niizuma
 
JTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun TzuJTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun Tzuirix_jp
 
Java script testing framework for around html5 studies-
Java script testing framework for  around html5 studies-Java script testing framework for  around html5 studies-
Java script testing framework for around html5 studies-Jun Saeki
 
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...Developers Summit
 
機械学習システム構築実践ガイド
機械学習システム構築実践ガイド機械学習システム構築実践ガイド
機械学習システム構築実践ガイドyusuke shibui
 
営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニングSatoru Yamamoto
 
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方Hisahiko Shiraishi
 
クラウド登場で変化した受託案件と開発スタイルのRe-design~WebSig1日学校2013_受託の未来コース_後藤 和貴先生
クラウド登場で変化した受託案件と開発スタイルのRe-design~WebSig1日学校2013_受託の未来コース_後藤 和貴先生クラウド登場で変化した受託案件と開発スタイルのRe-design~WebSig1日学校2013_受託の未来コース_後藤 和貴先生
クラウド登場で変化した受託案件と開発スタイルのRe-design~WebSig1日学校2013_受託の未来コース_後藤 和貴先生WebSig24/7
 
無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ無料学習 & Communityのすゝめ
無料学習 & CommunityのすゝめShohei Oda
 
【B 5】x pages extension library じゃぱ〜〜ん!コミュニティ動向2014ば〜〜ん!
【B 5】x pages extension library じゃぱ〜〜ん!コミュニティ動向2014ば〜〜ん!【B 5】x pages extension library じゃぱ〜〜ん!コミュニティ動向2014ば〜〜ん!
【B 5】x pages extension library じゃぱ〜〜ん!コミュニティ動向2014ば〜〜ん!Masahiko Sato
 
OpenDataの知見共有とビジネス化
OpenDataの知見共有とビジネス化OpenDataの知見共有とビジネス化
OpenDataの知見共有とビジネス化Satoshi Iida
 

Similar to 強化学習@PyData.Tokyo (20)

深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22
 
[社内セッション]DevOps時代の僕の生き方、働き方
[社内セッション]DevOps時代の僕の生き方、働き方[社内セッション]DevOps時代の僕の生き方、働き方
[社内セッション]DevOps時代の僕の生き方、働き方
 
Microsoft機械学習の簡単な紹介
Microsoft機械学習の簡単な紹介Microsoft機械学習の簡単な紹介
Microsoft機械学習の簡単な紹介
 
Jubatus使ってみた
Jubatus使ってみたJubatus使ってみた
Jubatus使ってみた
 
機械学習でテスト実行を効率化するLaunchable.pdf
機械学習でテスト実行を効率化するLaunchable.pdf機械学習でテスト実行を効率化するLaunchable.pdf
機械学習でテスト実行を効率化するLaunchable.pdf
 
Aチームでいこう!
Aチームでいこう!Aチームでいこう!
Aチームでいこう!
 
今から学ぶLinux(基礎とトレンド)
今から学ぶLinux(基礎とトレンド)今から学ぶLinux(基礎とトレンド)
今から学ぶLinux(基礎とトレンド)
 
企業主催勉強会BPStudy〜個人が輝くコミュニティを目指して
企業主催勉強会BPStudy〜個人が輝くコミュニティを目指して企業主催勉強会BPStudy〜個人が輝くコミュニティを目指して
企業主催勉強会BPStudy〜個人が輝くコミュニティを目指して
 
Reviewing_machine_learning_program.pdf
Reviewing_machine_learning_program.pdfReviewing_machine_learning_program.pdf
Reviewing_machine_learning_program.pdf
 
CoderDojo ひばりヶ丘の取り組み
CoderDojo ひばりヶ丘の取り組みCoderDojo ひばりヶ丘の取り組み
CoderDojo ひばりヶ丘の取り組み
 
JTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun TzuJTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun Tzu
 
Java script testing framework for around html5 studies-
Java script testing framework for  around html5 studies-Java script testing framework for  around html5 studies-
Java script testing framework for around html5 studies-
 
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...
 
機械学習システム構築実践ガイド
機械学習システム構築実践ガイド機械学習システム構築実践ガイド
機械学習システム構築実践ガイド
 
営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング
 
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
 
クラウド登場で変化した受託案件と開発スタイルのRe-design~WebSig1日学校2013_受託の未来コース_後藤 和貴先生
クラウド登場で変化した受託案件と開発スタイルのRe-design~WebSig1日学校2013_受託の未来コース_後藤 和貴先生クラウド登場で変化した受託案件と開発スタイルのRe-design~WebSig1日学校2013_受託の未来コース_後藤 和貴先生
クラウド登場で変化した受託案件と開発スタイルのRe-design~WebSig1日学校2013_受託の未来コース_後藤 和貴先生
 
無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ
 
【B 5】x pages extension library じゃぱ〜〜ん!コミュニティ動向2014ば〜〜ん!
【B 5】x pages extension library じゃぱ〜〜ん!コミュニティ動向2014ば〜〜ん!【B 5】x pages extension library じゃぱ〜〜ん!コミュニティ動向2014ば〜〜ん!
【B 5】x pages extension library じゃぱ〜〜ん!コミュニティ動向2014ば〜〜ん!
 
OpenDataの知見共有とビジネス化
OpenDataの知見共有とビジネス化OpenDataの知見共有とビジネス化
OpenDataの知見共有とビジネス化
 

強化学習@PyData.Tokyo