強化学習@PyData.Tokyo

強化
学習
Naoto Yoshida / GROOVE X
2017-Jan-27
のはなしをまるっと

自己紹介
名前：　吉田尚人
Twitter : Ugo-Nama @movingsloth
所属：GROOVE X 株式会社
夢：動物ロボットをつくりあげること

創業2年目のロボット・スタートアップ@人形町　ロボット作ってます！
企業名
設立年月
GROOVE X株式会社
2015年11月
従業員数
24名、うちエンジニア16名
（2017年1月現在）
事業内容新世代の家庭用ロボット開発事業
会社概要
http://www.groove-x.com/
GROOVE Xについて
→ 今後2年でメンバー数3倍になる予定

STRICTLY CONFIDENTIAL 　|
GROOVE Xのロボットとチーム
“かわいさ”に重点をおいたロボットを自社開発中！
　　　
GROOVE Xのロボット GROOVE Xのチーム
会話
完璧なタスク遂行
かわいいは正義
まだまだ募集中！！
http://www.groove-x.com/
ソフトウェア・エレキ・メカ・デザイン

強化学習を学ぶことは困難だ！

推定
予測
計画
制御
強化学習
最近は統合が進む： Kappen, Hilbert J., Vicenç Gómez, and Manfred Opper. "Optimal control as a
graphical model inference problem." Machine learning 87.2 (2012): 159-182.

強化学習とは何か
エージェントが未知の環境において自律的に行動を決定し，
かつ行動決定規則を学習することで将来に渡る累積報酬を最大化
することをめざす技術
@ ICRA2015, Google Deepmind
エージェント
環境
報酬: r
?

時刻
?
報酬: r
方策（行動決定規則）のパラメータに依存
して，取りうる軌道が異なる
やりたいこと

時刻
最大化
方策（行動決定規則）の改善
やりたいこと
?
報酬: r

※ 独立同時分布，Markov性，
Training・Validation・Test datasetの存在
などのキモチイイ前提が一旦無くなります

強化学習の枠組み
● 環境とエージェントの相互作用を考える
● エージェントが環境から受け取るもの
○ 観測：センサの値・入力
○ 報酬：直近の行動に対する評価
● エージェントが出力するもの
○ 行動：モータ出力 etc.
● 目標：累積報酬を最大化
行動: a 観測: o
報酬: r
環境
エージェント
行動決定規則
状態: s，状態遷移ルール: P(s’|s, a)
観測モデル： P(o|s)
0 ≦ γ < 1
方策

行動: a 観測: o
報酬: r
Black Box
○ 行動：モータ出力 etc. (連続値/離散値)
● エージェントは環境に対する事前知識を全く
持たない状態でスタートするエージェント
行動決定規則
0 ≦ γ < 1
※報酬の関数は既知とすることもある
方策

行動: a 観測: o
報酬: r
Black Box
○ 行動：モータ出力 etc. (連続値/離散値)
● エージェントは環境に対する事前知識を全く
持たない状態でスタートするエージェント
行動決定規則
※報酬の関数は既知とすることもある
0 ≦ γ < 1
方策

もう少し，目的について
γ が小さい
γ = 0
γ が大きい
γ = 0.999
γ （割引率）が大きいほどよ
り遠い未来を加味して行動
を決定できるが，そのかわ
り学習時に
長い時間が必要となる

期待値を計算
時刻
これがより大きな値になるように学習させる
Black
Box
真の確率には
アクセスできない
実際の目的関数
実際は，パラメータを持つ
行動決定規則
を決めた上での　　　の期待値を
目的関数にし，これを最大化

行動決定規則
期待値を計算
真の目的関数に直接アクセスできない
→ 目的関数を推定する必要がある
→ その目的関数を使って，行動を最適化
真の確率には

行動決定規則
期待値を計算
2つの最適化を回すことがポピュラー
● 方策評価
● 方策改善
真の確率には

行動決定規則
2つの最適化を回すことがポピュラー
● 方策評価
● 方策改善
MDP環境下では，Value Function
真の確率には

強化学習の種類
行動観測
報酬
(状態，状態遷移ルール )
エージェント
Black Box
↑目的関数を計算する方法で分類

強化学習の種類
大きく，2つの強化学習がある
● モデルベース強化学習
○ モデルを作って間接的に近似
● モデルフリー強化学習
○ モデル無しで直接的に近似
行動観測
報酬
(状態，状態遷移ルール )
エージェント
Black Box
↑目的関数を計算する方法で分類

行
動
観測
報酬
(状態，状態遷移ルール)
Black Box
行
動
観測
報酬
Black Box
?
?
行動決定器
MCTSなど
シミュレーション
モデルベース
学習：速
不確定度：明示的
可視化：◯
デバッグ：◯
事前知識：◯
転移学習：◯
※↑ シミュレータに依存
行動決定に時間がかかる
モデルフリー
学習：遅
不確定度：非明示的
可視化：✕
デバッグ：✕
事前知識：✕
転移学習：△
行動決定は高速
シミュレータ：パラメータ
パラメータ
行動決定器
（方策）

行
動
観測
報酬
Black Box
行
動
観測
報酬
Black Box
?
?
シミュレータ：パラメータ
パラメータ
行動決定器
（方策）
熟考
型
直感
型
行動決定器
MCTSなど
シミュレーション
モデルベース
学習：速
不確定度：明示的
可視化：◯
デバッグ：◯
事前知識：◯
転移学習：◯
※↑ シミュレータに依存
行動決定に時間がかかる
モデルフリー
学習：遅
不確定度：非明示的
可視化：✕
デバッグ：✕
事前知識：✕
転移学習：△
行動決定は高速

“Vanilla” Policy Gradient
Note: 確率的なサンプリングを含む目的関数の
勾配を取ると，よく出てくる
期待値の形に直す
軌道の確率を展開
微分すると，方策に関する項だけ残る
学習は遅い．これに色々理論的な工夫をして高速化

モデルベース・モデルフリー強化学習の例
モデルベース
● テーブル関数系（MDP）
○ R-max, Dyna
● カーネル系（MDP）
○ PILCO（Gaussian Process）
● 深層学習系
○ Embed to Control
○ 深層PILCO
● 最適強化学習
○ AIXI （理論的存在, Bayesian RL）
● 特殊な例:
○ Alpha Go (モデルが既知)
モデルフリー
● Markov 決定過程（MDP, 後述）を仮定
○ Q学習，遅延Q学習，SARSA
○ 初期の Actor-Critic
● 深層Q学習：Q学習 + DNN
○ DQN, double DQN, etc.
● 方策勾配法（Policy Gradient）
○ MDPを超えて強化学習を扱える
● その他
○ TRPO
● A3C：Actor-Critic + DNN + α
○ PGを大規模化し，発展させたもの
○ Asynchronous Advantage Actor Critic
モデルベース強化学習は現状，小規模な問
題に適用される例が多い
深層学習の登場によって，テレビゲームや
自動操縦のような複雑なタスクも適用可能
になってきた

モデルベース強化学習の適用例
https://www.youtube.com/watch?v=ov5COSPYync
A3C での自動運転学習 (モデルフリー)
https://www.youtube.com/watch?v=0xo1Ldx3L5Q
https://www.youtube.com/watch?v=ov5COS
PYync
https://www.youtube.com/watch?v=0xo1Ldx
3L5Q

使う時に注意すべきパラメータ
● 強化学習アルゴリズムにだいたいある重要なパラメータ
○ 減衰率パラメータ：γ
■ エージェントの最終的な頭の良さを決める．大きいと学習は遅い
○ 学習率パラメータ：α
■ 学習のはやさを決める．十分小さい必要がある
○ 探索パラメータ
■ エージェントがどれだけ積極的に冒険するかを決める
■ アルゴリズムによって性質が大きく異なる
● その他，深層強化学習をする時は深層学習のパラメータ設定が必要
○ モデルの大きさ
○ 特徴量抽出
○ 事前処理
○ etc. etc.

（前提なし）強化学習問題の注意・難しさ
● エージェントがアクセスできる情報に制約がある
○ 縛り付き機械学習というような考え方もとっつきにくい
■ ”エージェントと環境の相互作用 ”という考え方は機械学習ではあまりしない
● エージェントに流れ込んでくるデータは独立同時分布ではない
○ 系列データとも微妙に意味が異なる
○ 系列データは，各系列については独立
● 入ってくるデータは全てテストデータ（？）であるが，
しかし過去手に入れたデータ（訓練データ？）と独立ではない
● エージェントが自分で環境から情報を取ってこなければならない
○ 探索と利用のジレンマ（ Exploration-Exploitation）

（前提なし）強化学習問題の注意・難しさ
そこで，色々な仮定を入れて議論できるようにする

仮定
● タスク設定の仮定
○ Episodic Task：エピソードタスク
■ 終了条件が存在し，実験を打ち切る
■ 各軌道が独立となる
■ 特に重要なもの
● Multi-Armed Bandit Problem
○ Continual Task：継続タスク
■ 終了条件が存在しない

仮定：Markov決定過程
● Markov Decision Process: MDP
○ 強化学習を語る上で頻出する，環境に関する仮定
○ エージェントの観測は，環境の状態そのものであるという仮定
■ o = s,
■ 報酬は
○ 直感的には
■ 各ステップに与えられている情報だけから，次のステップを予測することができる
● 例）ダイナミクスがNewton力学 + ノイズで記述可能
○ 特性
■ 最適な方策が存在し，それと同等な方策が決定論的な関数↓の形でも表される
■ Q学習などの効率的な学習手法が導出できる
Torque

ロボットの強化学習
● ロボットの強化学習は難しい
○ 試行回数に限界がある（ロボットは壊れる）
○ 1つのロボットが収集できるデータには限界がある
■ 100万回も試行できない
○ 確立したロボティクスの分野に入り込む余地がない
■ SLAM, Planning, 確立した技術が成立している
○ ロボットの計算リソースは限られている

学習時，最初は壊れても良い
ロボットは大量生産される
品質は管理される
Levine, Sergey, et al. "Learning hand-eye coordination for robotic grasping with deep learning and large-scale
data collection." arXiv preprint arXiv:1603.02199 (2016).
https://www.youtube.com/wat
ch?v=iaF43Ze1oeI

SLAMはMLE・MAP・Bayes推定
Planningは状態（モデルパラメータ）が推
定されれば可能
強化学習で同時に解く試みもある
Mirowski, Piotr, et al.
"Learning to navigate in complex environments."
arXiv preprint arXiv:1611.03673 (2016).
https://www.youtube.com/watch?v
=JL8F82qUG-Q

SLAMはMLE・MAP・Bayes推定
クラウド・無線通信・小型 PC
巨大なネットワークで画像認識させながら
ロボットをリアルタイムで動かすくらいは可能
据え置きシステムなら計算リソースは無尽蔵
http://jabelone.com.au/blog/make-autonomous-car-code-included/
https://www.youtube.com/watch?v=tFwCyHdAWf
0

SLAMは最尤推定・Bayes推定
クラウド・無線通信・小型 PC
巨大なネットワークで画像認識させながら
ロボットをリアルタイムで動かすくらいは可能
据え置きシステムなら計算リソースは無尽蔵

最近のトレンド
● ソフトウェアフレームワークが公開されはじめた
（Open-AI Gym etc.）: モダンなものは Python のみ
● 共通のインターフェースで多様な問題を扱う
○ インターフェースを合わせることで，新たな問題が扱える
https://github.com/erlerobot/gym-gazebo
https://github.com/wbap/lis
https://universe.openai.com
https://deepmind.com/docum
ents/29/DeepMindLab.pdf
https://github.com/ugo-nama-k
un/gym_torcs

文献情報
● Reinforcement Learning State-of-the-Art
○ Wiering, Marco, van Otterlo, Martijn (Eds.), 2012
● Sutton & Barto 本 2.0
○ 近日発売予定？
○ https://webdocs.cs.ualberta.ca/~sutton/book/bookdraft2016sep.pdf
● これからの強化学習
○ 牧野貴樹, 澁谷長史, 白川真一 (著, 編集), 2016
● 強くなるロボティック・ゲームプレイヤーの作り方
○ 八谷大岳, 杉山将 (著), 2008 ← 再版された！
Yan Duan, Xi Chen, Rein Houthooft, John Schulman, Pieter Abbeel.
"Benchmarking Deep Reinforcement Learning for Continuous Control".
Proceedings of the 33rd International Conference on Machine Learning
(ICML), 2016.

ちいさな王子（星の王子様）より
もしきみがぼくのことをなつかせてくれれば，ぼくの暮らしはお日さまに照らされたように
なる．ほかの足音とはちがう足音を，ききわけられるようになるんだ．ほかの足音がした
ら，ぼくは穴のなかにもぐっちゃう．きみの足音が聞こえたら，まるで音楽が聞こえてきた
みたいに，穴から出ていくよ．
（略）あそこ，麦畑になってるでしょ？ぼくはパンなんか食べない．だから麦なんか役に立
たない．麦畑を見たって何も感じないんだ．さびしいことだよ！でも，きみは金色の髪色
をしてるね．だから，きみがぼくのことをなつかせてくれたら，とっても良いと思うんだ！
麦も金色だから，麦畑を見ればきみのことが思い出せるでしょ．それにぼく，麦畑に吹く
風の音がきっと好きになるよ・・・
特徴の選択
フィルタリング
後天的な学習学習の汎化・関数近似・情報の圧縮
（ちいさな王子 21節光文社古典新訳文庫より）特徴を選択する Drive : Reward
予測

Take Home Message
● 強化学習にアクセスするのはなかなか難しい
● 深層学習と，強化学習は全然別のこと
○ 強化学習は学習の「枠組み」
○ 深層学習はニューラルネットワークという「やり方」
● モデルベース強化学習とモデルフリー強化学習がある
○ それぞれに強さ・弱点がある
● ロボットの強化学習も，よく考えれば適用できそうな場面が増えてきた
○ よく考えなければ，難しい．まだまだ研究が必要．量産ロボットの可能性
● 近年のモデルベース強化学習をより詳しく知りたい方は
○ 「Model-based 強化学習とその周辺」
■ https://drive.google.com/drive/folders/0BzMTR9k7rE1_d2p0TG15Q0tvZzQ

強化学習@PyData.Tokyo

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 強化学習@PyData.Tokyo

Similar to 強化学習@PyData.Tokyo (20)

強化学習@PyData.Tokyo