13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
0. DQN以前: Neural Fitted Q Iteration
Riedmiller, Martin.
“Neural fitted Q iteration–first experiences with a data efficient neural reinforcement learning method”.
In: European Conference on Machine Learning. Springer, Berlin, Heidelberg, 2005. p. 317-328.
https://link.springer.com/chapter/10.1007/11564096_32
14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DQN以前:MLPを使った関数近似の課題
■ Q関数をニューラルネットワーク(MLP※1)で近似する試みがあった
⁃ ⾮線形なので、複雑な価値表現も獲得できる
⁃ 広⼤な状態空間に対しても使える
■ ⼀⽅、ニューラルネットを使った近似は様々な課題が指摘されていた※2
⁃ ある特定の (s,a) でQ関数を更新すると、重み全体が変わってしまうため、
別の(s,a)対の価値評価にも影響してしまう
⁃ 結果、個別の(s,a)に対してオンラインで訓練しても学習が安定しない
※1: 多層パーセプトロン(multi-layer perceptron)
※2: Boyan, Justin A., and Andrew W. Moore."Generalization in reinforcement learning: Safely approximating the value function.”
Advances in neural information processing systems. 1995.
http://papers.nips.cc/paper/1018-generalization-in-reinforcement-learning-safely-approximating-the-value-function.pdf
15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
MLPを使って学習を安定化させるための⼯夫
■ あるデータ点を更新する度に過去の経験も⼀緒に活⽤する
⁃ Experience Replay technique※1を参考
■ オンラインではなくオフラインでバッチ学習する
⁃ Fitted Q Iteration※2を参考
※1: Lin, Long-Ji. "Self-improving reactive agents based on reinforcement learning, planning and teaching."
Machine learning 8.3-4 (1992): 293-321.
※2: Ernst, Damien, Pierre Geurts, and Louis Wehenkel. "Tree-based batch mode reinforcement learning.”
Journal of Machine Learning Research 6.Apr (2005): 503-556.
Neural Fitted Q Iteration
16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Neural Fitted Q Iteration
1. 事前に様々な状態・⾏動・報酬を獲得し、⼤量の学習データを⽣成
2. MLPを構成し1. の⽣成データでバッチ学習
←学習データ⽣成
←s, u, c※1 から targetを作成
←inputは s, u (=a)
←⽣成した学習データでバッチ学習
※1 この問題設定では期待報酬rの最⼤化ではなく期待コストcの最⼩化を解いている点に注意
※ Riedmiller 2005より
17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Neural Fitted Q Iteration(実験)
■ 以下3タスクで実験を⾏い、学習が出来ていることを確認
1. The Pole Balancing (avoidance control task)
2. The Mountain Car (reaching a goal)
3. Cart-pole Regulator (regulator problem)
■ 評価⽅法
⁃ 初期状態をランダム変えながら、初めてterminal stateに到着した
学習エピソード数で評価※(⼩さいほどいい)
■ 学習上の⼯夫
⁃ 時間ステップごとに⼩さいコスト ctransを与え続けることで、
なるべく早くゴールを志向するようにする
⁃ ゴール付近の成功サンプルを意図的に増やすことで学習を効率化
(hint-to-goal-heuristic)
※ Pole Balancingのみ、300sec中どれだけ⻑くpoleを落とさなかったか、で評価
※ この論⽂では、各時間ステップの単位を”cycle”と呼んでいる
18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
実験例:The Mountain Car
■ ⾞をタイミングよく加速させゴールまで登らせるタスク
⁃ 状態は⾞の座標、⾏動は0.05sec毎に加速量 [-4, 4]の2種類
⁃ ⼊⼒は state 2次元 / action 1次元、出⼒はQ値
⁃ 隠れ層2層のMLP、活性化関数はsigmoid
⁃ 学習に使う各trajectoryの最⼤⻑は50cycles (≒2.5 sec)
※ 左図出典: M Alzantot., “Deep Reinforcement Learning Demysitifed (Episode 2) ̶ Policy Iteration, Value Iteration and Q-learning”
https://medium.com/@m.alzantot/deep-reinforcement-learning-demysitifed-episode-2-policy-iteration-value-iteration-and-q-978f9e89ddaa
Accessed: 2018-01-31 12:00
※ 右図はRiedmiller 2005より
Episode終了
(成功)
Episode終了
(失敗)
19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
1. DQNの登場: Deep Q Network
Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning."
Nature 518.7540 (2015): 529.
Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning."
arXiv preprint arXiv:1312.5602 (2013).
←Nature版DQN (本発表)
←初期DQN
87. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
この論⽂で扱えなかった関連話題
■ Value-basedなQ-learning familyのみを扱ったが、
TRPOのようなPolicy-basedな問題系での改良は扱っていない
■ Multi-stepも単純な前⽅観測アルゴリズム以外の⼿法を使えるかも
⁃ Optimality tightening※1、Eligibility traces、…
⁃ ⼀⽅で、時系列⾏動の扱いは⼀般に計算リソースを使いがちな上、
経験の保存・優先利⽤をどのように⾏うか問題になりやすい
■ Episodic Control※2のような認知科学的妥当性のあるデータ活⽤⽅法
■ NoisyNet以外にも、様々な探索⽅法がある
⁃ Bootstraped DQN※3、intrinsic motivation※4、
count-based exploration※5、…
※1 He, Frank S., et al. "Learning to play in a day: Faster deep reinforcement learning by optimality tightening."
arXiv preprint arXiv:1611.01606 (2016).
※2 Blundell, Charles, et al. "Model-free episodic control." arXiv preprint arXiv:1606.04460 (2016).
※3 Osband, Ian, et al. "Deep exploration via bootstrapped DQN." Advances in neural information processing systems. 2016.
※4 Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation."
Advances in neural information processing systems. 2016.
※5 Bellemare, Marc, et al. "Unifying count-based exploration and intrinsic motivation."
Advances in Neural Information Processing Systems. 2016.
88. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
この論⽂で扱えなかった関連話題
■ 分散学習
⁃ A3C※1、Gorila※2、Evolution Strategies※3
■ 階層型強化学習
⁃ h-DQN※4、Feudal Networks※5
■ 状態表現の効率化
⁃ feature control※6、supervised predictions※7、successor features※8
■ …
※1 Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016.
※2 Nair, Arun, et al. "Massively parallel methods for deep reinforcement learning." arXiv preprint arXiv:1507.04296 (2015).
※3 Salimans, Tim, et al. "Evolution strategies as a scalable alternative to reinforcement learning." arXiv preprint arXiv:1703.03864 (2017).
※4 Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation."
Advances in neural information processing systems. 2016.
※5 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017).
※6 Jaderberg, Max, et al. "Reinforcement learning with unsupervised auxiliary tasks." arXiv preprint arXiv:1611.05397(2016).
※7 Dosovitskiy, Alexey, and Vladlen Koltun. "Learning to act by predicting the future." arXiv preprint arXiv:1611.01779 (2016).
※8 Kulkarni, Tejas D., et al. "Deep successor reinforcement learning." arXiv preprint arXiv:1606.02396 (2016).