6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
探索の効率化について
■ 探索の困難
⁃ 学習に有効なサンプルを活⽤したいが、サンプルを得るためには
膨⼤な状態⾏動空間を訪問する必要がある(探索と活⽤のトレードオフ)
⁃ そもそもスパースな報酬にたどり着きにくい
■ 関連する話題(⼀部)
⁃ Intrinsic Motivation※1
• これまでに訪問したことのない状態になるべく訪問する
⁃ Hierarchy※2
• 中間ゴールを設定することで探索空間を縮減
⁃ カリキュラム学習※3
• 徐々にタスク難易度を上げることで⾼度な⾏動系列を獲得
⁃ And More…
※1: e.g. M. G. Bellemare, et al., Unifying count-based exploration and intrinsic motivation. In NIPS, pp. 1471–1479, 2016.
D. Pathak, et al., Curiosity-driven exploration by self-supervised prediction. In ICML, 2017.,
H. Tang et al., #exploration: A study of count-based exploration for deep reinforcement learning. In NIPS, 2017.
※2: 『 NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α 』(甲野祐)
https://www.slideshare.net/yukono1/nips2017pfn-hierarchical-reinforcement-learning
※3: e.g. Y. Bengio et al., Curriculum learning. In ICML, pp. 41–48, 2009.
M. P. Kumar et al., Self-paced learning for latent variable models. In NIPS. 2010.
7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
本論⽂に関連する最近の話題
■ Universal Value Function Approximators (UVFA)※1
⁃ (学習対象の)状態価値関数※2に(固定された)ゴール状態を⼊れて拡張
⁃ 状態とゴールを分離することで、下位⽅策が獲得されやすくなる
■ Hindsight Experience Replay (HER)※3
⁃ UVFA のようにゴールを決めて学習を⾏う
⁃ 実際にゴールに到達しなかった場合は「その終端状態がゴールだった」と
思い込ませて学習に取り⼊れる(暗黙的なカリキュラム学習)
• イメージ:100点を⽬指していたが90点で終わった
⇒とはいえ頑張ったので、この経験も成功体験と誤認させて学習に利⽤
⁃ スパースな報酬のタスクにおいて有効なことが⽰された
※1: T. Schaul., et al., Universal value function approximators. In ICML, pp. 1312–1320, 2016.
※2: ある⽅策 π のもと、状態 s で⾏動 a を選択した時に得られる期待報酬。ここでθは近似関数のパラメータを表す。
※3: M. Andrychowicz., et al., Hindsight Experience Replay. In NIPS, 2017.
⼀般的な状態⾏動価値関数
拡張された状態⾏動価値関数
(最初からゴール状態を定義して学習を⾏う)