13. 行動予測
人の行動軌跡から、「人の好む経路」を
学習
✔ 行き先を指定して、「どの経路を通る
か」を推定できる
✔ 芝生、歩道 … などの属性の価値を
推定しているので、別シーンへの適用
も可能
Kris Kitani, Brian D. Ziebart, J. Andrew Bagnell, and Martial
Hebert, "Activity Forecasting," European Conference on
Computer Vision (ECCV), October, 2012.
13
16. 論文概要
タイトル: Maximum Entropy Deep Inverse Reinforcement Learning
著者: Markus Wulfmeier, Peter Ondruska, Ingmar Posner
✔ IRL の1手法である Maximum Entropy IRL を拡張
✔ ニューラルネットを用い、複雑で非線形な報酬関数を近似
✔ 簡単な実験で現時点で State of Art な手法(GPIRL)と同等以上の精度が、
高速に得られた
16