[DL輪読会]Learning to Navigate in Cities Without a Map

DEEP LEARNING JP
[DL Papers]
”Learning to Navigate in Cities Without Maps” (arXiv)
Yusuke Iwasawa, Matsuo Lab
http://deeplearning.jp/

書誌情報
• ArXiv 2018/3/31
• Deep Mind
• 概要
– ナビゲーションを行うDL＋強化学習ベースの手法を提案
– 現実的で大規模なデータセットで性能を評価
– 複数の都市間での転移を可能にするアーキテクチャを提案
• 選定理由：
– 環境のモデル、大事（地図なしでナビゲーションするためには環境のモデルを内部で
もつ必要がある）
– 日経ロボティックスに以前記事が出ていて興味を持っていた
– 凄そう
• 概要動画：https://sites.google.com/view/streetlearn 2

本研究で扱う問題設定
• 目的：ランダムなスタート地点から目的地へ到達
– ゴールは見たことある設定/見たことない設定の双方で検証あり
•
入力：Google Street Viewの画像とゴール位置
– 60 °をクロップ、RGB、84×84ピクセル
• 行動：5つの行動
– Slow Rotate left or right: 22.5°
– Fast Rotate left or right: 67.5°
– Move fowrard: ただし、前に進めない場合はnoop
3

貢献1：現実的なデータセット
4
[Mirowski et al., 2016]
[Mirowski etal., 2016] “Learning to Navigate in Complex Environments”, ICLR2017
[Zhu et al., 2017] “Target driven visual navigation in indoor scenes using deep reinforcement learning”, IROS2017
[Zhu et al., 2017]
This Work

貢献2：強化学習ベース
5
[Brahmbhatt et al., 2017] This Work
[Brahmbhatt et al., 2017] “DeepNav: Learning to Navigate Large Cities”, CVPR2017

貢献3：Without Explicit Maps
6
[Parisotto et al., 2018] This Work
[Parisotto et al., 2018] “Neural Map: Structured Memory For Deep Reinforcement Learning”, ICLR2018

貢献4：都市間での転移
7
場所不変なモジュールと、場所特化のモジュールを分離

モデルの工夫
8
貢献モデルの工夫
現実的なデータ Convを利用
強化学習ベース Auxiliary Taskを利用
Without Explicit Maps RNN (LSTM)に頑張らせる
都市間の転移場所依存の機能を分離
※基本はA3Cベース（IMPLA [Espeholt et al., 2018])
Conv
RNN
RNN
Xt at-1, rt-1gt
θt
π V
[Espeholt et al., 2018] “IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures”, arXiv

Appendix: IMPLA [Espeholt et al., 2018]
9

モデルの工夫
10
Conv
RNN
RNN
Xt at-1, rt-1gt
θt
π V
※ 全体はA3Cベース

モデルの工夫
11
Conv
RNN
RNN
Xt at-1, rt-1gt
θt
π V
より詳細には、2層の畳み込み＋1層の全結合、
ReLU Activations（[Minh et al, 2016]と同じ）

モデルの工夫
12
Conv
RNN
RNN
Xt at-1, rt-1gt
π V
θt
より詳細には、エージェントが向いている
向きの予測（北が0°）

モデルの工夫
13
Conv
LSTM
LSTM
Xt at-1, rt-1gt
π V
θt
別れている理由は後述

モデルの工夫
14
Conv
LSTM
LSTM
Xt at-1, rt-1gt
π V
θt
Gaol LSTM：場所依存、256 (LSTM)-64 (FC)、Tanh、Dropout (p=0.5)
Policy LSTM：場所非依存、256 (LSTM)

その他の工夫
15
Goal Representations Curriculum Learning Reward Shaping
• ランドマークからのの距離
• 利点スケーラブル
• 緯度経度、Binを予想と比較
• 精度は同程度
• 学習時の初期位置のゴール
からの距離の最大値を徐々
に大きくする
• 500mから開始
• グラフ全てをカバーする
まで徐々に大きく
• NY：3.5km
• London：5.0km
• Manhattanx：5.0km
• 200ｍ以内に入ったときに距
離に応じた報酬
• デフォルトはオフ（と書いて
あったような気がする）
ゴールからの距離

学習の詳細
• エントロピー正則化付き、RMSprop
– 学習率は0.001
– アニーリング（詳細はAppendix C.1）
• IMPALA [Espeholt et al., 2018]
– A3Cと同程度の性能
– CityNav: 256 actors, バッチサイズ=256
– MultiCityNav: 512 actors , バッチサイズ=512
– 系列長は50
16

Experiments
1. GoalNav vs. CityNav
2. Generalization for Unseen Goal
3. Transferability
4. Ablation Study
17

GaolNav vs. CityNav
1. Oracleは最短経路
2. Heuristicはランダム
3. CityNavの方が安定かつ精度良い
4. Skipありが単一都市では良い
3. Transferability
4. Ablation Study
18
New York
London

Generalization for Unseen Goal
1. 25%の区画を訓練時ゴールに指定しない（上
図黒部分）
Coarse: 1km×1km, Medium: 0.5km×0.5km,
Fine: 0.25km×0.25km
2. 大きく削ると精度劣化
3. ゴールまで半分の位置への
到達は変化少ない (T1/2)
3. Transferability
4. Ablation Study 19

Transferability
3. Transferability
– TargetはWall Street、
訓練はそれ以外の3~5区画
– (a) Target Only, (b) Jointly All,
(c) Transfer (Train w/o target -> target))
1. cは学習都市増やすと精度上がる
2. 5区画使った場合はbとcがcomparable
（と主張しているが…？）
3. 転移する時はSkipしないほうが精度高
(Policy LSTMの入力がそろうから）
4. Ablation Study
20

4. Ablation Study
21
Reward Shaping Goal Representations Network構造 + 補助タスク
• 距離によるShapingは効く
• 特に400mくらいから
• 200mだとカリキュラム
無しは上手く行ってない
• ランダムを入れるのも試した
が邪魔
• 緯度経度やBinの方が制度
は良い（が絶対座標必要）
• ランドマークは数減らしても
そんなに精度落ちない
• 補助タスクはほぼ必須
• 構造についてはよく読んで
ない

Appendix: City-LSTMのデコード
22

“Leaning to Navigate in Cities Without a Map”, arXiv
• 余裕あったら
23
Piotr Mirowski, Matthew Koichi Grimes, Mateusz Malinowski, Karl Moritz Hermann, Keith Anderson, Denis
Teplyashin, Karen Simonyan, Koray Kavukcuoglu, Andrew Zisserman, Raia Hadsell (DeepMind)

[DL輪読会]Learning to Navigate in Cities Without a Map

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]Learning to Navigate in Cities Without a Map

Similar to [DL輪読会]Learning to Navigate in Cities Without a Map (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (11)

[DL輪読会]Learning to Navigate in Cities Without a Map