Where am I looking at? Joint Location and Orientation Estimation byCross-View Matching

Where am I looking at? Joint Location
and Orientation Estimation by
Cross-View Matching
Yujiao Shi*1*2 Xin Yu*1*2*3 Dylan Campbell*1*2
Hongdong Li*1*2
*1 Australian National University *2 Australian Centre for
Robotic Vision *3 University of Technology Sydney
12020/09/22 平間友大

論文概要
目的
・地上で撮影された画像を用いて,航空画像の特徴と一致する場所を特定す
るクロスビュー検索を行った（CVPR2020採択論文）
手法
・航空画像と地上画像から,地上の撮影された方位角を推定するDSM手法を
提案し,マッチングの精度改善を行う
結果
・位置再現率でSOTA達成.視野の低い画像においても精度が向上した
論文URL
https://openaccess.thecvf.com/content_CVPR_2020/papers/S
hi_Where_Am_I_Looking_At_Joint_Location_and_Orientation
_Estimation_CVPR_2020_paper.pdf
コード
https://github.com/shiyujiao/cross_view_localization_DSM
2

クロスビュー検索 3
航空画像データベースを用いて,地上の画像とのマッチングを行い,緯度・経度を推
定する検索問題
極座標変換

課題 4
・オブジェクトの外観と投影位置によって、特徴のギャップが大きくなる
・北（上）方向が不明な場合、ローカライズのあいまいさが生じ、検索量が増加する
・標準カメラの場合,視野（FoV）が制限されるため,局所的な情報しか持たない.
→複数の航空データベース画像と一致する可能性があるため、識別性が低下する。

従来研究
課題
・方角が不明な場合,全探索で計算量大
・方角が少しでも異なると,画像の特徴も大きく変わるため
航空画像とのマッチングが難しい
・方角はラベルにあるが,実際はそんなの得られるとは限らない
↓
地上画像の方角を知ることで,地上画像と航空写真の誤ったマッチングを軽
減できることが想定される
限られたFOV（視野）でも効果大
そこで,動的類似性マッチングネットワーク（DSM）を提案した
5

6提案手法の概要
提案手法の流れ
動的類似性マッチング（DSM）モジュール
クエリの地上画像の位置と方向を推定し
地上画像の向きを考慮しながら画像ペアの特徴の
類似性を測定する

Two-Stream CNN 7
Simonyan, Karen, and Andrew Zisserman. "Two-stream
convolutional networks for action recognition in videos."
Advances in neural information processing systems. 2014.
動作認識において,時系列にならんだ画像と,オプティカルフローを組み合わせて学習するモデル
関連する2つの入力の特徴を同時に学習することで,精度向上することが知られている.
↓
本論文では,地上画像と航空画像の対応を学習することを狙っている

極座標変換 8
S 𝑎 × S 𝑎: 航空画像サイズ
𝐻𝑔 × 𝑊𝑔 : 極座標変換サイズ

9DSM
動的類似性マッチング（DSM）
・地面の特徴をスライディングウィンドウとして使用
し、地面と航空画像の特徴間の内積を計算する
→極座標変換を行うことで,水平方向が方向角を示して
いる
𝐹𝑔：地上画像の特徴量
𝐹𝑎` & 𝐹𝑎∗`：地上画像に一致した特徴量と一致しない特徴量
𝐻 & 𝐶：高さとチャンネル数
𝑊𝑎&𝑊𝑔：航空画像と地上画像の横幅

損失関数 10
𝐹𝑔：地上画像の特徴量
𝐹𝑎` & 𝐹𝑎∗`：地上画像に一致した特徴量と一致しない特徴量
𝛼：学習率パラメータ.本論文では10に設定
フロベニウスノルム：行列の
大きさを表す

実験設定 11
クロスビューデータセット
・CVUSA
・CVACT
学習データ地上・航空画像のペアが35,532
検証データ 8,884
・CVACT_test
テストデータ：92,802
地上画像はすべてパノラマであり,
画像の中心が北を示している.
航空画像は上方向が北を示す
方向が不明でFoVが制限された地面画像の実験
・CVUSAとCVACTで地上の画像を方位角方向に沿ってランダムに回転させ、設定したFoVに従っ
てそれらをトリミングする
モデル：Imagenetで学習済みのVGG16
最適化手法： Adam 学習率10−5
バッチサイズ： 32

実験結果 12
データセット CVUSA
類似度が高い順にtopk accuracyを用いた従来手法との比較
（方向角がわかっている場合）

実験結果 13
類似度が高い順にtopk accuracyを用いた従来手法との比較

実験結果 14
FoVを制限し,方向角をランダムに変化させた場合

実験結果 15
極座標変換された航空画像
の特徴量の可視化
地上画像の方位角の推定
地上画像航空画像

まとめ 17
・地上画像の方位角を推定し,クロスビュー検索に利用したDynamic
Similarity Matching （DSM）を提案
・一般的なカメラを想定したFOVの小さい画像に対しても適用可能
・方位角が不明な場合にも対応
・Two-Stream CNNとDSMを用いることで,SOTAを達成
個人的な考察
・現状は道路や少ないオブジェクトがある地域の地上画像に対して
のみであり,碁盤の目のように設計された都市部データセットへの応
用は難しそう

Where am I looking at? Joint Location and Orientation Estimation byCross-View Matching

Recommended

Recommended

More Related Content

More from harmonylab

More from harmonylab (20)