SlideShare a Scribd company logo
1 of 17
Where am I looking at? Joint Location
and Orientation Estimation by
Cross-View Matching
Yujiao Shi*1*2 Xin Yu*1*2*3 Dylan Campbell*1*2
Hongdong Li*1*2
*1 Australian National University *2 Australian Centre for
Robotic Vision *3 University of Technology Sydney
12020/09/22 平間 友大
論文概要
目的
・地上で撮影された画像を用いて,航空画像の特徴と一致する場所を特定す
るクロスビュー検索を行った(CVPR2020採択論文)
手法
・航空画像と地上画像から,地上の撮影された方位角を推定するDSM手法を
提案し,マッチングの精度改善を行う
結果
・位置再現率でSOTA達成.視野の低い画像においても精度が向上した
論文URL
https://openaccess.thecvf.com/content_CVPR_2020/papers/S
hi_Where_Am_I_Looking_At_Joint_Location_and_Orientation
_Estimation_CVPR_2020_paper.pdf
コード
https://github.com/shiyujiao/cross_view_localization_DSM
2
クロスビュー検索 3
航空画像データベースを用いて,地上の画像とのマッチングを行い,緯度・経度を推
定する検索問題
極座標変換
課題 4
・オブジェクトの外観と投影位置によって、特徴のギャップが大きくなる
・北(上)方向が不明な場合、ローカライズのあいまいさが生じ、検索量が増加する
・標準カメラの場合,視野(FoV)が制限されるため,局所的な情報しか持たない.
→複数の航空データベース画像と一致する可能性があるため、識別性が低下する。
従来研究
課題
・方角が不明な場合,全探索で計算量大
・方角が少しでも異なると,画像の特徴も大きく変わるため
航空画像とのマッチングが難しい
・方角はラベルにあるが,実際はそんなの得られるとは限らない
↓
地上画像の方角を知ることで,地上画像と航空写真の誤ったマッチングを軽
減できることが想定される
限られたFOV(視野)でも効果大
そこで,動的類似性マッチングネットワーク(DSM)を提案した
5
6提案手法の概要
提案手法の流れ
動的類似性マッチング(DSM)モジュール
クエリの地上画像の位置と方向を推定し
地上画像の向きを考慮しながら画像ペアの特徴の
類似性を測定する
Two-Stream CNN 7
Simonyan, Karen, and Andrew Zisserman. "Two-stream
convolutional networks for action recognition in videos."
Advances in neural information processing systems. 2014.
動作認識において,時系列にならんだ画像と,オプティカルフローを組み合わせて学習するモデル
関連する2つの入力の特徴を同時に学習することで,精度向上することが知られている.
↓
本論文では,地上画像と航空画像の対応を学習することを狙っている
極座標変換 8
S 𝑎 × S 𝑎: 航空画像サイズ
𝐻𝑔 × 𝑊𝑔 : 極座標変換サイズ
9DSM
動的類似性マッチング(DSM)
・地面の特徴をスライディングウィンドウとして使用
し、地面と航空画像の特徴間の内積を計算する
→極座標変換を行うことで,水平方向が方向角を示して
いる
𝐹𝑔:地上画像の特徴量
𝐹𝑎` & 𝐹𝑎∗`:地上画像に一致した特徴量と一致しない特徴量
𝐻 & 𝐶:高さとチャンネル数
𝑊𝑎&𝑊𝑔:航空画像と地上画像の横幅
損失関数 10
𝐹𝑔:地上画像の特徴量
𝐹𝑎` & 𝐹𝑎∗`:地上画像に一致した特徴量と一致しない特徴量
𝛼:学習率パラメータ.本論文では10に設定
フロベニウスノルム:行列の
大きさを表す
実験設定 11
クロスビューデータセット
・CVUSA
・CVACT
学習データ 地上・航空画像のペアが35,532
検証データ 8,884
・CVACT_test
テストデータ:92,802
地上画像はすべてパノラマであり,
画像の中心が北を示している.
航空画像は上方向が北を示す
方向が不明でFoVが制限された地面画像の実験
・CVUSAとCVACTで地上の画像を方位角方向に沿ってランダムに回転させ、設定したFoVに従っ
てそれらをトリミングする
モデル:Imagenetで学習済みのVGG16
最適化手法: Adam 学習率10−5
バッチサイズ: 32
実験結果 12
データセット CVUSA
類似度が高い順にtopk accuracyを用いた従来手法との比較
(方向角がわかっている場合)
実験結果 13
類似度が高い順にtopk accuracyを用いた従来手法との比較
実験結果 14
FoVを制限し,方向角をランダムに変化させた場合
実験結果 15
極座標変換された航空画像
の特徴量の可視化
地上画像の方位角の推定
地上画像航空画像
実験結果 16
まとめ 17
・地上画像の方位角を推定し,クロスビュー検索に利用したDynamic
Similarity Matching (DSM)を提案
・一般的なカメラを想定したFOVの小さい画像に対しても適用可能
・方位角が不明な場合にも対応
・Two-Stream CNNとDSMを用いることで,SOTAを達成
個人的な考察
・現状は道路や少ないオブジェクトがある地域の地上画像に対して
のみであり,碁盤の目のように設計された都市部データセットへの応
用は難しそう

More Related Content

More from harmonylab

DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identificationharmonylab
 

More from harmonylab (20)

DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 

Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching