SlideShare a Scribd company logo
1 of 17
Download to read offline
CNN-SLAM: Real-time
dense monocular SLAM with
learned depth prediction
2017/8/6
第41回 コンピュータビジョン勉強会@関東
CVPR2017読み会(前編)
@hasegawa_k35
読んだ論文
 CNN-SLAM: Real-time dense monocular SLAM with
learned depth prediction
 著者:K. Tateno(TUM / Canon), F. Tombari, I. Laina(TUM)
N. Navab(TUM / Johns Hopkins University)
 選んだ理由
 研究室で話題になっていた
 日経Roboticsで取り上げられていた
 SLAMにもCNNの波が来てしまった
概要
 CNNを使った単眼SLAM
 SLAM: Simultaneous Localization and Mapping
 Visual SLAM:画像を利用したSLAM
 既存研究
 LSD-SLAM[1]
 Kinect Fusion[2]
 ベースはCNNによるデプス推定[3]+LSD-SLAM
[1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM.”, ECCV 2014
[2] R. A. Newcombe, et. al.,“KinectFusion: Real-time dense surface mapping and tracking.”, ISMAR 2011
[3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016
長所 短所
CNNデプス推定
・絶対スケールがわかる
・回転にも強い
・密な距離画像が取れる
・エッジ部分などがなまる
LSD-SLAM
・エッジ部分の推定が得意 ・絶対スケールがわからない
・回転に弱い
・とにかく疎
コントリビューション
 絶対スケールの推定が可能
 カメラが回転しても対応できる
 デプスの推定精度が向上
 デプス情報を密に取れる
全体像
深度の推定
⇒ CNNを利用
カメラ姿勢推定と最適化
⇒ LSD-SLAMのフレームワークを応用
ポイント:キーフレームの構成要素推定
キーフレーム: 𝑡𝑖 = 𝑻 𝑡 𝑘
, 𝐷𝑡 𝑘
, 𝒰 𝑡 𝑘
𝑻 𝑡 𝑘
:カメラ姿勢
𝐷𝑡 𝑘
: デプスマップ
𝒰 𝑡 𝑘
:デプスの不確かさマップ
これらをどう求め、最適化/改善するか
⇒ この研究で行いたいこと
LSD-SLAM[1]
 キーフレームで準深度マップを取得することにより、単眼での
SLAMを実現する
[1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM.”, ECCV 2014
カメラ姿勢推定
𝑻 𝑡 𝑘
:カメラ姿勢を求める
⇒ 直近キーフレームと現フレームの輝度誤差が最小に
なるような変換行列𝑻 𝑡
𝑘 𝑖
を算出する
𝐸 𝑻 𝑡
𝑘 𝑖
=
𝑢∈Ω
𝜌
𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝜎 𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
= ℐ 𝑘 𝑖
𝑢 - ℐ𝑡 𝜋 𝑲𝑻 𝑡
𝑘 𝑖
𝒱𝑘 𝑖
𝑢
キーフレームの輝度値 現フレームの輝度値
求めた𝑻 𝑡
𝑘 𝑖
を使って、各フレームのカメラ位置姿勢を算出
デプス推定
𝐷𝑡 𝑘
: デプスマップを求める
⇒ Deeper Depth Prediction with Fully Convolutional
Residual Networks [3]
・・・ResNet-50のFC層をアップコンバート層に置き換えた
ネットワークを使って,RGB画像から距離を推定
[3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016
スケールの補正
学習時と推定時のカメラ(の内部パラメータ)が違うと
スケールがずれてしまう。
⇒ それぞれの焦点距離を利用して補正
𝒟 𝑘 𝑖
𝒖 =
𝑓𝑐𝑢𝑟
𝑓𝑡𝑟
𝒟
~
𝑘 𝑖
𝒖
𝒟
~
𝑘 𝑖
: CNNで推定された深度マップ
𝑓𝑐 𝑢𝑟 : 推定時のカメラの焦点距離
𝑓𝑡𝑟 : 学習時のカメラの焦点距離
𝒖 : 2次元座標
キーフレーム追加時のデプス推定改善
 直近キーフレーム𝑘𝑗と現キーフレーム𝑘𝑖のデプスマップ𝒟 𝑘 、
デプスの不確かさマップ𝒰 𝑘 を融合する
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑘 𝑗
𝒗 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑖
(𝒖) ∙ 𝒟 𝑘 𝑗
𝒗
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑗
𝒗
𝒰 𝑘 𝑖
𝒖 =
𝒰 𝑘 𝑗
𝒗 ∙ 𝒰 𝑘 𝑖
(𝒖)
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑗
𝒗
キーフレームの情報が
伝播されていく
𝒰 𝑘 𝑗
𝒗 =
𝒟 𝑘 𝑗
𝒗
𝒟 𝑘 𝑖
𝒖
𝒰 𝑘 𝑗
𝒗 + 𝜎 𝑝
2
不確かさマップの定義:𝒰 𝑘 𝑖
(𝒖) = (𝒟 𝑘 𝑖
𝒖 − 𝒟 𝑘 𝑗
𝒗 )2 𝒖 : 𝑘𝑖の2次元座標
𝒗 : 射影された𝑘𝑗での2次元座標
下式で伝播マップ 𝒰 𝑘 𝑗
を作成、融合する
𝜎 𝑝
2 : ホワイトノイズ(の分散)
デプスの継続的な補正
 前ページと同じ要領で、直近キーフレームと現フレームの
デプスマップ𝒟 𝑘 、デプスの不確かさマップ𝒰 𝑘 を融合して、
キーフレームのデプスマップを補正
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑡 𝒖 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑖
(𝒖) ∙ 𝒟𝑡 𝒗
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑡 𝒖
𝒰 𝑘 𝑖
𝒖 =
𝒰 𝑡 𝒖 ∙ 𝒰 𝑘 𝑖
(𝒖)
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑡 𝒖
輝度勾配が高い領域ほど不確かさが小さくなる = 補正されやすい
⇒ CNNでのデプス推定の弱点を補える
キーフレーム以外のデプスは[4]で求める
[4] J. Engel, J. Sturm, and D. Cremers, “Semi-dense visual odometry for a monocular camera.”, ICCV 2013
補正結果
評価実験
 3つの実験を実施
 SLAMの精度評価
 カメラが回転した際の3次元復元
 復元結果を利用した領域分割
 実施環境
 CPU:Xeon 2.4GHz
 GPU:Quadro K5200 (メモリ8GB)
 メモリ:16GB
 CNNはGPU、残りの処理はCPUで実行(リアルタイム)
精度
 ICL-NUIM dataset[5] とTUM RGB-D SLAM dataset[6]を使用
[5] A. Handa, T. Whelan, J. McDonald, and A. Davison, “A benchmark for RGB-D visual odometry, 3D reconstruction and SLAM.”, ICRA 2014
[6] J. Sturm, N. Engelhard, F. Endres, W. Burgard, and D. Cremers. “A benchmark for the evaluation of RGB-D SLAMsystems.”, IROS 2012
耐回転
領域分割
領域ラベルを予測するためのネットワーク[7]を追加
[7] K. Tateno, F. Tombari, and N. Navab, “Real-time and scalable incremental segmentation on dense slam. ”, IROS 2015
まとめ
 CNNを用いて、従来の単眼SLAMの課題であった
絶対スケールの推定、テクスチャレス領域のデプス推定、
回転への対応を解決した。
 3次元モデルでの領域分割にも活用できることを確認

More Related Content

What's hot

SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
第8回関西CV・PRML勉強会(Meanshift)
第8回関西CV・PRML勉強会(Meanshift)第8回関西CV・PRML勉強会(Meanshift)
第8回関西CV・PRML勉強会(Meanshift)Yutaka Yamada
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Surveytmtm otm
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法Takao Yamanaka
 
確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーションKenta Tanaka
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain RandomizationDeep Learning JP
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...Deep Learning JP
 

What's hot (20)

SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
Structure from Motion
Structure from MotionStructure from Motion
Structure from Motion
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
第8回関西CV・PRML勉強会(Meanshift)
第8回関西CV・PRML勉強会(Meanshift)第8回関西CV・PRML勉強会(Meanshift)
第8回関西CV・PRML勉強会(Meanshift)
 
Point net
Point netPoint net
Point net
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法
 
確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 

Similar to 第41回関東CV勉強会 CNN-SLAM

GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説Masaya Kaneko
 
論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)Masaya Kaneko
 
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
Robust Vehicle Localization in Urban Environments Using Probabilistic MapsRobust Vehicle Localization in Urban Environments Using Probabilistic Maps
Robust Vehicle Localization in Urban Environments Using Probabilistic MapsKitsukawa Yuki
 
方向統計DNNに基づく振幅スペクトログラムからの位相復元
方向統計DNNに基づく振幅スペクトログラムからの位相復元方向統計DNNに基づく振幅スペクトログラムからの位相復元
方向統計DNNに基づく振幅スペクトログラムからの位相復元Shinnosuke Takamichi
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習Masayuki Tanaka
 
20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcameraKyohei Unno
 
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介Tsukasa Takagi
 
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAMLSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAMEndoYuuki
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れKazuki Motohashi
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image AnalysisYuki Shimada
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1hirokazutanaka
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況cvpaper. challenge
 

Similar to 第41回関東CV勉強会 CNN-SLAM (12)

GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
 
論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)
 
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
Robust Vehicle Localization in Urban Environments Using Probabilistic MapsRobust Vehicle Localization in Urban Environments Using Probabilistic Maps
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
 
方向統計DNNに基づく振幅スペクトログラムからの位相復元
方向統計DNNに基づく振幅スペクトログラムからの位相復元方向統計DNNに基づく振幅スペクトログラムからの位相復元
方向統計DNNに基づく振幅スペクトログラムからの位相復元
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
 
20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera
 
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
 
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAMLSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAM
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 

第41回関東CV勉強会 CNN-SLAM