第41回関東CV勉強会 CNN-SLAM

CNN-SLAM: Real-time
dense monocular SLAM with
learned depth prediction
2017/8/6
第41回コンピュータビジョン勉強会＠関東
CVPR2017読み会(前編)
@hasegawa_k35

読んだ論文
 CNN-SLAM: Real-time dense monocular SLAM with
learned depth prediction
 著者：K. Tateno(TUM / Canon), F. Tombari, I. Laina(TUM)
N. Navab(TUM / Johns Hopkins University)
 選んだ理由
 研究室で話題になっていた
 日経Roboticsで取り上げられていた
 SLAMにもCNNの波が来てしまった

概要
 CNNを使った単眼SLAM
 SLAM: Simultaneous Localization and Mapping
 Visual SLAM：画像を利用したSLAM
 既存研究
 LSD-SLAM[1]
 Kinect Fusion[2]
 ベースはCNNによるデプス推定[3]＋LSD-SLAM
[1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM.”, ECCV 2014
[2] R. A. Newcombe, et. al.,“KinectFusion: Real-time dense surface mapping and tracking.”, ISMAR 2011
[3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016
長所短所
CNNデプス推定
・絶対スケールがわかる
・回転にも強い
・密な距離画像が取れる
・エッジ部分などがなまる
LSD-SLAM
・エッジ部分の推定が得意・絶対スケールがわからない
・回転に弱い
・とにかく疎

コントリビューション
 絶対スケールの推定が可能
 カメラが回転しても対応できる
 デプスの推定精度が向上
 デプス情報を密に取れる

全体像
深度の推定
⇒ CNNを利用
カメラ姿勢推定と最適化
⇒ LSD-SLAMのフレームワークを応用
ポイント：キーフレームの構成要素推定
キーフレーム: 𝑡𝑖 = 𝑻 𝑡 𝑘
, 𝐷𝑡 𝑘
, 𝒰 𝑡 𝑘
𝑻 𝑡 𝑘
：カメラ姿勢
𝐷𝑡 𝑘
: デプスマップ
𝒰 𝑡 𝑘
：デプスの不確かさマップ
これらをどう求め、最適化/改善するか
⇒ この研究で行いたいこと

LSD-SLAM[1]
 キーフレームで準深度マップを取得することにより、単眼での
SLAMを実現する
[1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM.”, ECCV 2014

カメラ姿勢推定
𝑻 𝑡 𝑘
：カメラ姿勢を求める
⇒ 直近キーフレームと現フレームの輝度誤差が最小に
なるような変換行列𝑻 𝑡
𝑘 𝑖
を算出する
𝐸 𝑻 𝑡
𝑘 𝑖
=
𝑢∈Ω
𝜌
𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝜎 𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
= ℐ 𝑘 𝑖
𝑢 － ℐ𝑡 𝜋 𝑲𝑻 𝑡
𝑘 𝑖
𝒱𝑘 𝑖
𝑢
キーフレームの輝度値現フレームの輝度値
求めた𝑻 𝑡
𝑘 𝑖
を使って、各フレームのカメラ位置姿勢を算出

デプス推定
𝐷𝑡 𝑘
: デプスマップを求める
⇒ Deeper Depth Prediction with Fully Convolutional
Residual Networks [3]
・・・ResNet-50のFC層をアップコンバート層に置き換えた
ネットワークを使って，RGB画像から距離を推定
[3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016

スケールの補正
学習時と推定時のカメラ（の内部パラメータ）が違うと
スケールがずれてしまう。
⇒ それぞれの焦点距離を利用して補正
𝒟 𝑘 𝑖
𝒖 =
𝑓𝑐𝑢𝑟
𝑓𝑡𝑟
𝒟
~
𝑘 𝑖
𝒖
𝒟
~
𝑘 𝑖
: CNNで推定された深度マップ
𝑓𝑐 𝑢𝑟 : 推定時のカメラの焦点距離
𝑓𝑡𝑟 : 学習時のカメラの焦点距離
𝒖 : 2次元座標

キーフレーム追加時のデプス推定改善
 直近キーフレーム𝑘𝑗と現キーフレーム𝑘𝑖のデプスマップ𝒟 𝑘 、
デプスの不確かさマップ𝒰 𝑘 を融合する
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑘 𝑗
𝒗 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑖
(𝒖) ∙ 𝒟 𝑘 𝑗
𝒗
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑗
𝒗
𝒰 𝑘 𝑖
𝒖 =
𝒰 𝑘 𝑗
𝒗 ∙ 𝒰 𝑘 𝑖
(𝒖)
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑗
𝒗
キーフレームの情報が
伝播されていく
𝒰 𝑘 𝑗
𝒗 =
𝒟 𝑘 𝑗
𝒗
𝒟 𝑘 𝑖
𝒖
𝒰 𝑘 𝑗
𝒗 + 𝜎 𝑝
2
不確かさマップの定義：𝒰 𝑘 𝑖
(𝒖) = (𝒟 𝑘 𝑖
𝒖 − 𝒟 𝑘 𝑗
𝒗 )2 𝒖 : 𝑘𝑖の2次元座標
𝒗 : 射影された𝑘𝑗での2次元座標
下式で伝播マップ 𝒰 𝑘 𝑗
を作成、融合する
𝜎 𝑝
2 : ホワイトノイズ（の分散）

デプスの継続的な補正
 前ページと同じ要領で、直近キーフレームと現フレームの
デプスマップ𝒟 𝑘 、デプスの不確かさマップ𝒰 𝑘 を融合して、
キーフレームのデプスマップを補正
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑡 𝒖 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑖
(𝒖) ∙ 𝒟𝑡 𝒗
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑡 𝒖
𝒰 𝑘 𝑖
𝒖 =
𝒰 𝑡 𝒖 ∙ 𝒰 𝑘 𝑖
(𝒖)
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑡 𝒖
輝度勾配が高い領域ほど不確かさが小さくなる = 補正されやすい
⇒ CNNでのデプス推定の弱点を補える
キーフレーム以外のデプスは[4]で求める
[4] J. Engel, J. Sturm, and D. Cremers, “Semi-dense visual odometry for a monocular camera.”, ICCV 2013

評価実験
 3つの実験を実施
 SLAMの精度評価
 カメラが回転した際の3次元復元
 復元結果を利用した領域分割
 実施環境
 CPU：Xeon 2.4GHz
 GPU:Quadro K5200 (メモリ8GB)
 メモリ：１６GB
 CNNはGPU、残りの処理はCPUで実行（リアルタイム）

精度
 ICL-NUIM dataset[5] とTUM RGB-D SLAM dataset[6]を使用
[5] A. Handa, T. Whelan, J. McDonald, and A. Davison, “A benchmark for RGB-D visual odometry, 3D reconstruction and SLAM.”, ICRA 2014
[6] J. Sturm, N. Engelhard, F. Endres, W. Burgard, and D. Cremers. “A benchmark for the evaluation of RGB-D SLAMsystems.”, IROS 2012

領域分割
領域ラベルを予測するためのネットワーク[7]を追加
[7] K. Tateno, F. Tombari, and N. Navab, “Real-time and scalable incremental segmentation on dense slam. ”, IROS 2015

まとめ
 CNNを用いて、従来の単眼SLAMの課題であった
絶対スケールの推定、テクスチャレス領域のデプス推定、
回転への対応を解決した。
 3次元モデルでの領域分割にも活用できることを確認

第41回関東CV勉強会 CNN-SLAM

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 第41回関東CV勉強会 CNN-SLAM

Similar to 第41回関東CV勉強会 CNN-SLAM (12)

第41回関東CV勉強会 CNN-SLAM