DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints

論文紹介ゼミ
DeepVIO: Self-supervised Deep Learning of
Monocular Visual Inertial
Odometry using 3D Geometric Constraints
北海道大学大学院情報科学研究院情報理工学部門
複合情報工学分野調和系工学研究室学研究室
修士課程1年森雄斗
2020年 11月 04日

論文情報
• タイトル
– DeepVIO: Self-supervised Deep Learning of Monocular
Visual Inertial Odometry using 3D Geometric Constraints
• 著者
– Liming Han1, Yimin Lin1, Guoguang Du1, Shiguo Lian1
• 1. the AI Department, CloudMinds Technologies Inc.
• 学会
– IROS2019
• 論文URL
– https://arxiv.org/pdf/1906.11435.pdf
• スライドのビデオ
– https://youtu.be/fMeqCcpBCdM
2

概要
単眼カメラとIMUを用いた自己位置推定のための自己教師あり学習
3

Introduction
• 6-DoF運動の推定はロボット工学において重要な課題の一つ
• カメラベースのVisual OdometryとVisual Simultaneous
Localization and Mapping (VSLAM)が注目されている
– IMUからの計測値とカメラを組み合わせたVisual Inertial
Odometry (VIO)が多数提案[1][2][3]
4
[1] Ke Sun, Kartik Mohta, Bernd Pfrommer, Michael Watterson, Sikang Liu, Yash Mulgaonkar, Camillo J Taylor, and Vijay Kumar. Robust
stereo visual inertial odometry for fast autonomous flight. IEEE Robotics and Automation Letters, 3(2):965–972, 2018.
[2] Raul Mur-Artal and Juan Domingo Tardos. Visual-inertial monocular slam with map reuse. IEEE Robotics and Automation Letters,
2(2):796–803, 2016.
[3] Qin Tong, Peiliang Li, and Shaojie Shen. Vins-mono: A robust and versatile monocular visual-inertial state estimator. IEEE Transactions
on Robotics, PP(99):1–17, 2017.

関連研究
• 教師あり学習ベースのVisual Inertial Odometry[1]
– LSTM[2]やLSTM+ IMU[3]が登場
• 教師なし学習ベース
– 単眼映像から深度画像とエゴモーションを推定[4]
5
学習のための大量の ground truth dataが必要
RGB-D (深度カメラ) や、LiDARが必要
低コストのステレオカメラを用いた自己教師ありVIOシステムを提案
[1] Ruihao Li, Sen Wang, and Dongbing Gu. Ongoing evolution of visual slam from geometry to deep learning: Challenges and opportunities.
Cognitive Computation, 10(6):875–889, 2018.
[2] Jason R Rambach, Aditya Tewari, Alain Pagani, and Didier Stricker. Learning to fuse: A deep learning approach to visual-inertial camera
pose estimation. In 2016 IEEE International Symposium on Mixed and Augmented Reality (ISMAR), pages 71–76. IEEE, 2016.
[3] Ronald Clark, Sen Wang, Hongkai Wen, Andrew Markham, and Niki Trigoni. Vinet: Visual-inertial odometry as a sequence-to-sequence
learning problem. In Thirty-First AAAI Conference on Artificial Intelligence, 2017.
[4] Tinghui Zhou, Matthew Brown, Noah Snavely, and David G Lowe. Unsupervised learning of depth and ego-motion from video. In
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1851–1858, 2017.

主な提案手法 7
1. 学習のための教師信号をステレオカメラ映像から求める

2. 教師信号を用いて3つのモジュールを学習する

3. 単眼カメラ映像からの自己位置とその軌跡を推定

Stereo Network as Supervision
PSMNet[1]を用いて深度情報とPoint Cloudを出力
10
𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像
[1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, pages 5410–5418, 2018.
[2] Zhao Cheng, Sun Li, Pulak Purkait, Tom Duckett, and Rustam Stolkin. Learning monocular visual odometry with dense 3d mapping from
dense 3d flow. 2018.
視差マップ 𝑞 𝐿 = (𝑥 𝐿, 𝑦 𝐿, 𝑥 𝐿 − 𝑥 𝑅)
3D point cloud 𝑐 = 𝐾−1 𝑑 𝐿[𝑥 𝐿, 𝑦 𝐿, 1] 𝑇
深度画像からpoint cloud
の変換パラメータ[2]
深度画像

Stereo Network as Supervision
ICPを使用してStereo-se3と2D Optical Flowを求める
11
𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像
ICP: 2つの点群から位置姿勢を調整し、6次元ベクトルを求める
(c) 3D optical flowから求めた
2D optical flow
(d) FlownetCから求めた
2D optical flow
3D Optical Flow : 𝒗3𝐷 = 𝑣 𝑋, 𝑣 𝑌, 𝑣 𝑍 = ∆𝐼 𝑐𝑡−1, 𝑐𝑡 = 𝑐𝑡−1 − 𝑐𝑡
2D Optical Flow: 𝑣 𝑥, 𝑣 𝑦, 1
𝐿
=
𝑲 𝒗3𝐷
𝑑 𝐿(𝑥,𝑦)
projection

CNN-Flow Network 12
2フレームの画像から2Dオプティカルフローを求める
𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像
𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ
𝐵𝑎 : 加速度のバイアス
𝐵𝑔 : 角速度のバイアス
従来の2Dオプティカルフローアルゴリズムでは、正しい動きを決定できない
曖昧さを減らすために3Dオプティカルフローを教師データとして使用する
実際の画像 Ground truth
DeepVIO 従来手法

LSTM-IMU Network 13
LSTMを用いてIMUシーケンスから姿勢情報を求める
IMUの状態を考慮した新たな学習手法
1) Preintegrated Network
２層のLSTMネットワークでそれぞれが6つの隠れ層を持つ
入力: N × 12 (N: 画像の2フレーム間のIMUデータのシーケンス)
出力: IMU-se3 = 6次元ベクトル (3つの並進と3つの回転)

LSTM-IMU Network 14
LSTMを用いてIMUシーケンスから姿勢情報を求める
IMUの状態を考慮した新たな学習手法
2) 状態更新モジュール
ሚ𝑆𝑡−1 = argmin
ሚ𝑆 𝑡−1
(𝑉𝐼𝑂 − 𝑠𝑒3, 𝐼𝑀𝑈 − 𝑠𝑒3)
= argmin
ሚ𝑆 𝑡−1
(𝜌([𝑒 𝑅
𝑇
𝑒 𝑝
𝑇
] σ𝐼[𝑒 𝑅
𝑇
𝑒 𝑝
𝑇
] 𝑇
))
𝑒 𝑅 = 𝐿𝑜𝑔 ∆𝑅 𝐿𝑆𝑇𝑀
ሚ𝑆𝑡−1
𝑇
∆𝑅 𝑉𝐼𝑂
𝑒 𝑝 = ∆𝑝 𝑉𝐼𝑂 − ∆𝑝 𝐿𝑆𝑇𝑀( ሚ𝑆𝑡−1)
IMU-se3とVIO-se3の
間の回転と並進の誤差
𝑡 − 1のIMU状態の
最良推定値

FC-Fusion Network 15
2Dオプティカルフローの特徴量(OFF)と6自由度データでVIO-se3を
求める
5つの全結合層を持つFC Fusionネットワークで学習
入力は、OFFとIMU-se3
出力は、次元数6のVIO-se3 (速度情報)
VIO-se3を積分することで一定時間の軌跡が計算可能

実験結果
• データセット
– KITTI dataset
• 屋外のデータセット
• 22組のデータ
• 389個のステレオ画像とオプティカルフローマップ
– EuRoc dataset
• 屋内のデータセット
• 超小型無人飛行機 (MAV)で記録した11のステレオ動画とIMU測定値
• 実験では、200組のデータを使用
16

学習ネットワーク
• 画像サイズ
– KITTI: 640×192
– EuRoC: 640×480
• 最適化アルゴリズム
– Adam
• ハイパーパラメータ
– バッチサイズ: 32
– エポック: 200
• GPU
– Nvidia GeForce GTX 1080 Ti (12G)
17

軌跡の比較
• VINS, ORB-SLAM-Mとの比較
• 1フレームあたりの平均推論時間
– KITTIは、約7.81ms
– EuRoCは、約3.9ms
18
(a) KITTI 9 の軌跡 (b) EuRoC MH04 の軌跡

軌跡の比較 19
𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%)
𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°)
VINSよりも、推定誤差が小さい
→従来手法は厳密な同期をとらないIMUデータに弱い
一部のケースを除いてVIOlearnerより優れている
→IMUのローデータを使用しているため
Seq9,10は、映像が見えづらいが一般化できている

軌跡の比較 20
𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%)
𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°)
IMUを使用していないDeepVOより精度向上
→ 軌跡の補正としてIMUデータが有効
VINSよりも若干劣る
→IMUのデータの質 (高周波数など)
推進運動の誤差がORB-SLAM-Mよりも劣る
→ 提案手法が局所的バンドル調整モジュールが
ないから

2Dオプティカルフローの誤差 21
実際の画像 Ground truth
DeepVIO 従来手法
2Dオプティカルフローの平均誤差が
従来手法よりも少ない
特に動的ターゲットの場合に顕著

実際に推論した映像 22
url: https://youtu.be/fMeqCcpBCdM

まとめ
単眼カメラとIMUを用いた自己位置推定のための自己教師あり学習
23

DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints

Similar to DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (8)

DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints