SlideShare a Scribd company logo
1 of 23
Download to read offline
論文紹介ゼミ
DeepVIO: Self-supervised Deep Learning of
Monocular Visual Inertial
Odometry using 3D Geometric Constraints
北海道大学 大学院情報科学研究院 情報理工学部門
複合情報工学分野 調和系工学研究室学研究室
修士課程1年 森雄斗
2020年 11月 04日
論文情報
• タイトル
– DeepVIO: Self-supervised Deep Learning of Monocular
Visual Inertial Odometry using 3D Geometric Constraints
• 著者
– Liming Han1, Yimin Lin1, Guoguang Du1, Shiguo Lian1
• 1. the AI Department, CloudMinds Technologies Inc.
• 学会
– IROS2019
• 論文URL
– https://arxiv.org/pdf/1906.11435.pdf
• スライドのビデオ
– https://youtu.be/fMeqCcpBCdM
2
概要
単眼カメラとIMUを用いた自己位置推定のための自己教師あり学習
3
Introduction
• 6-DoF運動の推定はロボット工学において重要な課題の一つ
• カメラベースのVisual OdometryとVisual Simultaneous
Localization and Mapping (VSLAM)が注目されている
– IMUからの計測値とカメラを組み合わせたVisual Inertial
Odometry (VIO)が多数提案[1][2][3]
4
[1] Ke Sun, Kartik Mohta, Bernd Pfrommer, Michael Watterson, Sikang Liu, Yash Mulgaonkar, Camillo J Taylor, and Vijay Kumar. Robust
stereo visual inertial odometry for fast autonomous flight. IEEE Robotics and Automation Letters, 3(2):965–972, 2018.
[2] Raul Mur-Artal and Juan Domingo Tardos. Visual-inertial monocular slam with map reuse. IEEE Robotics and Automation Letters,
2(2):796–803, 2016.
[3] Qin Tong, Peiliang Li, and Shaojie Shen. Vins-mono: A robust and versatile monocular visual-inertial state estimator. IEEE Transactions
on Robotics, PP(99):1–17, 2017.
関連研究
• 教師あり学習ベースのVisual Inertial Odometry[1]
– LSTM[2]やLSTM+ IMU[3]が登場
• 教師なし学習ベース
– 単眼映像から深度画像とエゴモーションを推定[4]
5
学習のための大量の ground truth dataが必要
RGB-D (深度カメラ) や、LiDARが必要
低コストのステレオカメラを用いた自己教師ありVIOシステムを提案
[1] Ruihao Li, Sen Wang, and Dongbing Gu. Ongoing evolution of visual slam from geometry to deep learning: Challenges and opportunities.
Cognitive Computation, 10(6):875–889, 2018.
[2] Jason R Rambach, Aditya Tewari, Alain Pagani, and Didier Stricker. Learning to fuse: A deep learning approach to visual-inertial camera
pose estimation. In 2016 IEEE International Symposium on Mixed and Augmented Reality (ISMAR), pages 71–76. IEEE, 2016.
[3] Ronald Clark, Sen Wang, Hongkai Wen, Andrew Markham, and Niki Trigoni. Vinet: Visual-inertial odometry as a sequence-to-sequence
learning problem. In Thirty-First AAAI Conference on Artificial Intelligence, 2017.
[4] Tinghui Zhou, Matthew Brown, Noah Snavely, and David G Lowe. Unsupervised learning of depth and ego-motion from video. In
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1851–1858, 2017.
主な提案手法 6
主な提案手法 7
1. 学習のための教師信号をステレオカメラ映像から求める
主な提案手法 8
2. 教師信号を用いて3つのモジュールを学習する
主な提案手法 9
3. 単眼カメラ映像からの自己位置とその軌跡を推定
Stereo Network as Supervision
PSMNet[1]を用いて深度情報とPoint Cloudを出力
10
𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像
[1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, pages 5410–5418, 2018.
[2] Zhao Cheng, Sun Li, Pulak Purkait, Tom Duckett, and Rustam Stolkin. Learning monocular visual odometry with dense 3d mapping from
dense 3d flow. 2018.
視差マップ 𝑞 𝐿 = (𝑥 𝐿, 𝑦 𝐿, 𝑥 𝐿 − 𝑥 𝑅)
3D point cloud 𝑐 = 𝐾−1 𝑑 𝐿[𝑥 𝐿, 𝑦 𝐿, 1] 𝑇
深度画像からpoint cloud
の変換パラメータ[2]
深度画像
Stereo Network as Supervision
ICPを使用してStereo-se3と2D Optical Flowを求める
11
𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像
ICP: 2つの点群から位置姿勢を調整し、6次元ベクトルを求める
(c) 3D optical flowから求めた
2D optical flow
(d) FlownetCから求めた
2D optical flow
3D Optical Flow : 𝒗3𝐷 = 𝑣 𝑋, 𝑣 𝑌, 𝑣 𝑍 = ∆𝐼 𝑐𝑡−1, 𝑐𝑡 = 𝑐𝑡−1 − 𝑐𝑡
2D Optical Flow: 𝑣 𝑥, 𝑣 𝑦, 1
𝐿
=
𝑲 𝒗3𝐷
𝑑 𝐿(𝑥,𝑦)
projection
CNN-Flow Network 12
2フレームの画像から2Dオプティカルフローを求める
𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像
𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ
𝐵𝑎 : 加速度のバイアス
𝐵𝑔 : 角速度のバイアス
従来の2Dオプティカルフローアルゴリズムでは、正しい動きを決定できない
曖昧さを減らすために3Dオプティカルフローを教師データとして使用する
実際の画像 Ground truth
DeepVIO 従来手法
LSTM-IMU Network 13
LSTMを用いてIMUシーケンスから姿勢情報を求める
𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像
𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ
𝐵𝑎 : 加速度のバイアス
𝐵𝑔 : 角速度のバイアス
IMUの状態を考慮した新たな学習手法
1) Preintegrated Network
2層のLSTMネットワークでそれぞれが6つの隠れ層を持つ
入力: N × 12 (N: 画像の2フレーム間のIMUデータのシーケンス)
出力: IMU-se3 = 6次元ベクトル (3つの並進と3つの回転)
LSTM-IMU Network 14
LSTMを用いてIMUシーケンスから姿勢情報を求める
𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像
𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ
𝐵𝑎 : 加速度のバイアス
𝐵𝑔 : 角速度のバイアス
IMUの状態を考慮した新たな学習手法
2) 状態更新モジュール
ሚ𝑆𝑡−1 = argmin
ሚ𝑆 𝑡−1
(𝑉𝐼𝑂 − 𝑠𝑒3, 𝐼𝑀𝑈 − 𝑠𝑒3)
= argmin
ሚ𝑆 𝑡−1
(𝜌([𝑒 𝑅
𝑇
𝑒 𝑝
𝑇
] σ𝐼[𝑒 𝑅
𝑇
𝑒 𝑝
𝑇
] 𝑇
))
𝑒 𝑅 = 𝐿𝑜𝑔 ∆𝑅 𝐿𝑆𝑇𝑀
ሚ𝑆𝑡−1
𝑇
∆𝑅 𝑉𝐼𝑂
𝑒 𝑝 = ∆𝑝 𝑉𝐼𝑂 − ∆𝑝 𝐿𝑆𝑇𝑀( ሚ𝑆𝑡−1)
IMU-se3とVIO-se3の
間の回転と並進の誤差
𝑡 − 1のIMU状態の
最良推定値
FC-Fusion Network 15
2Dオプティカルフローの特徴量(OFF)と6自由度データでVIO-se3を
求める
𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像
𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ
𝐵𝑎 : 加速度のバイアス
𝐵𝑔 : 角速度のバイアス
5つの全結合層を持つFC Fusionネットワークで学習
入力は、OFFとIMU-se3
出力は、次元数6のVIO-se3 (速度情報)
VIO-se3を積分することで一定時間の軌跡が計算可能
実験結果
• データセット
– KITTI dataset
• 屋外のデータセット
• 22組のデータ
• 389個のステレオ画像とオプティカルフローマップ
– EuRoc dataset
• 屋内のデータセット
• 超小型無人飛行機 (MAV)で記録した11のステレオ動画とIMU測定値
• 実験では、200組のデータを使用
16
学習ネットワーク
• 画像サイズ
– KITTI: 640×192
– EuRoC: 640×480
• 最適化アルゴリズム
– Adam
• ハイパーパラメータ
– バッチサイズ: 32
– エポック: 200
• GPU
– Nvidia GeForce GTX 1080 Ti (12G)
17
軌跡の比較
• VINS, ORB-SLAM-Mとの比較
• 1フレームあたりの平均推論時間
– KITTIは、約7.81ms
– EuRoCは、約3.9ms
18
(a) KITTI 9 の軌跡 (b) EuRoC MH04 の軌跡
軌跡の比較 19
𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%)
𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°)
VINSよりも、推定誤差が小さい
→従来手法は厳密な同期をとらないIMUデータに弱い
一部のケースを除いてVIOlearnerより優れている
→IMUのローデータを使用しているため
Seq9,10は、映像が見えづらいが一般化できている
軌跡の比較 20
𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%)
𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°)
IMUを使用していないDeepVOより精度向上
→ 軌跡の補正としてIMUデータが有効
VINSよりも若干劣る
→IMUのデータの質 (高周波数など)
推進運動の誤差がORB-SLAM-Mよりも劣る
→ 提案手法が局所的バンドル調整モジュールが
ないから
2Dオプティカルフローの誤差 21
実際の画像 Ground truth
DeepVIO 従来手法
2Dオプティカルフローの平均誤差が
従来手法よりも少ない
特に動的ターゲットの場合に顕著
実際に推論した映像 22
url: https://youtu.be/fMeqCcpBCdM
まとめ
単眼カメラとIMUを用いた自己位置推定のための自己教師あり学習
23

More Related Content

What's hot

SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 
One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知Yuto Mori
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative ModelDeep Learning JP
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral CloningDeep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 

What's hot (20)

SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 
One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 

Similar to DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints

DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...harmonylab
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本Atsushi Hashimoto
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera MovementsDeep Learning JP
 
Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognitioncvpaper. challenge
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会nlab_utokyo
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual LocalizationHajime Taira
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術Takuya Minagawa
 
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learnedsugiuralab
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...harmonylab
 
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元Hironobu Fujiyoshi
 

Similar to DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints (20)

20150414seminar
20150414seminar20150414seminar
20150414seminar
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements
 
Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognition
 
20150930
2015093020150930
20150930
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会
 
ACCV2014参加報告
ACCV2014参加報告ACCV2014参加報告
ACCV2014参加報告
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
 
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 

Recently uploaded

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Recently uploaded (8)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints

  • 1. 論文紹介ゼミ DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室学研究室 修士課程1年 森雄斗 2020年 11月 04日
  • 2. 論文情報 • タイトル – DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints • 著者 – Liming Han1, Yimin Lin1, Guoguang Du1, Shiguo Lian1 • 1. the AI Department, CloudMinds Technologies Inc. • 学会 – IROS2019 • 論文URL – https://arxiv.org/pdf/1906.11435.pdf • スライドのビデオ – https://youtu.be/fMeqCcpBCdM 2
  • 4. Introduction • 6-DoF運動の推定はロボット工学において重要な課題の一つ • カメラベースのVisual OdometryとVisual Simultaneous Localization and Mapping (VSLAM)が注目されている – IMUからの計測値とカメラを組み合わせたVisual Inertial Odometry (VIO)が多数提案[1][2][3] 4 [1] Ke Sun, Kartik Mohta, Bernd Pfrommer, Michael Watterson, Sikang Liu, Yash Mulgaonkar, Camillo J Taylor, and Vijay Kumar. Robust stereo visual inertial odometry for fast autonomous flight. IEEE Robotics and Automation Letters, 3(2):965–972, 2018. [2] Raul Mur-Artal and Juan Domingo Tardos. Visual-inertial monocular slam with map reuse. IEEE Robotics and Automation Letters, 2(2):796–803, 2016. [3] Qin Tong, Peiliang Li, and Shaojie Shen. Vins-mono: A robust and versatile monocular visual-inertial state estimator. IEEE Transactions on Robotics, PP(99):1–17, 2017.
  • 5. 関連研究 • 教師あり学習ベースのVisual Inertial Odometry[1] – LSTM[2]やLSTM+ IMU[3]が登場 • 教師なし学習ベース – 単眼映像から深度画像とエゴモーションを推定[4] 5 学習のための大量の ground truth dataが必要 RGB-D (深度カメラ) や、LiDARが必要 低コストのステレオカメラを用いた自己教師ありVIOシステムを提案 [1] Ruihao Li, Sen Wang, and Dongbing Gu. Ongoing evolution of visual slam from geometry to deep learning: Challenges and opportunities. Cognitive Computation, 10(6):875–889, 2018. [2] Jason R Rambach, Aditya Tewari, Alain Pagani, and Didier Stricker. Learning to fuse: A deep learning approach to visual-inertial camera pose estimation. In 2016 IEEE International Symposium on Mixed and Augmented Reality (ISMAR), pages 71–76. IEEE, 2016. [3] Ronald Clark, Sen Wang, Hongkai Wen, Andrew Markham, and Niki Trigoni. Vinet: Visual-inertial odometry as a sequence-to-sequence learning problem. In Thirty-First AAAI Conference on Artificial Intelligence, 2017. [4] Tinghui Zhou, Matthew Brown, Noah Snavely, and David G Lowe. Unsupervised learning of depth and ego-motion from video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1851–1858, 2017.
  • 10. Stereo Network as Supervision PSMNet[1]を用いて深度情報とPoint Cloudを出力 10 𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像 [1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5410–5418, 2018. [2] Zhao Cheng, Sun Li, Pulak Purkait, Tom Duckett, and Rustam Stolkin. Learning monocular visual odometry with dense 3d mapping from dense 3d flow. 2018. 視差マップ 𝑞 𝐿 = (𝑥 𝐿, 𝑦 𝐿, 𝑥 𝐿 − 𝑥 𝑅) 3D point cloud 𝑐 = 𝐾−1 𝑑 𝐿[𝑥 𝐿, 𝑦 𝐿, 1] 𝑇 深度画像からpoint cloud の変換パラメータ[2] 深度画像
  • 11. Stereo Network as Supervision ICPを使用してStereo-se3と2D Optical Flowを求める 11 𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像 ICP: 2つの点群から位置姿勢を調整し、6次元ベクトルを求める (c) 3D optical flowから求めた 2D optical flow (d) FlownetCから求めた 2D optical flow 3D Optical Flow : 𝒗3𝐷 = 𝑣 𝑋, 𝑣 𝑌, 𝑣 𝑍 = ∆𝐼 𝑐𝑡−1, 𝑐𝑡 = 𝑐𝑡−1 − 𝑐𝑡 2D Optical Flow: 𝑣 𝑥, 𝑣 𝑦, 1 𝐿 = 𝑲 𝒗3𝐷 𝑑 𝐿(𝑥,𝑦) projection
  • 12. CNN-Flow Network 12 2フレームの画像から2Dオプティカルフローを求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス 従来の2Dオプティカルフローアルゴリズムでは、正しい動きを決定できない 曖昧さを減らすために3Dオプティカルフローを教師データとして使用する 実際の画像 Ground truth DeepVIO 従来手法
  • 13. LSTM-IMU Network 13 LSTMを用いてIMUシーケンスから姿勢情報を求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス IMUの状態を考慮した新たな学習手法 1) Preintegrated Network 2層のLSTMネットワークでそれぞれが6つの隠れ層を持つ 入力: N × 12 (N: 画像の2フレーム間のIMUデータのシーケンス) 出力: IMU-se3 = 6次元ベクトル (3つの並進と3つの回転)
  • 14. LSTM-IMU Network 14 LSTMを用いてIMUシーケンスから姿勢情報を求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス IMUの状態を考慮した新たな学習手法 2) 状態更新モジュール ሚ𝑆𝑡−1 = argmin ሚ𝑆 𝑡−1 (𝑉𝐼𝑂 − 𝑠𝑒3, 𝐼𝑀𝑈 − 𝑠𝑒3) = argmin ሚ𝑆 𝑡−1 (𝜌([𝑒 𝑅 𝑇 𝑒 𝑝 𝑇 ] σ𝐼[𝑒 𝑅 𝑇 𝑒 𝑝 𝑇 ] 𝑇 )) 𝑒 𝑅 = 𝐿𝑜𝑔 ∆𝑅 𝐿𝑆𝑇𝑀 ሚ𝑆𝑡−1 𝑇 ∆𝑅 𝑉𝐼𝑂 𝑒 𝑝 = ∆𝑝 𝑉𝐼𝑂 − ∆𝑝 𝐿𝑆𝑇𝑀( ሚ𝑆𝑡−1) IMU-se3とVIO-se3の 間の回転と並進の誤差 𝑡 − 1のIMU状態の 最良推定値
  • 15. FC-Fusion Network 15 2Dオプティカルフローの特徴量(OFF)と6自由度データでVIO-se3を 求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス 5つの全結合層を持つFC Fusionネットワークで学習 入力は、OFFとIMU-se3 出力は、次元数6のVIO-se3 (速度情報) VIO-se3を積分することで一定時間の軌跡が計算可能
  • 16. 実験結果 • データセット – KITTI dataset • 屋外のデータセット • 22組のデータ • 389個のステレオ画像とオプティカルフローマップ – EuRoc dataset • 屋内のデータセット • 超小型無人飛行機 (MAV)で記録した11のステレオ動画とIMU測定値 • 実験では、200組のデータを使用 16
  • 17. 学習ネットワーク • 画像サイズ – KITTI: 640×192 – EuRoC: 640×480 • 最適化アルゴリズム – Adam • ハイパーパラメータ – バッチサイズ: 32 – エポック: 200 • GPU – Nvidia GeForce GTX 1080 Ti (12G) 17
  • 18. 軌跡の比較 • VINS, ORB-SLAM-Mとの比較 • 1フレームあたりの平均推論時間 – KITTIは、約7.81ms – EuRoCは、約3.9ms 18 (a) KITTI 9 の軌跡 (b) EuRoC MH04 の軌跡
  • 19. 軌跡の比較 19 𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%) 𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°) VINSよりも、推定誤差が小さい →従来手法は厳密な同期をとらないIMUデータに弱い 一部のケースを除いてVIOlearnerより優れている →IMUのローデータを使用しているため Seq9,10は、映像が見えづらいが一般化できている
  • 20. 軌跡の比較 20 𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%) 𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°) IMUを使用していないDeepVOより精度向上 → 軌跡の補正としてIMUデータが有効 VINSよりも若干劣る →IMUのデータの質 (高周波数など) 推進運動の誤差がORB-SLAM-Mよりも劣る → 提案手法が局所的バンドル調整モジュールが ないから
  • 21. 2Dオプティカルフローの誤差 21 実際の画像 Ground truth DeepVIO 従来手法 2Dオプティカルフローの平均誤差が 従来手法よりも少ない 特に動的ターゲットの場合に顕著