[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency

•Download as PPTX, PDF•

5 likes•4,174 views

Ryutaro Yamauchi

arXivTimes勉強会

Technology

Motivation
• CNNで単眼深度推定を行いたい
• 教師データを集めるのが大変
• →ステレオ画像から単眼深度推定を学習させられないか？

Idea
• Depth mapを直接推定するのではなく、Disparity map(視差)を
推定する
• Disparity map：左(右)画像のあるピクセルをどのくらい右(左)
に動かせば右(左)画像の対応するピクセルに一致するか？
• 平行な二台のカメラで撮られた画像において、カメラの近くに
ある物体ほど左右で位置のずれが大きい（無限遠ではズレ０）
• 実際の深度=Scale factor / Disparity

Processing flow
• 左画像から、左右のDisparity mapを生成する
• オリジナル画像とDisparity mapをもとに、反対側
の画像を合成する
• オリジナル画像と合成画像の差をlossとして学習

How to make opposite Image.
• 右(左)画像と左(右)dispマップから左(右)画像をつくりたい
• この操作は微分可能でなくてはならない
• →Bilinear Samplerを使う
• Spatial Transformer Networks
[https://arxiv.org/abs/1506.02025]参照

Bilinear Sampler
Right Image
Left disp map
Generated Left Image

Bilinear Sampler (2)
• 左画像のピクセルL[x, y]に対応するのはR[x+disp_L[x, y], y]
• この座標は
R[floor(x+disp_L[x, y]), y], R[ceil(x+disp_L[x, y]), y]
の内分点
• したがって上の二点のピクセル値に内分比をかけて足し合わせ
た点をL[x, y]の予測値とする
内分比は
disp_L[x, y]-floor(disp_L[x, y]) : ceil(disp_L[x, y])- disp_L[x, y]
→この操作は微分可能
• 問題点：隣接するピクセル間の値の差が大きいところばかり学
習する→ Disparity Smoothness Loss（後述）を導入

Loss
• Appearance Matching Loss
合成された画像とオリジナルの差
• Disparity Smoothness Loss
近い点は距離が近いという仮定
• Left-Right Disparity Consistency Loss
左右のDisparity mapはある程度似ているという仮定

Appearance Matching Loss
𝐶 𝑎𝑝
𝑙 =
1
𝑁
𝑖,𝑗
𝛼 1 − 𝑆𝑆𝐼𝑀 𝐼𝑖𝑗
𝑙
, 𝐼𝑖𝑗
𝑙
2
+ 1 − 𝛼 ‖𝐼𝑖𝑗
𝑙
− 𝐼𝑖𝑗
𝑙
‖
• SSIMは画像の質を評価する関数
Image Quality Assessment: From Error Visibility to Structural Similarity
[http://www.cns.nyu.edu/pub/lcv/wang03-preprint.pdf]参照
• 𝑆𝑆𝐼𝑀 𝑥, 𝑦 ≔
2𝜇 𝑥 𝜇 𝑦+𝐶1 2𝜎 𝑥𝑦+𝐶2
(𝜇 𝑥
2+𝜇 𝑦
2+𝐶1)(𝜎 𝑥+𝜎 𝑦+𝐶2)
μやσはk×kのカーネルごとに計算される

Disparity Smoothness Loss
𝐶 𝑑𝑠
𝑙
=
1
𝑁
𝑖,𝑗
𝜕 𝑥 𝑑𝑖𝑗
𝑙
𝑒−‖𝜕 𝑥 𝐼𝑖𝑗
𝑙
‖
+ 𝜕 𝑦 𝑑𝑖𝑗
𝑙
𝑒−‖𝜕 𝑦 𝐼𝑖𝑗
𝑙
‖
• あるピクセルに対応するdisparityが上下左右のピクセルの
disparityとあまり離れないようにする
• ピクセルの画素値の勾配で重み付け

Left-Right Disparity Consistency Loss
𝐶𝑙𝑟
𝑙
=
1
𝑁
𝑖,𝑗
|𝑑𝑖𝑗
𝑙
− 𝑑𝑖𝑗+𝑑 𝑖𝑗
𝑙
𝑟
|
• Bilinear Samplerによって左(右)disparity mapから右
(左)disparity mapを合成し、互いに一致するようにする

Loss
𝐶𝑠 = 𝛼 𝑎𝑝 𝐶 𝑎𝑝
𝑙 + 𝐶 𝑎𝑝
𝑟 + 𝛼 𝑑𝑠 𝐶 𝑑𝑠
𝑙
+ 𝐶 𝑑𝑠
𝑟
+ 𝛼𝑙𝑟 𝐶𝑙𝑟
𝑙
+ 𝐶𝑙𝑟
𝑟

Model
• VGG or ResNet
• 各スケールでdisparity mapを生成する
• Batch Normalizationはとくに効果なし

実装してみた
• Chainerで実装
• VGG版
• KITTIで学習
• 学習4日くらい
上：オリジナル（左）
中：disparity map
下：合成された右画像

What's hot

Deep Learningによる超解像の進歩Hiroto Honda

Lucas kanade法についてHitoshi Nishimura

[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...Yusuke Iwasawa

SSII2019TS: 実践カメラキャリブレーション～カメラを用いた実世界計測の基礎と応用～SSII

デプスセンサとその応用Norishige Fukushima

モデルアーキテクチャ観点からの高速化2019Yusuke Uchida

[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP

【機械学習勉強会】画像の翻訳　”Image-to-Image translation” yoshitaka373

論文読み会(DeMoN;CVPR2017)Masaya Kaneko

[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP

SLAM開発における課題と対策の一例の紹介miyanegi

[DL輪読会]End-to-End Object Detection with TransformersDeep Learning JP

物体検出フレームワークMMDetectionで快適な開発Tatsuya Suzuki

SSII2022 [TS1] Transformerの最前線〜畳込みニューラルネットワークの先へ〜SSII

[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...Deep Learning JP

[DL輪読会]GQNと関連研究，世界モデルとの関係についてDeep Learning JP

確率モデルを用いた3D点群レジストレーションKenta Tanaka

深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma

backbone としての timm 入門Takuji Tahara

What's hot (20)

Deep Learningによる超解像の進歩

Lucas kanade法について

[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...

SSII2019TS: 実践カメラキャリブレーション～カメラを用いた実世界計測の基礎と応用～

デプスセンサとその応用

モデルアーキテクチャ観点からの高速化2019

[DL輪読会]MetaFormer is Actually What You Need for Vision

【機械学習勉強会】画像の翻訳　”Image-to-Image translation”

論文読み会(DeMoN;CVPR2017)

[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...

SLAM開発における課題と対策の一例の紹介

[DL輪読会]End-to-End Object Detection with Transformers

物体検出フレームワークMMDetectionで快適な開発

SSII2022 [TS1] Transformerの最前線〜畳込みニューラルネットワークの先へ〜

[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...

[DL輪読会]GQNと関連研究，世界モデルとの関係について

確率モデルを用いた3D点群レジストレーション

深層学習によるHuman Pose Estimationの基礎

backbone としての timm 入門

Recently uploaded

20240412_HCCJP での Windows Server 2025 Active Directoryosamut

スマートフォンを用いた新生児あやし動作の教示システムsugiuralab

IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka

Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54

UPWARD_share_company_information_20240415.pdffurutsuka

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜スマートビルディング爆速開発を支える自動化テスト戦略Ryo Sasaki

PHP-Conference-Odawara-2024-04-000000000Shota Ito

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.

Amazon SES を勉強してみるその１2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.

Recently uploaded (9)

20240412_HCCJP での Windows Server 2025 Active Directory

スマートフォンを用いた新生児あやし動作の教示システム

IoT in the era of generative AI, Thanks IoT ALGYAN.pptx

Postman LT Fukuoka_Quick Prototype_By Daniel

UPWARD_share_company_information_20240415.pdf

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜スマートビルディング爆速開発を支える自動化テスト戦略

PHP-Conference-Odawara-2024-04-000000000

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。

Amazon SES を勉強してみるその１2024/04/12の勉強会で発表されたものです。

[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency

1. Unsupervised Monocular Depth Estimation with Left-Right Consistency arXivTimes勉強会 2017/08/09 山内隆太郎

2. Motivation • CNNで単眼深度推定を行いたい • 教師データを集めるのが大変 • →ステレオ画像から単眼深度推定を学習させられないか？

3. Idea • Depth mapを直接推定するのではなく、Disparity map(視差)を推定する • Disparity map：左(右)画像のあるピクセルをどのくらい右(左) に動かせば右(左)画像の対応するピクセルに一致するか？ • 平行な二台のカメラで撮られた画像において、カメラの近くにある物体ほど左右で位置のずれが大きい（無限遠ではズレ０） • 実際の深度=Scale factor / Disparity

4. Disparity

5. Processing flow • 左画像から、左右のDisparity mapを生成する • オリジナル画像とDisparity mapをもとに、反対側の画像を合成する • オリジナル画像と合成画像の差をlossとして学習

6. How to make opposite Image. • 右(左)画像と左(右)dispマップから左(右)画像をつくりたい • この操作は微分可能でなくてはならない • →Bilinear Samplerを使う • Spatial Transformer Networks [https://arxiv.org/abs/1506.02025]参照

7. Bilinear Sampler Right Image Left disp map Generated Left Image

8. Bilinear Sampler (2) • 左画像のピクセルL[x, y]に対応するのはR[x+disp_L[x, y], y] • この座標は R[floor(x+disp_L[x, y]), y], R[ceil(x+disp_L[x, y]), y] の内分点 • したがって上の二点のピクセル値に内分比をかけて足し合わせた点をL[x, y]の予測値とする内分比は disp_L[x, y]-floor(disp_L[x, y]) : ceil(disp_L[x, y])- disp_L[x, y] →この操作は微分可能 • 問題点：隣接するピクセル間の値の差が大きいところばかり学習する→ Disparity Smoothness Loss（後述）を導入

9. Loss • Appearance Matching Loss 合成された画像とオリジナルの差 • Disparity Smoothness Loss 近い点は距離が近いという仮定 • Left-Right Disparity Consistency Loss 左右のDisparity mapはある程度似ているという仮定

10. Appearance Matching Loss 𝐶 𝑎𝑝 𝑙 = 1 𝑁 𝑖,𝑗 𝛼 1 − 𝑆𝑆𝐼𝑀 𝐼𝑖𝑗 𝑙 , 𝐼𝑖𝑗 𝑙 2 + 1 − 𝛼 ‖𝐼𝑖𝑗 𝑙 − 𝐼𝑖𝑗 𝑙 ‖ • SSIMは画像の質を評価する関数 Image Quality Assessment: From Error Visibility to Structural Similarity [http://www.cns.nyu.edu/pub/lcv/wang03-preprint.pdf]参照 • 𝑆𝑆𝐼𝑀 𝑥, 𝑦 ≔ 2𝜇 𝑥 𝜇 𝑦+𝐶1 2𝜎 𝑥𝑦+𝐶2 (𝜇 𝑥 2+𝜇 𝑦 2+𝐶1)(𝜎 𝑥+𝜎 𝑦+𝐶2) μやσはk×kのカーネルごとに計算される

11. Disparity Smoothness Loss 𝐶 𝑑𝑠 𝑙 = 1 𝑁 𝑖,𝑗 𝜕 𝑥 𝑑𝑖𝑗 𝑙 𝑒−‖𝜕 𝑥 𝐼𝑖𝑗 𝑙 ‖ + 𝜕 𝑦 𝑑𝑖𝑗 𝑙 𝑒−‖𝜕 𝑦 𝐼𝑖𝑗 𝑙 ‖ • あるピクセルに対応するdisparityが上下左右のピクセルの disparityとあまり離れないようにする • ピクセルの画素値の勾配で重み付け

12. Left-Right Disparity Consistency Loss 𝐶𝑙𝑟 𝑙 = 1 𝑁 𝑖,𝑗 |𝑑𝑖𝑗 𝑙 − 𝑑𝑖𝑗+𝑑 𝑖𝑗 𝑙 𝑟 | • Bilinear Samplerによって左(右)disparity mapから右 (左)disparity mapを合成し、互いに一致するようにする

13. Loss 𝐶𝑠 = 𝛼 𝑎𝑝 𝐶 𝑎𝑝 𝑙 + 𝐶 𝑎𝑝 𝑟 + 𝛼 𝑑𝑠 𝐶 𝑑𝑠 𝑙 + 𝐶 𝑑𝑠 𝑟 + 𝛼𝑙𝑟 𝐶𝑙𝑟 𝑙 + 𝐶𝑙𝑟 𝑟

14. Model • VGG or ResNet • 各スケールでdisparity mapを生成する • Batch Normalizationはとくに効果なし

15. Model (2)

16. Result • KITTI, Cityspacesで実験

17. Result (2)

18. 実装してみた • Chainerで実装 • VGG版 • KITTIで学習 • 学習4日くらい上：オリジナル（左）中：disparity map 下：合成された右画像

[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Recently uploaded

Recently uploaded (9)

[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency