SlideShare a Scribd company logo
1 of 18
Unsupervised Monocular Depth
Estimation
with Left-Right Consistency
arXivTimes勉強会
2017/08/09
山内隆太郎
Motivation
• CNNで単眼深度推定を行いたい
• 教師データを集めるのが大変
• →ステレオ画像から単眼深度推定を学習させられないか?
Idea
• Depth mapを直接推定するのではなく、Disparity map(視差)を
推定する
• Disparity map:左(右)画像のあるピクセルをどのくらい右(左)
に動かせば右(左)画像の対応するピクセルに一致するか?
• 平行な二台のカメラで撮られた画像において、カメラの近くに
ある物体ほど左右で位置のずれが大きい(無限遠ではズレ0)
• 実際の深度=Scale factor / Disparity
Disparity
Processing flow
• 左画像から、左右のDisparity mapを生成する
• オリジナル画像とDisparity mapをもとに、反対側
の画像を合成する
• オリジナル画像と合成画像の差をlossとして学習
How to make opposite Image.
• 右(左)画像と左(右)dispマップから左(右)画像をつくりたい
• この操作は微分可能でなくてはならない
• →Bilinear Samplerを使う
• Spatial Transformer Networks
[https://arxiv.org/abs/1506.02025]参照
Bilinear Sampler
Right Image
Left disp map
Generated Left Image
Bilinear Sampler (2)
• 左画像のピクセルL[x, y]に対応するのはR[x+disp_L[x, y], y]
• この座標は
R[floor(x+disp_L[x, y]), y], R[ceil(x+disp_L[x, y]), y]
の内分点
• したがって上の二点のピクセル値に内分比をかけて足し合わせ
た点をL[x, y]の予測値とする
内分比は
disp_L[x, y]-floor(disp_L[x, y]) : ceil(disp_L[x, y])- disp_L[x, y]
→この操作は微分可能
• 問題点:隣接するピクセル間の値の差が大きいところばかり学
習する→ Disparity Smoothness Loss(後述)を導入
Loss
• Appearance Matching Loss
合成された画像とオリジナルの差
• Disparity Smoothness Loss
近い点は距離が近いという仮定
• Left-Right Disparity Consistency Loss
左右のDisparity mapはある程度似ているという仮定
Appearance Matching Loss
𝐶 𝑎𝑝
𝑙 =
1
𝑁
𝑖,𝑗
𝛼 1 − 𝑆𝑆𝐼𝑀 𝐼𝑖𝑗
𝑙
, 𝐼𝑖𝑗
𝑙
2
+ 1 − 𝛼 ‖𝐼𝑖𝑗
𝑙
− 𝐼𝑖𝑗
𝑙
‖
• SSIMは画像の質を評価する関数
Image Quality Assessment: From Error Visibility to Structural Similarity
[http://www.cns.nyu.edu/pub/lcv/wang03-preprint.pdf]参照
• 𝑆𝑆𝐼𝑀 𝑥, 𝑦 ≔
2𝜇 𝑥 𝜇 𝑦+𝐶1 2𝜎 𝑥𝑦+𝐶2
(𝜇 𝑥
2+𝜇 𝑦
2+𝐶1)(𝜎 𝑥+𝜎 𝑦+𝐶2)
μやσはk×kのカーネルごとに計算される
Disparity Smoothness Loss
𝐶 𝑑𝑠
𝑙
=
1
𝑁
𝑖,𝑗
𝜕 𝑥 𝑑𝑖𝑗
𝑙
𝑒−‖𝜕 𝑥 𝐼𝑖𝑗
𝑙
‖
+ 𝜕 𝑦 𝑑𝑖𝑗
𝑙
𝑒−‖𝜕 𝑦 𝐼𝑖𝑗
𝑙
‖
• あるピクセルに対応するdisparityが上下左右のピクセルの
disparityとあまり離れないようにする
• ピクセルの画素値の勾配で重み付け
Left-Right Disparity Consistency Loss
𝐶𝑙𝑟
𝑙
=
1
𝑁
𝑖,𝑗
|𝑑𝑖𝑗
𝑙
− 𝑑𝑖𝑗+𝑑 𝑖𝑗
𝑙
𝑟
|
• Bilinear Samplerによって左(右)disparity mapから右
(左)disparity mapを合成し、互いに一致するようにする
Loss
𝐶𝑠 = 𝛼 𝑎𝑝 𝐶 𝑎𝑝
𝑙 + 𝐶 𝑎𝑝
𝑟 + 𝛼 𝑑𝑠 𝐶 𝑑𝑠
𝑙
+ 𝐶 𝑑𝑠
𝑟
+ 𝛼𝑙𝑟 𝐶𝑙𝑟
𝑙
+ 𝐶𝑙𝑟
𝑟
Model
• VGG or ResNet
• 各スケールでdisparity mapを生成する
• Batch Normalizationはとくに効果なし
Model (2)
Result
• KITTI, Cityspacesで実験
Result (2)
実装してみた
• Chainerで実装
• VGG版
• KITTIで学習
• 学習4日くらい
上:オリジナル(左)
中:disparity map
下:合成された右画像

More Related Content

What's hot

Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Hiroto Honda
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...Yusuke Iwasawa
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
デプスセンサとその応用
デプスセンサとその応用デプスセンサとその応用
デプスセンサとその応用Norishige Fukushima
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019Yusuke Uchida
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation” 【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation” yoshitaka373
 
論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)Masaya Kaneko
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介miyanegi
 
[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with TransformersDeep Learning JP
 
物体検出フレームワークMMDetectionで快適な開発
物体検出フレームワークMMDetectionで快適な開発物体検出フレームワークMMDetectionで快適な開発
物体検出フレームワークMMDetectionで快適な開発Tatsuya Suzuki
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...Deep Learning JP
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーションKenta Tanaka
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 

What's hot (20)

Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
デプスセンサとその応用
デプスセンサとその応用デプスセンサとその応用
デプスセンサとその応用
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation” 【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
 
論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介
 
[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers
 
物体検出フレームワークMMDetectionで快適な開発
物体検出フレームワークMMDetectionで快適な開発物体検出フレームワークMMDetectionで快適な開発
物体検出フレームワークMMDetectionで快適な開発
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 

Recently uploaded

20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (9)

20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 

[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency

  • 1. Unsupervised Monocular Depth Estimation with Left-Right Consistency arXivTimes勉強会 2017/08/09 山内隆太郎
  • 2. Motivation • CNNで単眼深度推定を行いたい • 教師データを集めるのが大変 • →ステレオ画像から単眼深度推定を学習させられないか?
  • 3. Idea • Depth mapを直接推定するのではなく、Disparity map(視差)を 推定する • Disparity map:左(右)画像のあるピクセルをどのくらい右(左) に動かせば右(左)画像の対応するピクセルに一致するか? • 平行な二台のカメラで撮られた画像において、カメラの近くに ある物体ほど左右で位置のずれが大きい(無限遠ではズレ0) • 実際の深度=Scale factor / Disparity
  • 5. Processing flow • 左画像から、左右のDisparity mapを生成する • オリジナル画像とDisparity mapをもとに、反対側 の画像を合成する • オリジナル画像と合成画像の差をlossとして学習
  • 6. How to make opposite Image. • 右(左)画像と左(右)dispマップから左(右)画像をつくりたい • この操作は微分可能でなくてはならない • →Bilinear Samplerを使う • Spatial Transformer Networks [https://arxiv.org/abs/1506.02025]参照
  • 7. Bilinear Sampler Right Image Left disp map Generated Left Image
  • 8. Bilinear Sampler (2) • 左画像のピクセルL[x, y]に対応するのはR[x+disp_L[x, y], y] • この座標は R[floor(x+disp_L[x, y]), y], R[ceil(x+disp_L[x, y]), y] の内分点 • したがって上の二点のピクセル値に内分比をかけて足し合わせ た点をL[x, y]の予測値とする 内分比は disp_L[x, y]-floor(disp_L[x, y]) : ceil(disp_L[x, y])- disp_L[x, y] →この操作は微分可能 • 問題点:隣接するピクセル間の値の差が大きいところばかり学 習する→ Disparity Smoothness Loss(後述)を導入
  • 9. Loss • Appearance Matching Loss 合成された画像とオリジナルの差 • Disparity Smoothness Loss 近い点は距離が近いという仮定 • Left-Right Disparity Consistency Loss 左右のDisparity mapはある程度似ているという仮定
  • 10. Appearance Matching Loss 𝐶 𝑎𝑝 𝑙 = 1 𝑁 𝑖,𝑗 𝛼 1 − 𝑆𝑆𝐼𝑀 𝐼𝑖𝑗 𝑙 , 𝐼𝑖𝑗 𝑙 2 + 1 − 𝛼 ‖𝐼𝑖𝑗 𝑙 − 𝐼𝑖𝑗 𝑙 ‖ • SSIMは画像の質を評価する関数 Image Quality Assessment: From Error Visibility to Structural Similarity [http://www.cns.nyu.edu/pub/lcv/wang03-preprint.pdf]参照 • 𝑆𝑆𝐼𝑀 𝑥, 𝑦 ≔ 2𝜇 𝑥 𝜇 𝑦+𝐶1 2𝜎 𝑥𝑦+𝐶2 (𝜇 𝑥 2+𝜇 𝑦 2+𝐶1)(𝜎 𝑥+𝜎 𝑦+𝐶2) μやσはk×kのカーネルごとに計算される
  • 11. Disparity Smoothness Loss 𝐶 𝑑𝑠 𝑙 = 1 𝑁 𝑖,𝑗 𝜕 𝑥 𝑑𝑖𝑗 𝑙 𝑒−‖𝜕 𝑥 𝐼𝑖𝑗 𝑙 ‖ + 𝜕 𝑦 𝑑𝑖𝑗 𝑙 𝑒−‖𝜕 𝑦 𝐼𝑖𝑗 𝑙 ‖ • あるピクセルに対応するdisparityが上下左右のピクセルの disparityとあまり離れないようにする • ピクセルの画素値の勾配で重み付け
  • 12. Left-Right Disparity Consistency Loss 𝐶𝑙𝑟 𝑙 = 1 𝑁 𝑖,𝑗 |𝑑𝑖𝑗 𝑙 − 𝑑𝑖𝑗+𝑑 𝑖𝑗 𝑙 𝑟 | • Bilinear Samplerによって左(右)disparity mapから右 (左)disparity mapを合成し、互いに一致するようにする
  • 13. Loss 𝐶𝑠 = 𝛼 𝑎𝑝 𝐶 𝑎𝑝 𝑙 + 𝐶 𝑎𝑝 𝑟 + 𝛼 𝑑𝑠 𝐶 𝑑𝑠 𝑙 + 𝐶 𝑑𝑠 𝑟 + 𝛼𝑙𝑟 𝐶𝑙𝑟 𝑙 + 𝐶𝑙𝑟 𝑟
  • 14. Model • VGG or ResNet • 各スケールでdisparity mapを生成する • Batch Normalizationはとくに効果なし
  • 18. 実装してみた • Chainerで実装 • VGG版 • KITTIで学習 • 学習4日くらい 上:オリジナル(左) 中:disparity map 下:合成された右画像