SlideShare a Scribd company logo
1 of 23
Download to read offline
DLゼミ

FastDepth: Fast Monocular Depth Estimation on
Embedded Systems

1
北海道大学大学院情報科学院

調和系工学研究室

修士1年 森 雄斗

論文情報
 2
● タイトル

– FastDepth: Fast Monocular Depth Estimation on Embedded Systems
● 学会

– ICRA (IEEE International Conference on Robotics and Automation)2019
● 著者

– Diana Wofk*,
Fangchang Ma*
, Tien-Ju Yang, Sertac Karaman, Vivienne Sze
• The Massachusetts Institute of Techonology

● Github

– https://github.com/dwofk/fast-depth(PyTorch)
● Webサイト

– http://fastdepth.mit.edu/

概要

● 従来の単眼深度推定アルゴリズムは高性能のGPUを要し、

リアルタイム推論に時間がかかる

● 軽量なエンコーダ/デコーダネットワークアーキテクチャで構築し、

計算の複雑さと遅延を低減するためのネットワークプルージングを適用

● エッジデバイスにおいて、最も低いレイテンシと最も高いスループット

3
GT
Image
 Fast Depth

組み込みシステムのための単眼深度推定
背景

● 既存の深度センサはかさばり、消費電力が高いため、単眼カメラを用いた深度
推定が望まれる

● 従来の単眼深度推定は、精度向上のみに焦点が当てられ、結果的に計算リ
ソースが大きいアルゴリズムを採用している

● これからの課題は、アルゴリズムの精度と計算及び実行時間のコストのバラ
ンスをとること

4
深度センサ 単眼カメラ
単眼深度推定

アルゴリズム
小型・低コストのために

が大きな計算リソースを必要としている
から
 へ
しかし、
ex: LiDAR, 構造光3Dスキャナー
ex: ReDWeb, struct2depth

背景

● 既存の深度センサはかさばり、消費電力が高いため、単眼カメラを用いた深度
推定が望まれる

● 従来の単眼深度推定は、精度向上のみに焦点が当てられ、結果的に計算リ
ソースが大きいアルゴリズムを採用している

● これからの課題は、アルゴリズムの精度と計算及び実行時間のコストのバラ
ンスをとること

5
深度センサ 単眼カメラ
単眼深度推定

アルゴリズム
小型・低コストのために

が大きな計算リソースを必要としている
から
 へ
しかし、
ex: LiDAR, 構造光3Dスキャナー
ex: ReDWeb, struct2depth

バランスが

重要

関連研究 | 単眼深度推定
Monocular Relative Depth Perception with Web
Stereo Data Supervision [1]

6
Deeper Depth Prediction with Fully
Convolutional Residual Networks[2]

関連研究 | 単眼深度推定 (Monocular Depth Estimation)

どちらも高精度なモデルを作成するアプローチ

[1] Xian, Ke, et al. "Monocular relative depth perception with web stereo data supervision." Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2018.
[2] Laina, Iro, et al. "Deeper depth prediction with fully convolutional residual networks." 2016 Fourth international conference on 3D vision (3DV). IEEE, 2016.
関連研究 | その他

● Efficient Neural Networks

○ 画像分類 | VGG → MobileNet

○ 物体検出 | SSD → FasterRCNN









● Network Pruning

○ 冗長なパラメータや計算と特定して除去

○ ex: NetAdapt



7
ラベルに縮小するエンコーダーネットワークに焦点が当てられている

デコーダーネットワークを持つピクセルベースの効率性についてはあまり検討されていない

図1 | https://missinglink.ai/guides/tensorflow/tensorflow-conv2d-layers-practical-guide/ より引用

図1: 一般的なCNN

一般的にエンコーダーネットワークに適用されている

エンコーダーとデコーダーの両方の効率性がプルーニングによって向上するかを実証する

提案手法

● ネットワーク構成















● ネットワークコンパイル



8
● Network Pruning

提案手法 | ネットワーク構成
 9
Fully convolutional encoder-decoder

入力サイズと同じ出力サイズを出力するには、”Fully Convolutional”が効果的[3]

全結合層を1×1の畳み込みで置き換える

[3] Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic
segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
提案手法 | ネットワーク構成
 10
● 低レイテンシを目標とし、MobileNet_v1[4]を採用

[4] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient
convolutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, 2017.
(a) 通常の畳み込み演算

(b) 下がMobileNetの畳み込み演算

空間方向とチャネル方向の畳み込みを同時に行わず、 

Depthwise(空間方向)とPointwise(チャネル方向)を順に行う 

m×m×nの標準的な畳込みレイヤの場合

MAC(積和演算)の回数がm 倍少ない

2

提案手法 | ネットワーク構成
 11
● Decoder

○ 5×5のアップサンプリングレイヤーを使用

○ 中間特徴マップのサイズを倍にし、チャネル数を半分にする

○ 本研究ではNNconv5と定義



● Skip Connection (U-Net, DeeperLabにも使用されている)

○ エンコーダによって失われた画像情報を追加する

○ エンコーダの中間の3層をアップサンプリングレイヤーに加算





提案手法 | ネットワーク構成
 12
● Decoder

○ 5×5のアップサンプリングレイヤーを使用

○ 中間特徴マップのサイズを倍にし、チャネル数を半分にする

○ 本研究ではNNconv5と定義



● Skip Connection (U-Net, DeeperLabにも使用されている)

○ エンコーダによって失われた画像情報を追加する

○ エンコーダの中間の3層をアップサンプリングレイヤーに加算





提案手法 | ネットワークコンパイル

● TVMコンパイラスタック[5]を使用

○ ハードウェア上でのランタイム削減のために最適化









13
[5] T. Chen, T. Moreau, Z. Jiang, L. Zheng, E. Yan, H. Shen, M. Cowan, L. Wang, Y. Hu, L. Ceze et al., “TVM: An
Automated End-to-End Optimizing Compiler for Deep Learning,” in 13th USENIX Symposium on Operating Systems
Design and Implementation (OSDI 18), 2018, pp. 578–594.
web: https://tvm.apache.org/2017/10/06/nnvm-compiler-announcement
提案手法 | Network Pruning

● NetAdapt[6]を使用

○ 使用率の低いアクティベーションチャネルを減少させる

○ 精度と複雑さのトレードオフで最も良いネットワーク提案



14
[6] T.-J. Yang, A. Howard, B. Chen, X. Zhang, A. Go, M. Sadler, V. Sze, and H. Adam, “NetAdapt: PlatformAware Neural Network
Adaptation for Mobile Applications,” in European Conference on Computer Vision (ECCV), 2018. 

・github | https://github.com/denru01/netadapt/

実験 | 設定

● データセット

○ NYU Depth Dataset v2 [7]

■ Microsoft Kinectで撮影した室内の画像(1449個)

■ ダウンロードurl: https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html



● エンコーダー

○ ImageNetで事前学習

● プラットフォーム

○ Jetson TX2



● 実験概要

○ 先行研究との比較

○ エンコーダーの検証

○ デコーダーの検証

○ Network Pruningの効果

15
[7] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, “Indoor segmentation and support inference from RGBD images,” in
European Conference on Computer Vision (ECCV), 2012, pp. 746–760. 

サンプル画像

推論の時間と精度を確認

実験 | 先行研究との比較

● 推論時はデコーダー部分で時間がかかる

● ベースラインと比較して、同程度の精度かつ総ランタイムを約65倍に短
縮

16
先行研究との比較 

MACs: 積和演算 

RMSE: 平均平方二乗誤差 

δ : 相対誤差が25%以内の   
予測ピクセルの割合 

実験 | エンコーダーの検証

● エンコーダー部分のみを変更して推論

○ 精度は落ちるが、ランタイム時間を大幅に減少

17
実験 | エンコーダーの検証

● エンコーダー部分のみを変更して推論

○ 精度は落ちるが、ランタイム時間を大幅に減少

18
深層学習フレームワークが今回の実装において最
適化されていないことに起因 ..?
深層学習コンパイラの必要性あり
実験 | デコーダーの検証 | アップサンプリング処理

● 4つのアップサンプリング処理を比較

○ 高い精度と低いランタイム時間を持つNNConv5を採用

19
2×2の

Unpooling

サイズを2倍にする 

最近傍補間

実験 | デコーダーの検証 | depthwise and skip connection

● 標準的なデコーダーとdepthwise デコーダーの比較

○ depthwise: 畳み込みの深さ方向に分解する (MobileNetの構造に近い)

● additive skip connectionsとconcatenative skip connectionsの比較

○ concatの場合、チャネル数が増え、複雑度が増える

      → 精度は向上する一方、ランタイム時間も増加

● skip connectionを持つと深度画像の鮮明さが向上 (定性評価)



20
GT

skip

connectio

なし

skip

connectio

あり

結果から depthwise decoder + skip-add を採用

実験 | Network Pruningの効果

● NetAdaptを使用

○ 各レイヤーのチャネル数を効率良く減らし、複雑度を減少













○ ほぼ同じ精度でGPUでの実行時間を1.5倍に削減

21
網掛け部分が

pruning前のチャネル数

デモ映像 @ ICRA 2019
 22
FastDepth: Fast Monocular
Depth Estimation on Embedded Systems @
ICRA 2019
url : https://youtu.be/gRqrYJWyXyI?t=38
Demo of FastDepth on iPhone @ ICRA 2019
url: https://youtu.be/gtXfRTPnz6Y
まとめ

● 従来の単眼深度推定アルゴリズムは高性能のGPUを要し、

リアルタイム推論に時間がかかる

● 軽量なエンコーダ/デコーダネットワークアーキテクチャで構築し、

計算の複雑さと遅延を低減するためのネットワークプルージングを適用

● エッジデバイスにおいて、最も低いレイテンシと最も高いスループット

23
GT
Image
 Fast Depth

組み込みシステムのための単眼深度推定

More Related Content

What's hot

What's hot (20)

[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
 
[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo
[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo
[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding ModelNIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
 
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
 
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 

Similar to FastDepth: Fast Monocular Depth Estimation on Embedded Systems

ネットワークコマンド入力に対応したツール事例
ネットワークコマンド入力に対応したツール事例ネットワークコマンド入力に対応したツール事例
ネットワークコマンド入力に対応したツール事例
fumoto kazuhiro
 
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
Insight Technology, Inc.
 

Similar to FastDepth: Fast Monocular Depth Estimation on Embedded Systems (20)

電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
 
ネットワークコマンド入力に対応したツール事例
ネットワークコマンド入力に対応したツール事例ネットワークコマンド入力に対応したツール事例
ネットワークコマンド入力に対応したツール事例
 
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
 
研究を加速するChainerファミリー
研究を加速するChainerファミリー研究を加速するChainerファミリー
研究を加速するChainerファミリー
 
キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...
キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...
キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawa
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編
 
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
 
MemoryPlus Workshop
MemoryPlus WorkshopMemoryPlus Workshop
MemoryPlus Workshop
 
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen
 
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
 
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活
 
Storm×couchbase serverで作るリアルタイム解析基盤
Storm×couchbase serverで作るリアルタイム解析基盤Storm×couchbase serverで作るリアルタイム解析基盤
Storm×couchbase serverで作るリアルタイム解析基盤
 
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組みDeep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Recently uploaded

Recently uploaded (11)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

FastDepth: Fast Monocular Depth Estimation on Embedded Systems

  • 1. DLゼミ
 FastDepth: Fast Monocular Depth Estimation on Embedded Systems
 1 北海道大学大学院情報科学院
 調和系工学研究室
 修士1年 森 雄斗

  • 2. 論文情報
 2 ● タイトル
 – FastDepth: Fast Monocular Depth Estimation on Embedded Systems ● 学会
 – ICRA (IEEE International Conference on Robotics and Automation)2019 ● 著者
 – Diana Wofk*, Fangchang Ma* , Tien-Ju Yang, Sertac Karaman, Vivienne Sze • The Massachusetts Institute of Techonology
 ● Github
 – https://github.com/dwofk/fast-depth(PyTorch) ● Webサイト
 – http://fastdepth.mit.edu/

  • 4. 背景
 ● 既存の深度センサはかさばり、消費電力が高いため、単眼カメラを用いた深度 推定が望まれる
 ● 従来の単眼深度推定は、精度向上のみに焦点が当てられ、結果的に計算リ ソースが大きいアルゴリズムを採用している
 ● これからの課題は、アルゴリズムの精度と計算及び実行時間のコストのバラ ンスをとること
 4 深度センサ 単眼カメラ 単眼深度推定
 アルゴリズム 小型・低コストのために
 が大きな計算リソースを必要としている から
 へ しかし、 ex: LiDAR, 構造光3Dスキャナー ex: ReDWeb, struct2depth

  • 5. 背景
 ● 既存の深度センサはかさばり、消費電力が高いため、単眼カメラを用いた深度 推定が望まれる
 ● 従来の単眼深度推定は、精度向上のみに焦点が当てられ、結果的に計算リ ソースが大きいアルゴリズムを採用している
 ● これからの課題は、アルゴリズムの精度と計算及び実行時間のコストのバラ ンスをとること
 5 深度センサ 単眼カメラ 単眼深度推定
 アルゴリズム 小型・低コストのために
 が大きな計算リソースを必要としている から
 へ しかし、 ex: LiDAR, 構造光3Dスキャナー ex: ReDWeb, struct2depth
 バランスが
 重要

  • 6. 関連研究 | 単眼深度推定
Monocular Relative Depth Perception with Web Stereo Data Supervision [1]
 6 Deeper Depth Prediction with Fully Convolutional Residual Networks[2]
 関連研究 | 単眼深度推定 (Monocular Depth Estimation)
 どちらも高精度なモデルを作成するアプローチ
 [1] Xian, Ke, et al. "Monocular relative depth perception with web stereo data supervision." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [2] Laina, Iro, et al. "Deeper depth prediction with fully convolutional residual networks." 2016 Fourth international conference on 3D vision (3DV). IEEE, 2016.
  • 7. 関連研究 | その他
 ● Efficient Neural Networks
 ○ 画像分類 | VGG → MobileNet
 ○ 物体検出 | SSD → FasterRCNN
 
 
 
 
 ● Network Pruning
 ○ 冗長なパラメータや計算と特定して除去
 ○ ex: NetAdapt
 
 7 ラベルに縮小するエンコーダーネットワークに焦点が当てられている
 デコーダーネットワークを持つピクセルベースの効率性についてはあまり検討されていない
 図1 | https://missinglink.ai/guides/tensorflow/tensorflow-conv2d-layers-practical-guide/ より引用
 図1: 一般的なCNN
 一般的にエンコーダーネットワークに適用されている
 エンコーダーとデコーダーの両方の効率性がプルーニングによって向上するかを実証する

  • 9. 提案手法 | ネットワーク構成
 9 Fully convolutional encoder-decoder
 入力サイズと同じ出力サイズを出力するには、”Fully Convolutional”が効果的[3]
 全結合層を1×1の畳み込みで置き換える
 [3] Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
  • 10. 提案手法 | ネットワーク構成
 10 ● 低レイテンシを目標とし、MobileNet_v1[4]を採用
 [4] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient convolutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, 2017. (a) 通常の畳み込み演算
 (b) 下がMobileNetの畳み込み演算
 空間方向とチャネル方向の畳み込みを同時に行わず、 
 Depthwise(空間方向)とPointwise(チャネル方向)を順に行う 
 m×m×nの標準的な畳込みレイヤの場合
 MAC(積和演算)の回数がm 倍少ない
 2

  • 11. 提案手法 | ネットワーク構成
 11 ● Decoder
 ○ 5×5のアップサンプリングレイヤーを使用
 ○ 中間特徴マップのサイズを倍にし、チャネル数を半分にする
 ○ 本研究ではNNconv5と定義
 
 ● Skip Connection (U-Net, DeeperLabにも使用されている)
 ○ エンコーダによって失われた画像情報を追加する
 ○ エンコーダの中間の3層をアップサンプリングレイヤーに加算
 
 

  • 12. 提案手法 | ネットワーク構成
 12 ● Decoder
 ○ 5×5のアップサンプリングレイヤーを使用
 ○ 中間特徴マップのサイズを倍にし、チャネル数を半分にする
 ○ 本研究ではNNconv5と定義
 
 ● Skip Connection (U-Net, DeeperLabにも使用されている)
 ○ エンコーダによって失われた画像情報を追加する
 ○ エンコーダの中間の3層をアップサンプリングレイヤーに加算
 
 

  • 13. 提案手法 | ネットワークコンパイル
 ● TVMコンパイラスタック[5]を使用
 ○ ハードウェア上でのランタイム削減のために最適化
 
 
 
 
 13 [5] T. Chen, T. Moreau, Z. Jiang, L. Zheng, E. Yan, H. Shen, M. Cowan, L. Wang, Y. Hu, L. Ceze et al., “TVM: An Automated End-to-End Optimizing Compiler for Deep Learning,” in 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18), 2018, pp. 578–594. web: https://tvm.apache.org/2017/10/06/nnvm-compiler-announcement
  • 14. 提案手法 | Network Pruning
 ● NetAdapt[6]を使用
 ○ 使用率の低いアクティベーションチャネルを減少させる
 ○ 精度と複雑さのトレードオフで最も良いネットワーク提案
 
 14 [6] T.-J. Yang, A. Howard, B. Chen, X. Zhang, A. Go, M. Sadler, V. Sze, and H. Adam, “NetAdapt: PlatformAware Neural Network Adaptation for Mobile Applications,” in European Conference on Computer Vision (ECCV), 2018. 
 ・github | https://github.com/denru01/netadapt/

  • 15. 実験 | 設定
 ● データセット
 ○ NYU Depth Dataset v2 [7]
 ■ Microsoft Kinectで撮影した室内の画像(1449個)
 ■ ダウンロードurl: https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
 
 ● エンコーダー
 ○ ImageNetで事前学習
 ● プラットフォーム
 ○ Jetson TX2
 
 ● 実験概要
 ○ 先行研究との比較
 ○ エンコーダーの検証
 ○ デコーダーの検証
 ○ Network Pruningの効果
 15 [7] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, “Indoor segmentation and support inference from RGBD images,” in European Conference on Computer Vision (ECCV), 2012, pp. 746–760. 
 サンプル画像
 推論の時間と精度を確認

  • 16. 実験 | 先行研究との比較
 ● 推論時はデコーダー部分で時間がかかる
 ● ベースラインと比較して、同程度の精度かつ総ランタイムを約65倍に短 縮
 16 先行研究との比較 
 MACs: 積和演算 
 RMSE: 平均平方二乗誤差 
 δ : 相対誤差が25%以内の    予測ピクセルの割合 

  • 17. 実験 | エンコーダーの検証
 ● エンコーダー部分のみを変更して推論
 ○ 精度は落ちるが、ランタイム時間を大幅に減少
 17
  • 18. 実験 | エンコーダーの検証
 ● エンコーダー部分のみを変更して推論
 ○ 精度は落ちるが、ランタイム時間を大幅に減少
 18 深層学習フレームワークが今回の実装において最 適化されていないことに起因 ..? 深層学習コンパイラの必要性あり
  • 19. 実験 | デコーダーの検証 | アップサンプリング処理
 ● 4つのアップサンプリング処理を比較
 ○ 高い精度と低いランタイム時間を持つNNConv5を採用
 19 2×2の
 Unpooling
 サイズを2倍にする 
 最近傍補間

  • 20. 実験 | デコーダーの検証 | depthwise and skip connection
 ● 標準的なデコーダーとdepthwise デコーダーの比較
 ○ depthwise: 畳み込みの深さ方向に分解する (MobileNetの構造に近い)
 ● additive skip connectionsとconcatenative skip connectionsの比較
 ○ concatの場合、チャネル数が増え、複雑度が増える
       → 精度は向上する一方、ランタイム時間も増加
 ● skip connectionを持つと深度画像の鮮明さが向上 (定性評価)
 
 20 GT
 skip
 connectio
 なし
 skip
 connectio
 あり
 結果から depthwise decoder + skip-add を採用

  • 21. 実験 | Network Pruningの効果
 ● NetAdaptを使用
 ○ 各レイヤーのチャネル数を効率良く減らし、複雑度を減少
 
 
 
 
 
 
 ○ ほぼ同じ精度でGPUでの実行時間を1.5倍に削減
 21 網掛け部分が
 pruning前のチャネル数

  • 22. デモ映像 @ ICRA 2019
 22 FastDepth: Fast Monocular Depth Estimation on Embedded Systems @ ICRA 2019 url : https://youtu.be/gRqrYJWyXyI?t=38 Demo of FastDepth on iPhone @ ICRA 2019 url: https://youtu.be/gtXfRTPnz6Y