SlideShare a Scribd company logo
1 of 38
Download to read offline
The Cityscapes
Dataset for Semantic Urban
Scene Understanding
第35回CV勉強会「CVPR2016読み会(後編)」
2016/7/24
進矢陽介
自己紹介
2007~2014 東京大学
話者認識
形状の数式表現、Mixed Reality
2014~2015 三菱電機
車内センシング(ドライバモニタ)
2015~ デンソー(東京支社)
車外センシング(ADAS、自動運転)
技術動向調査(cvpaper.challenge参加)
http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用
三菱電機公式サイトより引用
※本発表は個人として行うものであり
所属組織を代表するものではありません
0. 導入 (1)Semantic Urban Scene Understandingとは
今回主に扱うのは、都市交通環境のSemantic Segmentation
Cityscapes Dataset
[M.Cordts+, CVPR2016]
これを
こうしたい
道路
空
車
樹
建物
標識
0. 導入 (2)Semantic Segmentationとは
http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 より引用
(Classification)
0. 導入 (3)CNNによるSemantic Segmentation
FCN[J.Long+, CVPR2015]
← Classification
何が映っているか
矩形ごとに出力
← Semantic Segmentation
何が映っているか
ピクセルごとに出力
①基本原理
②学習方法
③データの集め方
どのピクセルが猫かをアノテーション(正解ラベル付け)すれば良い
一体どうやって? 人がやったら時間がかかるぞ……
データ数 GPU
レベルを上げて物理で殴ればいい
0. 導入 (4)アノテーションの呪い (The Curse of Dataset Annotation)
[J.Xie+, CVPR2016]を元に作成
← 短時間でアノテーションできるタスクの
データは大量にある
← アノテーションに時間がかかるため
十分なデータが無い
どうにかして大量のデータが欲しい
0. 導入 (5)今回紹介する論文・データセット
1. Cityscapes Dataset [M.Cordts+, CVPR2016]
2. 3D to 2D Label Transfer [J.Xie+, CVPR2016]
3. SYNTHIA Dataset [G.Ros+, CVPR2016]
4. Virtual KITTI Dataset [A.Gaidon+, CVPR2016]
5. Scene Flow Datasets [N.Mayer+, CVPR2016]
FCN, SegNetの詳細等は紹介しないため、以下をご参照下さい
https://computing.ece.vt.edu/~f15ece6504/ (W7: Oct 6)
http://www.slideshare.net/Takayosi/ieee-itss-nagoya-chapter (p.40あたり)
http://www.slideshare.net/cvpaperchallenge
人手で頑張ろう
3Dスキャン
データを使おう
CGを使おう
1. Cityscapes
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Cordts_The_Cityscapes_Dataset_C
VPR_2016_paper.pdf
プロジェクトページ: https://www.cityscapes-dataset.com/
スライド: https://www.mpi-inf.mpg.de/fileadmin/inf/d2/HLCV/HLCV_2016/cv-ss16-0707-
deep-learning3.pdf
The Cityscapes Dataset for Semantic
Urban Scene Understanding
Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld,
Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth,
Bernt Schiele
1. Cityscapes (1)データの特徴
Fine annotations
・5000枚
・Instance-wise annotation
(人は1人ずつ、車は1台ずつ)
・品質を保証するため内製
・1枚あたり1時間半かけて
アノテーション+チェック
Coarse annotations
・20000枚
・弱教師あり学習用
(使わなくても良い)
・外注
・1枚あたり7分以下で
アノテーション
1. Cityscapes (1)データの特徴
従来のデータセットとは一線を画す、多様・大規模なデータセット
アノテーションピクセル数
1. Cityscapes (2)Instance数最大のデータ
1. Cityscapes (3)評価結果
使用解像度が精度に大きく影響
Cityscapesを使って学習すると
他のデータセットでも精度向上
↑
downscaling factor
2. 3D to 2D Label Transfer
Semantic Instance Annotation of Street
Scenes by 3D to 2D Label Transfer
Jun Xie, Martin Kiefel, Ming-Ting Sun, Andreas Geiger
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Xie_Semantic_Instance_Annotation_CVPR
_2016_paper.pdf
プロジェクトページ: http://www.cvlibs.net/projects/label_transfer/ (2016/7/23時点では未公開)
2. 3D to 2D Label Transfer (1)データの特徴
①LIDARで3Dデータを取得
②3Dの状態でアノテーション
③3Dから2Dに転写
・40万枚の画像
・10万のレーザースキャンデータ
・semantic 3D annotations
・郊外の静止物にフォーカス
・先行研究と相補的
- Cityscapes:都市
- [L.-C.Chen+, CVPR2014]:
車両へのCADモデルあてはめ
データセット作成方法 データセット内容
収集対象
2. 3D to 2D Label Transfer (2)手法
ピクセルと3D点群のラベルを同時に推定するCRFモデルを使用
Pixel Unary Potentials
3D Point Unary Potentials
Geometric Unary Potentials
Pixel Pairwise Potentials 2D/3D Pairwise Potentials
3D Pairwise Potentials
①Gibbs energy function
2. 3D to 2D Label Transfer (2)手法
②Geometric Unary Potentials
Curb, Foldを検出し、道路・歩道・壁のラベル変化に対応
2. 3D to 2D Label Transfer (3)定量評価結果
2D to 2D(±5フレームの画像から中間画像を推定)の従来手法、
単純な3D to 2Dの転写と比較し、高精度
2D to 2D
3D to 2D
2. 3D to 2D Label Transfer (4)アノテーション時間
2Dでは20時間かかるアノテーション(※)を
提案手法では3時間未満でアノテーション可能
※条件:
・200フレームの動画を10フレームごとにアノテーション
・1枚のアノテーションに60分かかると仮定
2. 3D to 2D Label Transfer (5)定性評価結果
3D点群転写結果
入力画像
+
segmentation結果
error map
大部分の境界を正しく推定できるが
いくつか課題あり(樹、コントラストの低い領域、等)
3. SYNTHIA
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_
2016_paper.pdf
プロジェクトページ: http://synthia-dataset.net/
The SYNTHIA Dataset: A Large Collection
of Synthetic Images for Semantic
Segmentation of Urban Scenes
German Ros, Laura Sellart, Joanna Materzynska, David Vazquez,
Antonio M. Lopez
3. SYNTHIA (1)データの特徴
• CGで生成した架空の都市のデータ
• 季節・天気・照明条件・視点の変動あり
• ground truth: semantic segmentation, depth
詳細は公式動画をご覧下さい
http://synthia-dataset.net/dataset/
3. SYNTHIA (2)手法
• 2種のCNNでSemantic Segmentation
- T-Net [G.Ros+, arXiv2016]
- FCN [J.Long+, CVPR2015]
• 実写データとCGデータを交ぜて学習する方法
BGC (Balanced Gradient Contribution) [G.Ros+, arXiv2016]を使用し
CGデータの重要度を下げる(発散を防ぐ効果あり)
実際には、実写データ6枚とCGデータ4枚を含むミニバッチを
使用しているだけ(λ=4/6)
(実写データでのロス) + λ(CGデータでのロス)
3. SYNTHIA (3)定量評価結果
実写データとCGデータを併用して学習することで
実写データのみで学習した場合と比較し精度向上
(Camvid, KITTIの場合、Class Accuracyが10%前後向上)
3. SYNTHIA (4)定性評価結果
Real(実写) + Virtual(CG) が優勝
4. Virtual KITTI
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Gaidon_Virtual_Worlds_as_CVPR_2
016_paper.pdf
プロジェクトページ:http://www.xrce.xerox.com/Research-Development/Computer-
Vision/Proxy-Virtual-Worlds
http://www.xrce.xerox.com/Research-Development/Publications/2015-085
Virtual Worlds as Proxy for Multi-Object
Tracking Analysis
Adrien Gaidon, Qiao Wang, Yohann Cabon, Eleonora Vig
4. Virtual KITTI (1)データの特徴
KITTI (multi-object
tracking benchmark)
Virtual KITTI
ground truth
optical flow, segmentation, depth
CGで
クローン作成
4. Virtual KITTI (1)データの特徴
カメラの向き、時間帯、天気の7種の変動を用意
4. Virtual KITTI (2)評価結果
• multi-object trackingの精度を、2種のTrackerで評価
• 実写データでの学習とCGデータでの学習で同程度の精度
→ CGデータが実写データの代替として有用
4. Virtual KITTI (2)評価結果
CGデータでプレトレーニングし
実写データでファインチューニングすることで精度向上
5. Scene Flow Datasets
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR_2016_pa
per.pdf
プロジェクトページ: http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/
A Large Dataset to Train Convolutional
Networks for Disparity, Optical Flow, and
Scene Flow Estimation
Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer, Daniel
Cremers, Alexey Dosovitskiy, Thomas Brox
5. Scene Flow Datasets (1)先行研究
Flying Chairs Dataset (FlowNet [A.Dosovitskiy+, ICCV2015])
・椅子が空を飛ぶデータセット
・奥行き方向には飛ばない
・オプティカルフロー推定用CNNの学習に使える
5. Scene Flow Datasets (2)データの特徴
③Driving
(KITTIリスペクト)
②Monkaa
(Sintelリスペクト)
①FlyingThings3D
・色んな物が空を飛ぶデータセット(椅子だけじゃない!)
・奥行き方向にも飛ぶ!
・シーンフロー推定用CNNの学習に使える!
5. Scene Flow Datasets (3)手法
①オプティカルフローを推定するFlowNetを学習
②視差を推定するDispNetを2つ学習
③ ①,②を統合したSceneFlowNetを学習
シーンフローの計算に
時刻t, t+1の視差の変化が必要
5. Scene Flow Datasets (4)視差評価結果
精度では劣るが1000倍高速
http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php
?benchmark=stereo (2016/7/23時点)
特にForegroundの精度が良い
5. Scene Flow Datasets (5)シーンフロー評価結果
オプティカルフロー・視差を別々に求めるより
SceneFlowNetで統合して求める方が高精度
オプティカルフロー推定では、Flying Chairs Datasetには勝てなかったよ…
まとめ
• Semantic Urban Scene Understanding に関する
5つの論文・データセットを紹介
• Semantic Segmentation用データを如何に集め、
如何に使うべきかは現時点で判断できず、更なる研究が必要
• Tracking, Scene Flow等、動きに関するデータは
CGで代用できる可能性が高い
どのようなデータで精度が上がり、それが何故なのか分析が必要
補足:CVPR2016で目についた傾向
Segmentation関連が約65件、うちSemantic Segmentationが約30件
(タイトル・セッション名で検索)
• Multi-scale対応
FCN等でreceptive fieldが固定サイズである問題の解決
• RNNによる画素走査
context情報を抽出
• Boundary, Optical Flowの併用
CRFの併用同様、境界付近の精度を向上
• 他のタスクへの転用
Semantic Segmentationの結果やCNNアーキテクチャを転用
補足:CNNによるピクセルラベリング
http://people.eecs.berkeley.edu/~jonlong/ より引用
・似た構造のCNNで、Semantic Segmentation以外にも様々な応用が可能
・複数のタスクが相補的な効果を持ち得る(例:SceneFlowNet)
・入力・出力の教師データの組み合わせによって機能が変わる
データ次第で新しい問題を設定・解決できる可能性がある
ラフスケッチの線画化 [Simo-Serra+, SIGGRAPH2016]

More Related Content

What's hot

What's hot (20)

【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
よわよわPCによる姿勢推定 -PoseNet-
よわよわPCによる姿勢推定 -PoseNet-よわよわPCによる姿勢推定 -PoseNet-
よわよわPCによる姿勢推定 -PoseNet-
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組みDeep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
 
[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric
[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric
[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018
 

Similar to Dataset for Semantic Urban Scene Understanding

TERAS Conference
TERAS ConferenceTERAS Conference
TERAS Conference
Keiju Anada
 

Similar to Dataset for Semantic Urban Scene Understanding (20)

≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータ190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータ
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS Conference
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
ソフトウェアテストの最新動向の学び方
ソフトウェアテストの最新動向の学び方ソフトウェアテストの最新動向の学び方
ソフトウェアテストの最新動向の学び方
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020
エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020
エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020
 
"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPI
"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPI"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPI
"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPI
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
 
Relationship betweenddd and mvc
Relationship betweenddd and mvcRelationship betweenddd and mvc
Relationship betweenddd and mvc
 
IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)
IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)
IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)
 
MRTK V2.3 Spatial Awareness
MRTK V2.3 Spatial AwarenessMRTK V2.3 Spatial Awareness
MRTK V2.3 Spatial Awareness
 
Mithril
MithrilMithril
Mithril
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
【AWS×Deployment】TechTalk #5
【AWS×Deployment】TechTalk #5【AWS×Deployment】TechTalk #5
【AWS×Deployment】TechTalk #5
 

Recently uploaded

Recently uploaded (11)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

Dataset for Semantic Urban Scene Understanding

  • 1. The Cityscapes Dataset for Semantic Urban Scene Understanding 第35回CV勉強会「CVPR2016読み会(後編)」 2016/7/24 進矢陽介
  • 2. 自己紹介 2007~2014 東京大学 話者認識 形状の数式表現、Mixed Reality 2014~2015 三菱電機 車内センシング(ドライバモニタ) 2015~ デンソー(東京支社) 車外センシング(ADAS、自動運転) 技術動向調査(cvpaper.challenge参加) http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用 三菱電機公式サイトより引用 ※本発表は個人として行うものであり 所属組織を代表するものではありません
  • 3. 0. 導入 (1)Semantic Urban Scene Understandingとは 今回主に扱うのは、都市交通環境のSemantic Segmentation Cityscapes Dataset [M.Cordts+, CVPR2016] これを こうしたい 道路 空 車 樹 建物 標識
  • 4. 0. 導入 (2)Semantic Segmentationとは http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 より引用 (Classification)
  • 5. 0. 導入 (3)CNNによるSemantic Segmentation FCN[J.Long+, CVPR2015] ← Classification 何が映っているか 矩形ごとに出力 ← Semantic Segmentation 何が映っているか ピクセルごとに出力 ①基本原理 ②学習方法 ③データの集め方 どのピクセルが猫かをアノテーション(正解ラベル付け)すれば良い 一体どうやって? 人がやったら時間がかかるぞ…… データ数 GPU レベルを上げて物理で殴ればいい
  • 6. 0. 導入 (4)アノテーションの呪い (The Curse of Dataset Annotation) [J.Xie+, CVPR2016]を元に作成 ← 短時間でアノテーションできるタスクの データは大量にある ← アノテーションに時間がかかるため 十分なデータが無い どうにかして大量のデータが欲しい
  • 7. 0. 導入 (5)今回紹介する論文・データセット 1. Cityscapes Dataset [M.Cordts+, CVPR2016] 2. 3D to 2D Label Transfer [J.Xie+, CVPR2016] 3. SYNTHIA Dataset [G.Ros+, CVPR2016] 4. Virtual KITTI Dataset [A.Gaidon+, CVPR2016] 5. Scene Flow Datasets [N.Mayer+, CVPR2016] FCN, SegNetの詳細等は紹介しないため、以下をご参照下さい https://computing.ece.vt.edu/~f15ece6504/ (W7: Oct 6) http://www.slideshare.net/Takayosi/ieee-itss-nagoya-chapter (p.40あたり) http://www.slideshare.net/cvpaperchallenge 人手で頑張ろう 3Dスキャン データを使おう CGを使おう
  • 8. 1. Cityscapes 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Cordts_The_Cityscapes_Dataset_C VPR_2016_paper.pdf プロジェクトページ: https://www.cityscapes-dataset.com/ スライド: https://www.mpi-inf.mpg.de/fileadmin/inf/d2/HLCV/HLCV_2016/cv-ss16-0707- deep-learning3.pdf The Cityscapes Dataset for Semantic Urban Scene Understanding Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, Bernt Schiele
  • 9. 1. Cityscapes (1)データの特徴 Fine annotations ・5000枚 ・Instance-wise annotation (人は1人ずつ、車は1台ずつ) ・品質を保証するため内製 ・1枚あたり1時間半かけて アノテーション+チェック Coarse annotations ・20000枚 ・弱教師あり学習用 (使わなくても良い) ・外注 ・1枚あたり7分以下で アノテーション
  • 13. 2. 3D to 2D Label Transfer Semantic Instance Annotation of Street Scenes by 3D to 2D Label Transfer Jun Xie, Martin Kiefel, Ming-Ting Sun, Andreas Geiger 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Xie_Semantic_Instance_Annotation_CVPR _2016_paper.pdf プロジェクトページ: http://www.cvlibs.net/projects/label_transfer/ (2016/7/23時点では未公開)
  • 14. 2. 3D to 2D Label Transfer (1)データの特徴 ①LIDARで3Dデータを取得 ②3Dの状態でアノテーション ③3Dから2Dに転写 ・40万枚の画像 ・10万のレーザースキャンデータ ・semantic 3D annotations ・郊外の静止物にフォーカス ・先行研究と相補的 - Cityscapes:都市 - [L.-C.Chen+, CVPR2014]: 車両へのCADモデルあてはめ データセット作成方法 データセット内容 収集対象
  • 15. 2. 3D to 2D Label Transfer (2)手法 ピクセルと3D点群のラベルを同時に推定するCRFモデルを使用 Pixel Unary Potentials 3D Point Unary Potentials Geometric Unary Potentials Pixel Pairwise Potentials 2D/3D Pairwise Potentials 3D Pairwise Potentials ①Gibbs energy function
  • 16. 2. 3D to 2D Label Transfer (2)手法 ②Geometric Unary Potentials Curb, Foldを検出し、道路・歩道・壁のラベル変化に対応
  • 17. 2. 3D to 2D Label Transfer (3)定量評価結果 2D to 2D(±5フレームの画像から中間画像を推定)の従来手法、 単純な3D to 2Dの転写と比較し、高精度 2D to 2D 3D to 2D
  • 18. 2. 3D to 2D Label Transfer (4)アノテーション時間 2Dでは20時間かかるアノテーション(※)を 提案手法では3時間未満でアノテーション可能 ※条件: ・200フレームの動画を10フレームごとにアノテーション ・1枚のアノテーションに60分かかると仮定
  • 19. 2. 3D to 2D Label Transfer (5)定性評価結果 3D点群転写結果 入力画像 + segmentation結果 error map 大部分の境界を正しく推定できるが いくつか課題あり(樹、コントラストの低い領域、等)
  • 20. 3. SYNTHIA 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_ 2016_paper.pdf プロジェクトページ: http://synthia-dataset.net/ The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez
  • 21. 3. SYNTHIA (1)データの特徴 • CGで生成した架空の都市のデータ • 季節・天気・照明条件・視点の変動あり • ground truth: semantic segmentation, depth 詳細は公式動画をご覧下さい http://synthia-dataset.net/dataset/
  • 22. 3. SYNTHIA (2)手法 • 2種のCNNでSemantic Segmentation - T-Net [G.Ros+, arXiv2016] - FCN [J.Long+, CVPR2015] • 実写データとCGデータを交ぜて学習する方法 BGC (Balanced Gradient Contribution) [G.Ros+, arXiv2016]を使用し CGデータの重要度を下げる(発散を防ぐ効果あり) 実際には、実写データ6枚とCGデータ4枚を含むミニバッチを 使用しているだけ(λ=4/6) (実写データでのロス) + λ(CGデータでのロス)
  • 25. 4. Virtual KITTI 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Gaidon_Virtual_Worlds_as_CVPR_2 016_paper.pdf プロジェクトページ:http://www.xrce.xerox.com/Research-Development/Computer- Vision/Proxy-Virtual-Worlds http://www.xrce.xerox.com/Research-Development/Publications/2015-085 Virtual Worlds as Proxy for Multi-Object Tracking Analysis Adrien Gaidon, Qiao Wang, Yohann Cabon, Eleonora Vig
  • 26. 4. Virtual KITTI (1)データの特徴 KITTI (multi-object tracking benchmark) Virtual KITTI ground truth optical flow, segmentation, depth CGで クローン作成
  • 27. 4. Virtual KITTI (1)データの特徴 カメラの向き、時間帯、天気の7種の変動を用意
  • 28. 4. Virtual KITTI (2)評価結果 • multi-object trackingの精度を、2種のTrackerで評価 • 実写データでの学習とCGデータでの学習で同程度の精度 → CGデータが実写データの代替として有用
  • 29. 4. Virtual KITTI (2)評価結果 CGデータでプレトレーニングし 実写データでファインチューニングすることで精度向上
  • 30. 5. Scene Flow Datasets 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR_2016_pa per.pdf プロジェクトページ: http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/ A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer, Daniel Cremers, Alexey Dosovitskiy, Thomas Brox
  • 31. 5. Scene Flow Datasets (1)先行研究 Flying Chairs Dataset (FlowNet [A.Dosovitskiy+, ICCV2015]) ・椅子が空を飛ぶデータセット ・奥行き方向には飛ばない ・オプティカルフロー推定用CNNの学習に使える
  • 32. 5. Scene Flow Datasets (2)データの特徴 ③Driving (KITTIリスペクト) ②Monkaa (Sintelリスペクト) ①FlyingThings3D ・色んな物が空を飛ぶデータセット(椅子だけじゃない!) ・奥行き方向にも飛ぶ! ・シーンフロー推定用CNNの学習に使える!
  • 33. 5. Scene Flow Datasets (3)手法 ①オプティカルフローを推定するFlowNetを学習 ②視差を推定するDispNetを2つ学習 ③ ①,②を統合したSceneFlowNetを学習 シーンフローの計算に 時刻t, t+1の視差の変化が必要
  • 34. 5. Scene Flow Datasets (4)視差評価結果 精度では劣るが1000倍高速 http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php ?benchmark=stereo (2016/7/23時点) 特にForegroundの精度が良い
  • 35. 5. Scene Flow Datasets (5)シーンフロー評価結果 オプティカルフロー・視差を別々に求めるより SceneFlowNetで統合して求める方が高精度 オプティカルフロー推定では、Flying Chairs Datasetには勝てなかったよ…
  • 36. まとめ • Semantic Urban Scene Understanding に関する 5つの論文・データセットを紹介 • Semantic Segmentation用データを如何に集め、 如何に使うべきかは現時点で判断できず、更なる研究が必要 • Tracking, Scene Flow等、動きに関するデータは CGで代用できる可能性が高い どのようなデータで精度が上がり、それが何故なのか分析が必要
  • 37. 補足:CVPR2016で目についた傾向 Segmentation関連が約65件、うちSemantic Segmentationが約30件 (タイトル・セッション名で検索) • Multi-scale対応 FCN等でreceptive fieldが固定サイズである問題の解決 • RNNによる画素走査 context情報を抽出 • Boundary, Optical Flowの併用 CRFの併用同様、境界付近の精度を向上 • 他のタスクへの転用 Semantic Segmentationの結果やCNNアーキテクチャを転用