SlideShare a Scribd company logo
1 of 16
DDR: Deep Diminished Reality
の実現に向けた一検討
第40回CV勉強会「AR/VRを支える技術」
2017/6/10
進矢陽介
2017/6/15 説明・紹介論文追加
自己紹介
2007~2014 東京大学
話者認識
形状の数式表現、Mixed Reality
2014~2015 三菱電機
車内センシング(ドライバモニタ)
2015~ デンソー(東京支社)
車外センシング(ADAS、自動運転)
技術動向調査(cvpaper.challenge参加)
http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用
三菱電機公式サイトより引用
※本発表は個人として行うものであり
所属組織を代表するものではありません
前提知識:DR (Diminished Reality, 隠消現実感)
説明文・図引用元:
[森ら, 日本バーチャルリアリティ学会論文誌2011]
• 「視覚的に不要な物体を隠蔽・消去,
もしくは障害となる物体を透過させる技術」
• 下図の場合、ポストが存在しないように
見せかける技術
背景:ARと変身願望
Snapchat, SNOW, Instagram
・顔検出・顔器官検出による
けもの化機能
・Viola-Jones世代を中心に
億単位のユーザー
②美少女化願望
①けもの化願望
機械学習で美少女化 ~ あるいはNEW GAME! の世界 ~
http://qiita.com/Hi-king/items/8d36d9029ad1203aac55
• 私は貝になりたい
• けものになりたい
• 早く人間になりたい
• 風になりたい
• チーズ蒸しパンになりたい
• 美少女になりたい
• 来世は東京のイケメン男子に
してくださーい!
SNOW https://itunes.apple.com/jp/app/id1022267439
人間が持つ様々な変身願望
・顔検出・似顔絵生成GAN
による美少女化
・2020年に向けて
さらなる研究の必要性
課題:顔に限定され、全身を変換できない
全身の姿勢を推定する技術が必要
人物姿勢推定
OpenPosehttps://github.com/CMU-Perceptual-Computing-Lab/openpose
[Zhe Cao+, CVPR2017], [Tomas Simon+, CVPR2017]
多人数の2D姿勢を約10fpsで推定
手と顔のkeypointも合わせて推定
MMD (MikuMikuDance) 等の
3Dモデル
関節等を合わせて
重畳表示
VNect http://gvv.mpi-inf.mpg.de/projects/VNect/
[Dushyant Mehta+, SIGGRAPH2017]
1人の3D姿勢を30fpsで推定
https://learnmmd.com/http:/learnmmd.com/quic
k-start-basics-of-mmd-to-get-you-started/
人物姿勢推定と重畳表示
なんかでかい
重畳表示
BodySLAM https://wrnch.com/
・wrnch社の人物姿勢推定エンジンで、ARに利用可能
・重畳する物体は鎧(通常の服より大きい)
重畳する物体の方が小さいと破綻すると推測される
©大川ぶくぶ/竹書房・キングレコード http://hoshiiro.jp/
重畳する物体
重畳される物体
はみ出る
課題:
大は小を兼ねない
元画像中の人物を消去する技術が必要
発生する現象
画像補完
Globally and Locally Consistent Image Completion
[Satoshi Iizuka+, SIGGRAPH2017] http://hi.cs.waseda.ac.jp/~iizuka/projects/completion/ja/
課題:マスクの入力が必要
マスクを推定する技術が必要
Instance segmentation
Mask R-CNN
[Kaiming He+, arXiv2017] https://arxiv.org/abs/1703.06870
DDR: Deep Diminished Reality
• Instance segmentationと画像補完により
単眼カメラでのDR (Diminished Reality)が実現される
• 学習済みモデルの組み合わせで実行可能になるはず
課題:
遅い (解像度によるが約3fps)
一つのネットワークにまとめ、
専用に学習した方が良い
図引用元:[Kaiming He+, arXiv2017], [Satoshi Iizuka+, SIGGRAPH2017]
人物を3Dモデルに変換する場合の構成案
人物姿勢推定
Instance
segmentation
画像補完
重畳表示
光学的整合性
Discriminator*1
陰影生成*1
画像補完
Discriminator
*1: オプション。検討が不十分ですのでご了承下さい。以下が関連するかもしれません。
Deep Shading [Oliver Nalbach, EGSR2017] http://deep-shading-datasets.mpi-inf.mpg.de/
https://www.youtube.com/
watch?v=OWSpFm5LP3I
画像引用元は他ページをご参照下さい。
課題:どうやってマルチタスク学習を行うか
• データセット準備、学習、評価、実験環境再現が大変なため、
Instance segmentationと画像補完と3D人物姿勢推定を同時実行し、
元画像の人物を消去した上で、
MMDを重畳表示するのに都合の良いデータセットがあると良い
• 上記が無理でも、異種のデータセットを交ぜて学習を行いつつ、
メモリ消費量は抑えられる手法があると良い
SURREAL Dataset
Learning from Synthetic Humans
[Gül Varol+, CVPR2017]
http://www.di.ens.fr/willow/research/surreal/
UberNet
Ubernet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision Using Diverse Datasets and Limited Memory
[Iasonas Kokkinos, CVPR2017] https://arxiv.org/abs/1609.02132
cvpaper.challenge資料: https://www.slideshare.net/cvpaperchallenge/201609cvpaperchallenge2016/24
まとめ
• ディープラーニング技術の進展により、
単眼カメラでのDR (Diminished Reality)の実現が近づいている
• 高精度化が重要なのは言うまでもないが、
AR関連の応用には、何よりも速さが足りない
(各技術はこの1年で著しく高速化したが、更なる高速化が必要)
補足:応用上の高速化
• ディープでなくても良い部分を置き換える
• フレームごとに別のGPUで処理(遅延が気にならない場合)
• キーフレームのみ重い演算を行う
• 背景の真値を取得し、ボトルネックとなるであろう画像補完処理を除去(対象が動く場合)
• アプリケーションに応じて、解像度を下げる、処理対象を限定する
補足:CNN自体の高速化
• Depthwise Separable Convolution*1
• 蒸留 (Distillation)*2
• その他モデル圧縮*3
*1: 近年、高精度化・高速化・省メモリ化を目的に盛んに研究されている。
- Xception [François Chollet, CVPR2017] https://arxiv.org/abs/1610.02357
- ResNeXt [Saining Xie+, CVPR2017] https://arxiv.org/abs/1611.05431
- Speed/accuracy trade-offs [Jonathan Huang+, CVPR2017] https://arxiv.org/abs/1611.10012
- MobileNet [Andrew G. Howard+, arXiv2017] https://arxiv.org/abs/1704.04861
- SliceNet [Lukasz Kaiser+, arXiv2017] https://arxiv.org/abs/1706.03059
一方で、演算回数の理論値通りには高速化しない(2017年6月時点)。
- Speed/accuracy論文の”4.1.7 FLOPs analysis.”のMobilenetに関する記載
- Depthwise (separable) convolutionとか色々な畳込みの処理時間を比較してみる [内田祐介, 2017] http://qiita.com/yu4u/items/cf3f81e32fe613747f76
- 畳み込みニューラルネットを高速化するためのいろいろ [徳永拓之, 2017] https://developer.smartnews.com/blog/2017/06/convolution-speed-up/
そのため、Depthwise Separable Convolutionのパフォーマンスが出るよう設計されたハードウェアの登場が期待される。
(Depthwise Separable Convolutionを早期に検討していたGoogleが圧倒的に有利。)
*2: segmentationではおそらく有効 (T-Net [German Ros+, arXiv2016] https://arxiv.org/abs/1604.01545 )。
画像補完等で有効かは要調査、要検証。
*3: 「マルチタスク学習でのモデル圧縮をどのように行うべきか」、「タスクごとに何の手法が有効で、それは何故なのか」等、更なる研究が必要。

More Related Content

What's hot

Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsKazuyuki Miyazawa
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)Yusuke Uchida
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介miyanegi
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
ディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けてディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けてIkuro Sato
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術Takuya Minagawa
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
20160525はじめてのコンピュータビジョン
20160525はじめてのコンピュータビジョン20160525はじめてのコンピュータビジョン
20160525はじめてのコンピュータビジョンTakuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
コンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスコンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスYusuke Uchida
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術Yusuke Uchida
 

What's hot (13)

Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
ディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けてディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けて
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
20160525はじめてのコンピュータビジョン
20160525はじめてのコンピュータビジョン20160525はじめてのコンピュータビジョン
20160525はじめてのコンピュータビジョン
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
コンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスコンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネス
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
 

Recently uploaded

2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor arts yokohama
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)ssuser539845
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法ssuser370dd7
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見Shumpei Kishi
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦Sadao Tokuyama
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfMatsushita Laboratory
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdfAyachika Kitazaki
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~arts yokohama
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-LoopへTetsuya Nihonmatsu
 

Recently uploaded (12)

2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
 
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
 
2024 03 CTEA
2024 03 CTEA2024 03 CTEA
2024 03 CTEA
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
 
2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoito
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
 

DDR: Deep Diminished Realityの実現に向けた一検討