SlideShare a Scribd company logo
1 of 151
Download to read offline
2020/09/10 JPTA講演資料
コンピュータビジョン今昔物語
- 深層学習がCVの世界をどう変えたか -
株式会社ビジョン&ITラボ 代表取締役 皆川卓也
自己紹介
自己紹介
3
• 「コンピュータビジョン勉強会@関東」主催
• 株式会社フューチャースタンダード 技術顧問
• 慶應大学斎藤英雄研究室 訪問研究員
http://visitlab.jp
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
博士(工学)
コンピュータビジョン勉強会@関東
コンピュータビジョンを勉強
する有志の集まり
こんなテーマでやってきました
「コンピュータビジョン最
先端ガイド」の輪読会 ECCV読み会
強化学習縛り
論文読み会
AR/VRを支える
技術
ICCV読み会
CVPR読み会
CVでこんなもの作
りました大LT大会
CVの便利なツール/
ライブラリ
CVのお仕事
ハッカソン
OpenCV祭り
有名論文読み会
三次元形状計測・
認識
全日本コンピュータビジョン勉強会
コロナ禍のため、オンラインで以下の3つの勉強会の合同
開催
 コンピュータビジョン勉強会@関東 (@kantocv)
 http://sites.google.com/site/cvsaisentan/
 名古屋CV・PRML勉強会 (@nagoyacv)
 https://nagoyacv.connpass.com/
 関西CV・PRML勉強会 (@kansaicv)
 https://sites.google.com/site/kansaicvprml/
第4回 全日本コンピュータビジョン勉強会
7
 10/10(土) 「人に関わる認識・理解」論文読み会
 PRMU研究会のとの共催
 発表者募集中! https://kantocv.connpass.com/event/187341/
株式会社ビジョン&ITラボ
コンピュータビジョンとAIに
よって御社の「こまった」を
助ける会社
http://visitlab.jp
ビジョン
技術の町医者
AIビジネスについて、気軽に相談できる
事業内容
1. R&Dコンサルティング
2. 受託研究/開発
3. 開発マネジメント
4. 開発コンサルティング
5. ビジネス化コンサルティング
10
ソリューション/製品
11
深層学習 (Deep Learning)
Virtual / Augmented Reality
ナンバープレート認識
ビジョン&ITラボの代表的なソリューション
や製品の例を紹介いたします。
深層学習 (Deep Learning)
12
深層学習についてのコンサルティングや開発支援などを
行います。
 画像識別
 物体検出
 領域分割
 人物姿勢推定
 画像変換
 画像生成(GAN)
 etc
Virtual Reality/Augmented Reality
13
御社がVirtual RealityやAugmented Realityを用いたビジネ
スを行う上で必要な、総合的な技術コンサルティングや開
発/プロダクトを提供します。
 特定物体認識
 Visual SLAM
 三次元スキャン
 Face Tracking
ナンバープレート認識:
License Plate Recognizer
 画像や動画からナンバープレートを読み取ります
入力画像/動画 文字+座標
License Plate
Recognizer
練馬444
ま 1564
• Web APIまたはSDKで提供可能
• SDK
• LinuxまたはWindows
• C++またはPython
• アルファベット分類番号および図柄入りナンバープレートにも対応
• GPU不要でロバストかつ高速な認識
深層学習と私
皆川の略歴
16
1999-2003年
コンピュータビジョンで修士課程修了後、日本HP(後にアジレント・テクノロ
ジーへ分社)にて、ITエンジニアとしてシステム構築、プリセールス、プロ
ジェクトマネジメント、サポート等の業務に従事
皆川の略歴
17
1999-2003年
コンピュータビジョンで修士課程修了後、日本HP(後にアジレント・テクノロ
ジーへ分社)にて、ITエンジニアとしてシステム構築、プリセールス、プロ
ジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
これから、コンピュータビジョンのビジネスが
大きくなるぞ!という予感
皆川の略歴
18
1999-2003年
コンピュータビジョンで修士課程修了後、日本HP(後にアジレント・テクノロ
ジーへ分社)にて、ITエンジニアとしてシステム構築、プリセールス、プロ
ジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻(社
会人博士)。
自分でCVのアルゴリズムまで作れるようになりたい!
CV全体を俯瞰できるようになりたい!
皆川の略歴
19
1999-2003年
コンピュータビジョンで修士課程修了後、日本HP(後にアジレント・テクノロ
ジーへ分社)にて、ITエンジニアとしてシステム構築、プリセールス、プロ
ジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻(社
会人博士)。単位取得退学後、博士号取得(2014年)
Rejectの山
論文がなかなか通らない。。。
皆川の略歴
20
1999-2003年
コンピュータビジョンで修士課程修了後、日本HP(後にアジレント・テクノロ
ジーへ分社)にて、ITエンジニアとしてシステム構築、プリセールス、プロ
ジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻(社
会人博士)。単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
(2018年法人化)
まだ博士号取れてないけど、
とりあえず食わねば。。。
HMAXモデルの高速化
 畳み込み演算の階層
構造
 階層が上がる毎に複
雑な形状に反応する
 深層学習とよく似た構
造
Tuning
Tuning
Max
Max
S1
C1
S2
C2
Machine Learning
博士論文テーマ
21
博士論文:
http://koara.lib.keio.ac.jp/xoonips/modules/xoonips/detail.
php?koara_id=KO50002002-20133989-0003
・・・
・
・
・
・・・
Overlapping
areas
Shape size
is ignored
S2
C2
Max-pooling
Sliding Window
博士論文テーマ
22
Overlapping
scales
HMAXモデルによる物体検出の高速化
23
論文が通らず
モタモタしている間に
深層学習がブレイク
深層学習のブレイク
Team name Error
1 SuperVision 0.15315
2 SuperVision 0.16422
3 ISI 0.26172
4 ISI 0.26602
5 ISI 0.26646
6 ISI 0.26952
7 OXFORD_VGG 0.26979
8 XRCE/INRIA 0.27058
Team name Error
1 SuperVision 0.335463
2 SuperVision 0.341905
3 OXFORD_VGG 0.500342
4 OXFORD_VGG 0.50139
5 OXFORD_VGG 0.522189
6 OXFORD_VGG 0.529482
7 ISI 0.536474
8 ISI 0.536546
Classification Localization
大規模物体認識のコンテスト(ILSVRC 2012)
http://www.image-net.org/challenges/LSVRC/2012/
Deep Learning
ざわつくCVクラスタ
僕が当時抱いたイメージ
Deep Learning
機械学習屋
CV屋
世は正に
大深層学習時代
コンピュータビジョンの
ほぼ全ての分野に
深層学習が進出
博士課程をぬけ
ると、そこはレッ
ドオーシャンでし
た
この講演の目的
30
深層学習登場以降、コ
ンピュータビジョンの分
野がどのように変わって
いったのかを概説。
本日のお話
31
今や深層学習はほぼ全てのコンピュータ
ビジョン分野で使われていますが、今回は
以下の分野に絞ってお話します。
1. 一般物体認識
2. 物体検出
3. セグメンテーション
4. 三次元再構成
5. 深層学習によって大きく花開いた分野
一般物体認識
深層学習最初のブレークスルー
一般物体認識
33
 画像に写っている物体のカテゴリを判別する
飛行機 顔 自動車
入力
画像
出力
カテゴリ認識
学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
深層学習以前の画像認識
34
画像特徴量とは?
35
 画像を構成する画素の集合を「認識や識別のしやすい」
別のベクトルへ変換したもの
 画像の様々な変形(拡大/縮小、回転、ずれ等)に強い点
(キーポイント)を検出し、そのキーポイント周辺から取得
する特徴量を特に局所特徴量と呼ぶ
画像特徴量入力画像 物体認識/検出
局所特徴量の代表例
36
 Scale Invariant FeatureTransform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
スケール変化に弱い
キーポイント
位置ずれに弱い
キーポイント
スケール変化と位置ずれ
に強いキーポイント
局所特徴量の代表例
37
 Scale Invariant FeatureTransform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
2. キーポイント周辺から画像の回転に強い特徴量を算出
Histogram of Gradient
Orientations
• 最も画像の濃度変化の大き
い方向を軸とすることで、回
転不変性を実現
• キーポイント検出時に取得し
たスケール情報を元に周辺
パッチのサイズを決定するこ
とでスケール不変性を実現
一般物体認識の特徴量の例
38
 Bags-of-Features (BoF) [Csurka2004]
 形状(VisualWords)の画像中に現れる頻度(ヒストグラム)を
特徴量とする
Dictionary (Visual Words)
3
0
0
2
1
2
1
1
Histogram of visual words
Image
Bags-of-Featuresの流れ
39
学習画像群から局所特徴量(SIFT)を取得
局所特徴量をk-meansでクラスタリングし、クラス
タ中心をVisualWordsとする
認識対象画像から局所特徴量を取得し、各特徴
をVisualWordsへ割り当て
画像をVisualWordsのヒストグラムで表し、SVM
等の機械学習により対象のカテゴリを認識
深層学習以前の一般物体認識
40
 BoFは画像中のVisual Wordsの出現率
(ヒストグラム)を特徴ベクトルとして表現
 画像を表す特徴ベクトルをより豊かに
することで認識精度を向上が試みられ
てきた
 Pyramid Matching Kernel
 FisherVector
 VLAD
Pyramid Matching Kernel [Lazebnik2006]
41
 Visual Wordの出現率だけでなく、画像のどこで現れたか
まで考慮した特徴ベクトル
 画像を階層的に分割し、各ブロックの中でBoF表現
Fisher Vector [Perronnin2007]
42
 局所特徴量ベクトルの空間から、Dictionary(Visual
Words)をk-meansではなく混合ガウス分布で作成
 画像から取得した局所特徴(D次元)は、各ガウス分布
からのズレ(平均、分散、混合係数の勾配)として表現
 画像の各局所特徴のズレの平均を画像を表す特徴ベク
トルとする
局所特徴量全体から混合ガウス分布作成 局所特徴を対数確率密度関数の
勾配で表現
VLAD [Jegou2010]
43
 各局所特徴から、近傍のVisualWordとのズレを算出
 同じVisualWordに割り当てた局所特徴の差の平均ベク
トルを算出
 全てのVisualWordに対応したベクトルを並べたものが
VLAD特徴
VisualWord
局所特徴
深層学習以後の一般物体認識
44
学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
深層学習
深層学習の概要
 SIFTやHOGのような画
像特徴量を用いず、認
識に有効な特徴量を画
素から統計的に学習す
る。
 局所特徴量抽出を畳み
込み、VisualWords割り
当てがPoolingともとれる
 低レベル特徴から高レベ
ル特徴までの階層構造。
 低レベルな特徴ほど、
様々なタスクで共有可能
(Image from Lee. H in CVPR2012Tutorial)
AlexNet [Krizhevsky2012]
46
 ILSVRC2012優勝モデル
 8層の畳み込みニューラルネットワーク(CNN)
 畳み込み層とプーリング層が交互に表れる構造
GoogLeNet [Szegedy2014]
47
 Inception Moduleを導入することで、層における表現力を
向上
 1つの層で様々なサイズのカーネルを畳み込み
 1x1畳み込みによりチャネル数を削減
 層を深くすることで性能向上(ILSVRC2014で優勝)
VGG Net [Simonyan2015]
48
 5x5や7x7の畳み込みカーネルの代わりに、3x3の畳み
込みカーネルを繰り返すことで計算量を削減
 (当時としては多い)19層まで階層を深くすることで認識
精度を向上
** =
3x3カーネルを2回畳み込むと5x5カーネルを1回畳み込んだものと受容野
のサイズが同じになるが、計算量は18/25になる。
Residual Net [He2016]
49
 Residual Blockの導入で、階層をより深くする(152層)ことが可
能に
 ショートカットによって畳み込みをバイパス
 スキップされた畳み込み層は、ブロックへの入出力信号の残差に対
して学習するため、微細な変動も検出
 ILSVRC2015で優勝
一般物体認識まとめ
50
 深層学習以前の手法は、局所特徴量による
特徴抽出と、VisualWordによるプーリングに
よって画像のカテゴリを判別。
 深層学習以前は、認識能力を向上させるため
に、VisualWord等画像の表現力の向上に取
り組んできた。
 深層学習は特徴自体をデータから学習させ、
特徴抽出の畳み込み層と汎化のプーリング
層を何層も重ねることで、表現力とそれに伴う
認識能力を大幅に向上させた。
参考文献
51
 [Lowe1999]Lowe, D. G. (1999). Object recognition from local scale-
invariant features. In IEEE International Conference on ComputerVision
(pp. 1150–1157 vol.2).
 [Csurka2004]Csurka, G., Dance, C. R., Fan, L.,Willamowski, J., & Bray,
C. (2004).Visual categorization with bags of keypoints. In Workshop
on statistical learning in computer vision, ECCV (Vol. 1, p. 22).
 [Lazebnik2006]Lazebnik, S., Schmid, C., & Ponce, J. (2006). Beyond
bags of features: Spatial pyramid matching for recognizing natural
scene categories. In IEEE Conference on ComputerVision and Pattern
Recognition.
 [Perronnin2007]Perronnin, F., & Dance, C. (2007). Fisher kernels on
visual vocabularies for image categorization. In IEEE conference on
ComputerVision and Pattern Recognition.
 [Jegou2010]Jegou, H., Douze, M., Schmid, C., & Perez, P. (2010).
Aggregating local descriptors into a compact image representation.
In IEEE Conference on ComputerVision and Pattern Recognition
参考文献
52
 [Krizhevsky2012]Krizhevsky,A., Sutskever, I., & Hinton, G. E.
(2012). ImageNet Classification with Deep Convolutional
Neural Networks. In Advances in Neural Information Processing
Systems (NIPS)
 [Simonyan2014]Simonyan, K., & Zisserman,A. (2014).Very
Deep Convolutional Networks for Large-Scale Image
Recognition. In IEEE Conference on ComputerVision and Pattern
Recognition.
 [Szegedy2015]Szegedy, C., Liu,W., Jia,Y., Sermanet, P., Reed, S.,
Anguelov, D., … Rabinovich,A. (2015). Going Deeper with
Convolutions. Conference on ComputerVision and Pattern
Recognition
 [He2016]He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep
Residual Learning for Image Recognition. IEEE Conference on
ComputerVision and Pattern Recognition.
物体検出
物体検出
54
 画像から顔、人、モノなどの位置を検出する
55
深層学習以前の物体検出
SlidingWindow
画像中を走査し、各場所で特徴量抽出+認識処理
Cascaded Haar-like Detector [Viola2001]
56
 Haar-like特徴
 白領域の画素の和から黒領域の画素の和を引くだけ
 積分画像というテクニックとAdaBoostという機械学習アルゴリ
ズムで非常に高速に計算できる
plus
minus
Cascaded Haar-like Detector [Viola2001]
57
 Attentional Cascade
 画像中は「物体以外」の領域の方が多い
 効率よく「物体以外」の領域を削除するために、Adaboost識別
器を複数連結させ、上位で関係ない領域を早めに削除する。
全てのSliding
Window
1 2 3 更なる処理
拒否されたSliding
Window
TRUE TRUE TRUE
FALSE FALSE FALSE
Histogram of Oriented Gradients (HOG)
[Dalal2005]
58
 画像の濃度変化方向について場所(Cell)ごとの統計を
取ったもの
 輪郭のような特徴が良くとれる
 人以外の物体検出にも広く応用されている
Deformable Part Model [Felzenszwalb2009]
59
 HOG特徴を複数組み合わせることで、検出精度向上
 HOG特徴を抽出する位置の歪みも含めてLatent SVMと
いう機械学習アルゴリズムで学習する
Root filter Parts filter Deformation
深層学習の物体検出への適用
60
 Haar-likeやHOGなどのHand-crafted特徴量の場合、積
分画像や積分ヒストグラム等の特徴量計算の高速化テ
クニックを使っていた。
 畳み込みニューラルネットワーク(CNN)は処理が重い
ため、SlidingWindow1つ1つに対し、認識処理をかける
と非常に時間がかかってしまう。
 CNNを物体検出へ適用するために、SlidingWindowを
使用しない様々な工夫が提案
R-CNN [Girshick2014]
61
 Selective Searchという手法を用いて物体候補領域を検出
し、候補領域上のみCNNで処理することで計算量削減
Fast R-CNN [Girshick2015]
62
 R-CNNでは物体候補領域を1つ1つCNNで判別していたた
め遅い(VGGを使用した場合、GPU込みで1枚47秒)
 画像全体にCNNをかけて特徴マップを生成し、最後のプーリ
ング層を物体候補領域に合わせて切り出す(ROI-Pooling)
 R-CNNを検出時約213倍高速化
Faster R-CNN [Ren2015]
63
 R-CNNおよびFast R-CNNではSelective Searchを用いて物体候補
領域を事前に求めておく必要。
 Fast R-CNNのSelective Search部分をfeature map上で行うことで、
余計な処理を省き、高精度化/高速化(1枚当たり約200msec)。
→ Region Proposal Network (RPN)
この上(特徴マップ)で物体候
補領域検出を行う
YOLO [Redmon2015]
64
 Faster R-CNNのように物体候補領域抽出とクラス識別を分
けず、画像全体を一括で処理
 画像をSxSのブロックに分割し、それぞれのブロックで
Bounding Boxと物体クラスを推定
 最も信頼度の高いBounding Boxを採用
Single Shot multibox Detector
(SSD)[Liu2016]
65
 YOLOと同じ1-stage detector
 様々な解像度の特徴マップを生成し、それぞれにアン
カーとなる複数の縦横比のDefault Boxを準備
 それぞれのDefault Boxのオフセット(サイズと位置の変
化量)とクラスを推定
CornerNet [Law2018]
66
 Bounding Boxを左上と右下のコーナーのペアとして検出
 特徴マップから各コーナーのヒートマップ、Embeddings
(同じ Boxの左上と右下を紐づける値)、Boxのオフセット
を出力し、統合
CornerNet後のKey Pointベースの検出
67
 Object As Points [Zhou2019]
Bounding Boxの中心を検出し幅と高さを求める
左上、右下に中心の検出も加えることでよりロバストに
 CenterNet [Duan2019]
物体検出まとめ
68
 深層学習が一般物体認識で持つ高い認識能
力は、物体検出においても有用。
 従来法ではSlidingWindowを用いて物体検出
を行っていたが、深層学習を用いた物体検出
では膨大な計算を避けるため、Sliding
Windowを用いずに検出する様々な方法が提
案されている。
 Selective Searchの利用
 One-Stage Detector
 Corner Detection
参考文献
69
 [Viola2001]Viola, P., & Jones, M. (2001). Rapid object detection
using a boosted cascade of simple features. IEEE International
Conference on ComputerVision and Pattern Recognition (CVPR).
 [Dalal2005]Dalal, N., &Triggs, B. (2005). Histograms of
Oriented Gradients for Human Detection. IEEE Conference on
ComputerVision and Pattern Recognition (CVPR).
 [Felzenswalb2009]Felzenszwalb, P. F., Girshick, R. B., McAllester,
D., & Ramanan, D. (2009). Object detection with
discriminatively trained part-based models. IEEETransactions on
Pattern Analysis and Machine Intelligence, 32(9), 1627–1645.
 [Girshick2014] Girshick, R., Donahue, J., Darrell,T., & Malik, J.
(2014). Rich feature hierarchies for accurate object detection
and semantic segmentation. In IEEE Conference on Computer
Vision and Pattern Recognition.
参考文献
70
 [Girshick2015] Girshick, R. (2015). Fast R-CNN. International
Conference on ComputerVision, 1440–1448.
 [Ren2015] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster
R-CNN:Towards Real-Time Object Detection with Region
Proposal Networks. Advances in Neural Information Processing
Systems (NIPS).
 [Redmon2015]Redmon, J., Divvala, S., Girshick, R., & Farhadi,A.
(2015).You Only Look Once: Unified, Real-Time Object
Detection. Conference on ComputerVision and Pattern Recognition.
 [Liu2016]Liu,W.,Anguelov, D., Erhan, D., Szegedy, C., Reed, S.,
Fu, C.Y., & Berg,A. C. (2016). SSD: Single shot multibox
detector. In IEEE Europian Conference on ComputerVision.
参考文献
71
 [Law2018]Law, H., & Deng, J. (2018). CornerNet:
Detecting Objects as Paired Keypoints. In IEEE Europian
Conference on ComputerVision.
 [Zhou2019]Zhou, X.,Wang, D., & Krähenbühl, P. (2019).
Objects as Points. ArXiv, arXiv:1904.
 [Duan2019]Duan, K., Bai, S., Xie, L., Qi, H., Huang, Q., &
Tian, Q. (2019). CenterNet: Keypoint triplets for object
detection. In IEEE International Conference on Computer
Vision
Semantic
Segmentation
Semantic Segmentationとは
 各画素がどの物体に属するのかを推定する技術
[Thoma2016]より
深層学習以前のSegmentationの流れ
[Thoma2016]より
Sliding Windowを用いた識別
[Thoma2016]より
Sliding Windowを用いた識別
 SlidingWindowで画像をスキャン
 ウィンドウ内の画像から特徴量を抽出
 特徴量を入力として、機械学習によりウィンドウ中心画素の
ラベルを学習/分類
×
特徴量
• Color
• HOG
• SIFT
• BoVW
• Neural Network
• etc
機械学習
• SVM
• Random Forest
• Neural Network
確率場によるPost-Processing
Conditional Random Field (CRF)によるPost-
Processing
 画像の各画素をノードとし、隣接画素間にリンクを張ったグラ
フとみなす。
 真の画素のラベルを潜在変数𝒀
 画像から取得した特徴量を観測変数𝑿
潜在変数
観測変数
[Thoma2016]より
Conditional Random Field (CRF)によるPost-
Processing
 以下の条件で全体のエネルギーを最小化する潜在
変数𝒀を求める
特徴量𝑿から推定した各画素のラベルが、𝒚𝒊のラベルと一致
した時、エネルギー小
隣り合う𝒚𝒊のラベルが同じ時、エネルギー小
潜在変数
観測変数
[Thoma2016]より
一致の時
エネルギー小
一致の時
エネルギー小
CRF for Image Labeling [He2004]
 CRFをSemantic Segmentationへ適用した最初の論文
 ローカル特徴、全体特徴、ラベル間の位置関係を考慮し
たモデルを構築して最適化
TextonBoost [Shotton2009]
 各画素の周囲のテクスチャ(Texton)を元に画素のラベ
ルを学習(Joint Boost)することで物体のコンテクストを学
習
 CRFを用いてテクスチャ、色、位置、エッジを考慮した学
習
Fully Connected CRFs [Koltun2011]
 隣接画素だけでなく、全画素同士のペアを考慮したFully
Connected CRFsに対し効率的に学習させる方法を提案
深層学習のSemantic Segmentationへの適用
 画素ごとにCNNでクラス分類を行う
 単純にCNNの高い識別能力がSemantic
Segmentationに有利
 SlidingWindowを用いず、画像全体を一度に
処理
 層が深くなるごとに受容野が広がり(解像度
が落ち)、領域の境界部分があいまいになる
ため、この問題についての様々な解決法が提
案
Fully Convolutional Network (FCN)
[Long2014]
84
 VGG等のベースネットワークの全結合層を、畳み込み層
に変更し、ピクセルごとに教師ラベルが与えられた時、
End-to-Endで学習可能
 バイリニア補間で拡大した層に、浅い層の出力を結合す
ることで高解像度化し、1x1畳み込みでラベル判定
CRF as RNN [Zheng2015]
 Fully Connected CRFの平均場近似による学習と等価な
RNNを構築
 特徴抽出部分にFCN(Fully Convolutional Networks)を
用いることで、end to endで誤差逆伝播法による学習が
行えるネットワークを構築
DeconvNet [Noh2015]
 Convolution NetworkとDeconvolution Networkを対で
持つEncoder-Decoder Network
 Max Pooling時のインデクスを保存しておき、Unpooling層
で復元
 疎なUnpooling層の出力をDeconv層の畳み込みで密に
復元
U-Net [Ronneberger2015]
 Decoder側の出力にEncoder側の対応する層の出力を
追加(Skip Connection)することで、高解像度における詳
細情報を補間
DeepLab v3 [Chen2017]
 Atrous Convolution (= Dilated Convolution) [Yu2016]と
いう畳み込み層により、Poolingなしでコンテクストの情報
を取得
 異なるレートのAtrous Convolutionの出力を結合する
Atrous Spatial Pyramid Poolingにより、マルチスケールの
情報を統合
PSPNet [Zhao2017]
 Feature Mapに対し、異なるサイズのPoolingをかけてUp-
samplingする
 大きなPoolingサイズのものにコンテクストの情報が含ま
れている
Semantic Segmentationまとめ
 深層学習の持つ高い認識能力はSemantic
Segmentationにおいても有効。
 深層学習はその構造から、領域の境界部分が弱
いという弱点があったが、様々な手法で克服。
CRFの利用
アップサンプリング層の導入
階層的なアップサンプリング
Skip Connectionを用いた階層的アップサンプリング
Dilated ConvolutionでPoolingなしでコンテクスト取得
Poolingのマルチスケール化
参考文献
 [Thoma2016] Matin Thoma,“A Suvey of Semantic
Segmentation”, arXiv:1602.06541v2
 [He2004] He, X., Zemel, R. S., & Carreira-Perpiñán, M. Á.
(2004). Multiscale conditional random fields for image labeling.
In IEEE Conference on ComputerVision and Pattern Recognition.
 [Shotton2009] Shotton, J.,Winn, J., Rother, C., & Criminisi,A.
(2009).TextonBoost for image understanding: Multi-class
object recognition and segmentation by jointly modeling
texture, layout, and context. International Journal of Computer
Vision, 81(1), 2–23.
 [Krahenbuhl2011] Krahenbuhl, P., & Koltun,V. (2011). Efficient
Inference in Fully Connected CRFs with Gaussian Edge
Potentials. Advances in Neural Information Processing Systems
(NIPS).
参考文献
 [Long2015] Long, J., Shelhamer, E., & Darrell,T. (2015). Fully
Convolutional Networks for Semantic Segmentation. In IEEE
Conference on ComputerVision and Pattern Recognition.
 [Zheng2015] Zehng, S., Jayasumana, S., Romera-Paredes, B.,
Vineet,V., Su, Z., Du, D., …Torr, P. H. S. (2015). Conditional
Random Fields as Recurrent Neural Networks. In IEEE
Conference on ComputerVision and Pattern Recognition.
 [Noh2015] Noh, H., Hong, S., & Han, B. (2015). Learning
deconvolution network for semantic segmentation. In IEEE
International Conference on ComputerVision.
 [Ronneberger2015]Ronneberger, O., Fischer, P., & Brox,T.
(2015). U-Net: Convolutional networks for biomedical image
segmentation. International Conference on Medical Image
Computing and Computer-Assisted Intervention.
参考文献
 [Yu2016]Yu, F., & Koltun,V. (2016). Multi-Scale Context
Aggregation by Dilated Convolutions. International
Conference on Machine Learning
 [Chen2017]Chen, L.-C., Papandreou, G., Schroff, F., &
Adam, H. (2017). Rethinking Atrous Convolution for
Semantic Image Segmentation. ArXiv, arXiv:1706.
 [Zhao2017]Zhao, H., Shi, J., Qi, X.,Wang, X., & Jia, J. (2017).
Pyramid Scene Parsing Network. In IEEE Conference on
ComputerVision and Pattern Recognition.
三次元再構成
三次元再構成とは?
95
 同一対象を撮影した複数枚の画像から、対象の三次元
モデルを復元するタスク
Modified from [Snavely2006]
A
カメラ1の撮影画像
2つの直線O1A’1/O2A’2の交点
カメラ1の焦点O1 カメラ2の焦点O2
A’1 A’2
ステレオカメラの原理
 点Aが2台のカメラのどこに見えたかがわかれば、三角
測量の原理で三次元的な位置が求まる
 ただし、2つのカメラの位置関係等のパラメータがわかってい
ること
カメラ2の撮影画像
カメラパラメータがわからない場合
97
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
カメラ1 カメラ2
カメラパラメータがわからない場合
98
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
→エピポーラ拘束
カメラ1 カメラ2
同一平面
カメラパラメータがわからない場合
99
 最低でも8個の対応点を求めることで、カメラパラメータ
とそれぞれの点の三次元座標を逆算できる
8つのエピポーラ拘束を
満たすパラメータを算出
カメラ1 カメラ2
Structure from Motion (SfM)
100
 同じ対象を撮影した複数の画像(例えば動画)から、対
象の三次元形状を復元する
Structure from Motion (SfM)
101
 同じ対象を撮影した複数の画像(例えば動画)から、対
象の三次元形状を復元する
バンドル調整を用いて、複数のカメラの相対位置、焦点距
離、対象の三次元点座標を同時に推定する
<バンドル調整>
測定結果とパラメータから誤差を計算し、誤差を小さくする方向にパ
ラメータを調整していく
バンドル調整
102
1. 三次元点群とカメラパラメータの初期値を設定する
画像から見つけた点の
三次元座標の初期値カメラの位置と焦点距離
の初期値
バンドル調整
103
2. 三次元点群を各カメラの画像平面へ投影
バンドル調整
104
3. 投影された点と観測した点との誤差の総和を算出
投影された点
観測点
誤差
バンドル調整
105
4. 誤差が小さくなる方向へ特徴点の三次元座標とカメラ
パラメータを調整 (収束するまで2から繰り返す)
Multi-View Stereo
106
SfMで求めた形状は、特徴点の
三次元位置のみ
SfMで求めたカメラパラメータを元に各カメラか
ら物体表面までの距離を画素ごとに算出(デプ
スマップ)
全てのカメラのデプスマップを統合して
物体の形状を算出
Multi-View Stereo
107
 カメラ1の画素Aのデプスをカメラ2から算出する例
 カメラ1の焦点から画素Aへの視線(エピポーラ線)上をカメラ
2の画像から探索し、最も類似したテクスチャを求める。
カメラ1 カメラ2
Aのエピポーラ線
A
d
d 距離
類似度
Multi-View Stereo
108
 各カメラから求めたデプスマップを統合して三次元モデ
ルを生成
三次元モデル構築の流れ(まとめ)
109
マッチング
キーポイント
検出
学習画像
学習画像
入力画像
MultiView
Stereo
三次元モデル
Structure
from Motion
学習画像
学習画像
対応点
学習画像
学習画像
カメラパラメータ
Building Rome in a Day [Agarwal2009]
110
 15万件のインターネット上の画像から1都市を500コアの
クラスタで1日かからずに構築。
https://www.youtube.com/watch?v=sQegEro5Bfo
Building Rome in a Day [Agarwal2009]
111
 15万件のインターネット上の画像から1都市を500コアの
クラスタで1日かからずに構築。
Building Rome in a Cloudless Day
[Frahm2010]
112
 300万枚の画像から、密な三次元モデルを1台のPC
(+GPU)で約1日で構築
Credit:[Frahm2010]
https://www.youtube.com/watch?v=PySBQ8Q_R8k
Building Rome in a Cloudless Day
[Frahm2010]
113
 300万枚の画像から、密な三次元モデルを1台のPC
(+GPU)で約1日で構築
Visual SLAM
114
Structure from Motionの仕組みを利用して、カメラの動き
と3次元空間を同時に認識し、拡張現実感(AR)などに活
用
Simultaneous Localization And Mapping (SLAM)
Localization
Mapping
115
ORB-SLAM [Mur-Artal2015]
 単眼V-SLAMをTracking、 Local Mapping、Loop Closingの3つ
のスレッドを並列に動作させることで、リアルタイムに実現
 全スレッドでORB特徴[Rublee2011]を利用
https://www.youtube.com/watch?v=8DISRmsO2YQ
116
ORB-SLAM [Mur-Artal2015]
 単眼V-SLAMをTracking、 Local Mapping、Loop Closingの3つ
のスレッドを並列に動作させることで、リアルタイムに実現
 全スレッドでORB特徴[Rublee2011]を利用
入力フレームの
カメラPoseを推
定
Sparseな3D
Map(点群)を作
成
ループを検出し
カメラPoseの誤
差の蓄積を除去
選定され
た
KeyFrame
点群+Poseグラフ
ORBとBoVWで
KeyFrame検索す
るためのDB
共有メモリ
DTAM [Newcombe2011]
 密な三次元(深度)の復元とカメラのトラッキングを同時
に行う、Dense MonocularVisual Slamの代表的手法
117
https://www.youtube.com/watch?v=Df9WhgibCQA
DTAM [Newcombe2011]
 KeyFrameの各画素と同じ色の画素を周辺フレームから
(エピポーラ線上を)探索することで深度を推定 (Photo
Consistency)
118
119
LSD-SLAM [Engel2014]
 特徴点ではなく(勾配の大きい)画素の値を直接使って
Semi-DenseなMap構築およびPose推定
 Map Optimizationにより大規模なマップを構築可能
https://www.youtube.com/watch?v=GnuQzP3gty4
120
LSD-SLAM [Engel2014]
 特徴点ではなく(勾配の大きい)画素の値を直接使って
Semi-DenseなMap構築およびPose推定
 Map Optimizationにより大規模なマップを構築可能
KeyFrameとの画素の差が
最小となるようPose推定
KeyFrameを生成し、その
深度を推定
Loop ClosingによりMap全
体を最適化
深層学習の三次元再構成への適用
121
既存のアプローチと深層学習では考
え方が大きく異なる。
 既存手法は複数画像間での点の
マッチングが正確に取れれば、三次
元情報は幾何学的な制約によりほ
ぼ厳密に求まる(計測)。
 深層学習は、三次元情報を学習した
情報から推論する(認識)。
深層学習の三次元再構成への適用
122
1. 既存手法が苦手としている部分
を深層学習で補間する。
2. 深層学習の学習時に幾何的な
制約を入れて、推定器を作成す
る。
3. 深層学習の推論時に幾何的な
制約を入れる。
深層学習の三次元再構成への適用
123
単眼Depth推定
SLAM
単眼Depth推定
124
 1枚の画像から三次元的な奥行(Depth)を推定
 ラベル付け不要で、動画やステレオ画像から自己教師
あり学習する手法が現在の主流
 学習の際に、幾何的な制約を埋め込む
[Godard2017]より
入力画像
Ground Truth
推定結果
Mono-Depth [Godard2017]
125
 1枚の画像からDepthを推定するために、ステレオカメラの映像を学習
データとし、その視差画像を推定する問題に置き換え(教師ラベルなし)
 片方のカメラ画像から推定した視差を元に、画像をもう片方のカメラ画像
へと変形し、その画像間の差を損失に含める(学習時の幾何的制約)
SfM Learner [Zhou2017]
126
 単眼カメラ映像からDepthとMotionを推定するネットワークを
自己教師あり学習
 推定したDepthとMotionを元に参照画像を周辺画像へ変換し、
その誤差を元にネットワークを学習(学習時の幾何的制約の
埋め込み)
SfM Learner [Zhou2017]
127
 単眼カメラ映像からDepthとMotionを推定するネットワークを
自己教師あり学習
 推定したDepthとMotionを元に参照画像を周辺画像へ変換し、
その誤差を元にネットワークを学習(学習時の幾何的制約の
埋め込み)
単眼画像からDepth推定
SfM Learner [Zhou2017]
128
 単眼カメラ映像からDepthとMotionを推定するネットワークを
自己教師あり学習
 推定したDepthとMotionを元に参照画像を周辺画像へ変換し、
その誤差を元にネットワークを学習(学習時の幾何的制約の
埋め込み)
画像間のMotion推定
Depth from videos in the wild [Gordon2019]
129
 Depth、Camera Motionに加えて、映像中の動物体およ
びカメラ内部パラメータ(含レンズ歪)を推定
 Depth推定結果とMotion推定結果を元に画像をフレーム
間で相互に変換し、その誤差を最小化するよう学習
Motion推定ネットワーク
内部パラメータ
カメラ回転角
カメラ並進
並進残差(移動体)
深層学習のSLAMへの適用
130
 キーポイントベースのSLAMに深層学習
ベースのDepth推定を加えることで、密
なMapを求める
 Depthの学習は教師ありで行われる場
合が多い
 初期はDepth推定とPose/Motionの算出
を別々に行っていたが、徐々に統合する
流れ
CNN-SLAM [Tateno2017]
 LSD-SLAM[Engel2014]の深度推定をCNNによる深度推
定に置き換えることでDenseなMapを構築。
 Visual SLAMの弱点である、テクスチャがないケース、スケー
ル不定、回転に弱いなどの問題をCNNで補間
 SLAMにCNNを導入した最初期の論文
CNNによる深度と
Semantic Labelの推定
LSD-SLAM
131
CodeSLAM [Bloesch2018]
132
 Variational Auto Encoder(VAE)を用いてDepthを小さな
Codeで表現
UnetでDepth
推定の補助
情報を画像
から取得
VAEでDepth
を表現する
ネットワークと
Codeを学習
Code
CodeSLAM [Bloesch2018]
133
 Variational Auto Encoder(VAE)を用いてDepthを小さな
Codeで表現
 Tracking時に投影画像の誤差が最小となるようにCodeを
カメラ姿勢と同時に最適化(既存SLAMの補間+推論時
に幾何的制約)
カメラ姿勢Tとコー
ド(=Depth)Cから、
次フレームへ現フ
レーム画像を投影
した誤差
BA-Net [Tang2019]
134
 バンドル調整で使用される最適化手法(Levenberg-
Marquardt法)をネットワーク化することで、SLAM一連の
処理をEnd-to-Endで学習(学習時にも推論時にも幾何的
制約)
BA-Net [Tang2019]
135
 バンドル調整で使用される最適化手法(Levenberg-
Marquardt法)をネットワーク化することで、SLAM一連の
処理をEnd-to-Endで学習(学習時にも推論時にも幾何的
制約)
単眼画像からDepth(の基底)を推定
BA-Net [Tang2019]
136
 バンドル調整で使用される最適化手法(Levenberg-
Marquardt法)をネットワーク化することで、SLAM一連の
処理をEnd-to-Endで学習(学習時にも推論時にも幾何的
制約)
バンドル調整用画像特徴
BA-Net [Tang2019]
137
 バンドル調整で使用される最適化手法(Levenberg-
Marquardt法)をネットワーク化することで、SLAM一連の
処理をEnd-to-Endで学習(学習時にも推論時にも幾何的
制約)
バンドル調整ネットワーク
三次元再構成まとめ
138
 深層学習以前の手法は、複数枚の画像から幾何的な拘
束条件を用いて三次元再構成を行ってきた。
 従来法は計測、深層学習は推論という根本的な違いが
ある。
 深層学習は、従来手法が苦手としているテクスチャの少
ない個所や絶対スケールがわからないなどの点を推論
によって補う。
 深層学習の学習時に幾何的な拘束条件を入れたり、更
には推論時にも拘束を入れるなどの工夫がなされてい
る。
参考文献
139
 [Snavely2006]Snavely, N., Seitz, S. M., & Szeliski, R. (2006). Photo
tourism: exploring photo collections in 3D. In Conference on
Computer Graphics and InteractiveTechniques (SIGGRAPH).
 [岡谷2010]岡谷貴之. (2010). コンピュータビジョン最先端ガイ
ド3 第1章バンドル調整. アドコムメディア. 1-32
 [古川2012]古川泰隆. (2012). コンピュータビジョン最先端ガイ
ド5 第2章複数画像からの三次元復元手法. アドコムメディア.
33-70
 [Agarwal2009]Agarwal, S., Snavely, N., Simon, I., Seitz, S. M., &
Szeliski, R. (2009). Building Rome in a day. In International
Conference on ComputerVision (pp. 72–79).
 [Frahm2010]Frahm, J., Fite-georgel, P., Gallup, D., Johnson,T.,
Raguram, R.,Wu, C., … Pollefeys, M. (2010). Building Rome on a
Cloudless Day. In European Conference on ComputerVision (pp.
368–381)
参考文献
140
 [Mur-Artal2015]Mur-Artal, R., Montiel, J. M. M., & Tardos, J. D. (2015).
ORB-SLAM:AVersatile and Accurate Monocular SLAM System. IEEE
Transactions on Robotics, 31(5), 1147–1163.
 [Rublee2011]Rublee, E., Rabaud,V., Konolige, K., & Bradski, G. (2011).
ORB:An efficient alternative to SIFT or SURF. 2011 International
Conference on ComputerVision
 [Newcombe2011]Newcombe, R.A., Lovegrove, S. J., & Davison,A. J.
(2011). DTAM: Dense Tracking and Mapping in Real-Time. In
International Conference on ComputerVision.
 [Engel2014]Engel, J., Schops,T., & Cremers, D. (2014). LSD-SLAM:
Large-Scale Direct monocular SLAM. In European Conference on
ComputerVision
 [Godard2017] Godard, C., Mac Aodha, O., & Brostow, G. J. (2017).
Unsupervised Monocular Depth Estimation with Left-Right
Consistency. Conference on ComputerVision and Pattern Recognition
参考文献
141
 [Tateno2017]Tateno, K.,Tombari, F., Laina, I., & Navab, N. (2017). CNN-
SLAM : Real-time dense monocular SLAM with learned depth prediction. In
IEEE Conference on ComputerVision and Pattern Recognition.
 [Zhou2017]Zhou,T., Brown, M., Snavely, N., & Lowe, D. G. (2017).
Unsupervised learning of depth and ego-motion from video. In IEEE
Conference on ComputerVision and Pattern Recognition
 [Bloesch2018]Bloesch, M., Czarnowski, J., Clark, R., Leutenegger, S., &
Davison,A. J. (2018). CodeSLAM — Learning a Compact, Optimisable
Representation for DenseVisual SLAM. In IEEE Conference on Computer
Vision and Pattern Recognition.
 [Tang2019]Tang, C., &Tan, P. (2019). BA-Net: Dense Bundle Adjustment
Network. In International Conference on Learning Representation.
 [Gordon2019]Gordon,A., Li, H., Jonschkowski, R., & Angelova,A. (2019).
Depth from videos in the wild: Unsupervised monocular depth learning
from unknown cameras. IEEE International Conference on ComputerVision
深層学習で
新たに花開いた
分野
深層学習で新たに花開いた分野
143
 ここまで紹介したのは深層学習以前
からも研究が盛況だった分野
 ここでは、深層学習の登場によって、
盛況になった分野を簡単に紹介
 画像生成
 1枚画像の三次元化
画像生成(深層学習前)
144
 深層学習以前の画像生成は、せいぜいが「既存の画像を自
然に貼り合わせて目的の画像を作成する」というレベル
複数枚の画像から全員が笑顔の写真を生成(フォトモンタージュ) [Agarwala2004]
スケッチ 検索された画像 合成結果画像
ユーザがスケッチした画像をインターネット上の画像を用いて合成する(Sketch2Photo)[Chen2009]
画像生成(深層学習後)
145
 GANやVAEの登場によって、ゼロから画像生成ができる
ようになり、またスタイル変換などの新しいタスクも登場
DC-GAN [Radford2016]
Image StyleTransfer [Getys2016]
Pix2Pix [Getys2016]
1枚の画像から三次元生成(深層学習前)
146
 機械学習によって1枚の画像から三次元生成する技術
は深層学習以前にもわずかに存在
[Blanz1999]
1枚の顔画像から3次元復元
[Hoiem2005]
1枚の風景画像から3次元復元
1枚の画像から三次元生成(深層学習後)
147
 深層学習の認識力と表現力によってこの分野は大きく進
展
Neural 3D Mesh Renderer[Kato2018]
Nonlinear 3DMM[Tran2018]
PIFu [Saito2019]
参考文献
148
 [Agarwala2004]Agarwala,A., Dontcheva, M.,Agrawala, M., Drucker, S.,
Colburn,A., Curless, B., … Cohen, M. (2004). Interactive digital
photomontage. In Conference on Computer Graphics and InteractiveTechniques
(SIGGRAPH) (Vol. 23).
 [Chen2009]Chen,T., Cheng, M.-M.,Tan, P., Shamir,A., & Hu, S.-M. (2009).
Sketch2Photo: internet image montage. In Conference on Computer Graphics
and InteractiveTechniques (SIGGRAPH).
 [Radford2016]Radford,A., Metz, L., & Chintala, S. (2016). Unsupervised
Representation Learning with Deep Convolutional Generative Adversarial
Networks. International Conference on Learning Representation.
 [Gatys2016]Gatys, L.A., Ecker,A. S., & Bethge, M. (2016). Image Style
Transfer Using Convolutional Neural Networks. In IEEE Conference on
ComputerVision and Pattern Recognition.
 [Isola2017]Isola, P., Zhu, J.Y., Zhou,T., & Efros,A.A. (2017). Image-to-image
translation with conditional adversarial networks. IEEE Conference on
ComputerVision and Pattern Recognition.
参考文献
149
 [Blanz1999] Blanz,V., &Vetter,T. (1999).A morphable model for the
synthesis of 3D faces. In Conference on Computer Graphics and
InteractiveTechniques (SIGGRAPH) (pp. 187–194).
 [Hoiem2005]Hoiem, D., & Efros,A.A. (2005).Automatic photo pop-
up. In Conference on Computer Graphics and InteractiveTechniques
(SIGGRAPH).
 [Tran2018]Tran, L., & Liu, X. (2018). Nonlinear 3D Face Morphable
Model. IEEE Conference on ComputerVision and Pattern Recognition.
 [Kato2018]Kato, H., Ushiku,Y., & Harada,T. (2018). Neural 3D Mesh
Renderer. In IEEE Conference on ComputerVision and Pattern
Recognition.
 [Saito2019]Saito, S., Huang, Z., Natsume, R., Morishima, S., Li, H., &
Kanazawa,A. (2019). PIFu: Pixel-aligned implicit function for high-
resolution clothed human digitization. IEEE International Conference
on ComputerVision.
まとめ
深層学習がコンピュータビジョンにもたらした
もの
151
 圧倒的な表現力と認識力により、CVのほぼ
全ての分野で深層学習が大きく貢献している
 競争が激しくなった一方で、手法の多様性は
失われた
 深層学習の使用を前提とした上で、また多様性が
戻ってくるか?
 深層学習をCVのある分野へ適用し始める時
は、従来法とのハイブリッドな段階を経るケー
スが多い
 深層学習により、新たな分野も大きく花開い
た

More Related Content

What's hot

ロボティクスにおける SLAM 手法と実用化例
ロボティクスにおける SLAM 手法と実用化例ロボティクスにおける SLAM 手法と実用化例
ロボティクスにおける SLAM 手法と実用化例Yoshitaka HARA
 
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類Tsubasa Hirakawa
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code ReadingTakuya Minagawa
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーションakio19937
 
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~SSII
 
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案Masanori Kado
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習Masaki Saito
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方ychtanaka
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded SystemsFastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded Systemsharmonylab
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有Naoaki Okazaki
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Kazuyuki Miyazawa
 

What's hot (20)

ロボティクスにおける SLAM 手法と実用化例
ロボティクスにおける SLAM 手法と実用化例ロボティクスにおける SLAM 手法と実用化例
ロボティクスにおける SLAM 手法と実用化例
 
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション
 
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~
 
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
 
Visual slam
Visual slamVisual slam
Visual slam
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
SLAM勉強会(PTAM)
SLAM勉強会(PTAM)SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
 
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded SystemsFastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
 

Similar to 20200910コンピュータビジョン今昔物語(JPTA講演資料)

A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料Takuya Minagawa
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsKazuyuki Miyazawa
 
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けてThe Whole Brain Architecture Initiative
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太Preferred Networks
 
デジタルメディア創作部勉強会「オブジェクト指向入門1」
デジタルメディア創作部勉強会「オブジェクト指向入門1」デジタルメディア創作部勉強会「オブジェクト指向入門1」
デジタルメディア創作部勉強会「オブジェクト指向入門1」Hokuto Tateyama
 
ビジュアライゼーションの役割とUI開発のイノベーション(1)
ビジュアライゼーションの役割とUI開発のイノベーション(1)ビジュアライゼーションの役割とUI開発のイノベーション(1)
ビジュアライゼーションの役割とUI開発のイノベーション(1)BizCOLLEGE
 
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状Keiichiro Ono
 
情報デザインの多面性
情報デザインの多面性情報デザインの多面性
情報デザインの多面性Yoshinori Wakizaka
 
Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理SIGDance
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向nlab_utokyo
 
研究サーベイ論文
研究サーベイ論文研究サーベイ論文
研究サーベイ論文朋佳 山田
 
河野ゼミ研究紹介20211020
河野ゼミ研究紹介20211020河野ゼミ研究紹介20211020
河野ゼミ研究紹介20211020義広 河野
 
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介YukiK2
 
ニコニコ学会 Ubi camera-edit_umt_03
ニコニコ学会 Ubi camera-edit_umt_03ニコニコ学会 Ubi camera-edit_umt_03
ニコニコ学会 Ubi camera-edit_umt_03Furuyoshikun
 
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...Rei Takami
 

Similar to 20200910コンピュータビジョン今昔物語(JPTA講演資料) (20)

A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
デジタルメディア創作部勉強会「オブジェクト指向入門1」
デジタルメディア創作部勉強会「オブジェクト指向入門1」デジタルメディア創作部勉強会「オブジェクト指向入門1」
デジタルメディア創作部勉強会「オブジェクト指向入門1」
 
ビジュアライゼーションの役割とUI開発のイノベーション(1)
ビジュアライゼーションの役割とUI開発のイノベーション(1)ビジュアライゼーションの役割とUI開発のイノベーション(1)
ビジュアライゼーションの役割とUI開発のイノベーション(1)
 
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
 
情報デザインの多面性
情報デザインの多面性情報デザインの多面性
情報デザインの多面性
 
Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理
 
ダンス情報処理
ダンス情報処理ダンス情報処理
ダンス情報処理
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向
 
研究サーベイ論文
研究サーベイ論文研究サーベイ論文
研究サーベイ論文
 
河野ゼミ研究紹介20211020
河野ゼミ研究紹介20211020河野ゼミ研究紹介20211020
河野ゼミ研究紹介20211020
 
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
 
ニコニコ学会 Ubi camera-edit_umt_03
ニコニコ学会 Ubi camera-edit_umt_03ニコニコ学会 Ubi camera-edit_umt_03
ニコニコ学会 Ubi camera-edit_umt_03
 
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
 

More from Takuya Minagawa

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureTakuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイTakuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsTakuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfTakuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事Takuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summaryTakuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation surveyTakuya Minagawa
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencvTakuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection surveyTakuya Minagawa
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 

More from Takuya Minagawa (20)

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
3DFeat-Net
3DFeat-Net3DFeat-Net
3DFeat-Net
 

Recently uploaded

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 

Recently uploaded (10)

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 

20200910コンピュータビジョン今昔物語(JPTA講演資料)