コンピュータビジョンの研究開発状況

コンピュータビジョンの研究開発状況
⽚岡裕雄
1
http://hirokatsukataoka.net/

DNNの動向・CVのトレンド（1/34）
2
• DNN時代以前の動向
– Perceptron, MLP, Neocognitron, BackProp, CNN
– DNNが流⾏る直前の画像認識では局所特徴が使⽤
2020
1960
CNN
Perceptron
Neocognitron
1980
1990
2000
2010
1970
HOG/SIFT
BoF/SVM
1st AI 2nd AI 3rd AI
Deep
Learning
F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961.
Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986.
K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, in
1980
Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998.
Backprop.

3
• Perceptron, MLP, Neocognitron/ConvNet
– Perceptron
• ⼊⼒とコネクション（重み）の線形和，活性化関数により構成
– MLP: Multi-layer Perceptron
• Perceptronの多層化
– Neocognitron/ConvNet
• 畳込みの概念を導⼊，特に隣接ピクセルに類似関係のある画像処理
に有効
Perceptron（パーセプトロン）
Neocognitron
K. Fukushima, “Neocognitron: A Self-organizing Neural Network
Model for a Mechanism of Pattern Recognition Unaffected by Shift
in Position,” Biol. Cybenetics 36, pp.193-202, 1980.
https://www.rctn.org/bruno/public/papers/Fukushima1980.pdf
Convolutional Neural Net
Y. LeCun et al. “Gradient-Based Learning
Applied to Document Recognition,” IEEE,
1998.
http://yann.lecun.com/exdb/publis/pdf/l
ecun-01a.pdf

4
• ILSVRCを発端とする画像識別タスクへの応⽤
– AlexNet @画像認識コンペILSVRC2012
• 2位に10%以上の⼤差で勝者となる（2位は東京⼤学のチームISI）
⽜久⽒講演スライドより https://www.slideshare.net/YoshitakaUshiku/deep-learning-
73499744/4
– 背景にはBelief Propagation, ReLU, SGD, Dropoutなど構
造をDEEPにする技術が揃ってきた

5
DNNが勝てた背景
– ImageNet!（データが最も重要）
– Computing!（圧倒的な計算⼒）
http://www.image-net.org/
http://cvpr2017.thecvf.com/
×

6
ImageNetの収集について
– 14,000,000+ imgs / 20,000+ categories
– 2007年からデータを収集，2009年CVPR発表
– その後もデータ収集は継続して，現在は上記の規模に
http://fungai.org/images/blog/imagenet-logo.png
https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_t
o_understand_pictures/up-next?language=ja
ImageNetのロゴ，右側はStanfordの⾚，左は
前所属のPrinceton，そして上の緑は
WorldPeaceー世界平和ーを⽰す（らしい）
Fei-Fei⽒のTED動画（右）資⾦繰りの苦労や
，2000年代当時はアルゴリズム⾄上主義でデ
ータを収集することが理解されなかった

7
計算機環境（主にGPU）の発展
– 特に3rd AIブームからはNVIDIAの隆盛ぶりがすごい
– NVIDIA，最初はゲーム⽤グラフィックボードを売ってい
たらしいが，深層学習に会社の命運を託すと明⾔
– 結果，下記の性能向上と世界的な提携/資⾦獲得である
https://www.nextplatform.com/2015/03/18/nvidia-tweaks-pascal-gpus-for-deep-learning-push/
Tesla（2008年）からVolta（
2018年）世代までの性能向上

8
• 構造の深化（2014〜2016）
– 2014年頃から「構造をより深くする」ための知⾒が整う
– 現在（主に画像識別で）主流なのはResidual Network
AlexNet [Krizhevsky+, ILSVRC2012]
VGGNet [Simonyan+, ILSVRC2014]
GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015]
ResNet [He+, ILSVRC2015/CVPR2016]
ILSVRC2012 winner，DLの⽕付け役
16/19層ネット，deeperモデルの知識
ILSVRC2014 winner，22層モデル
ILSVRC2015 winner， 152層︕(実験では103+層も)

9
• 構造の複雑化・⾃動化（2016〜）
– ResNet以降のアーキテクチャ
• ResNeXt, DenseNet, SENet, ...
– ⾃動化・効率化（Neural Architecture Search, EfficientNet）
• (P)NASNet, EfficientNet...
SENet（SE-block）
J. Hu et al. “Squeeze-and-Excitation Networks, “ in TPAMI 2019.
https://arxiv.org/abs/1709.01507
S. Xie et al. “Aggregated Residual
Transformations for Deep Neural
Networks, “ in CVPR 2017.
ResNeXt
G. Huang et al. “Densely Connected
Convolutional Networks, “ in CVPR
2017.
DenseNet B. Zoph et al. “Learning Transferable
Architectures for Scalable Image
Recognition,“ in CVPR 2018.
NASNet
C. Liu et al. “Progressive Neural
Architecture Search,“ in CVPR 2018.
PNASNet
M. Tan et al. “EfficientNet: Rethinking
Model Scaling for Convolutional Neural
Networks,“ in ICML 2019.
https://arxiv.org/pdf/1905.11946.pdf
EfficientNet

10
• 他タスクへの応⽤（画像認識・動画認識）
– 物体検出: R-CNN, Fast/Faster R-CNN, YOLO, SSD,,,
– 領域分割: FCN, SegNet, U-Net,,,
– Vision & Language: 画像説明⽂, VQA, Visual Dialog,,,
– 動画認識: Two-stream ConvNets, 3D Conv., (2+1)D Conv. ,,,
Person
Uma
Show and Tell [Vinyals+, CVPR15]
R-CNN [Girshick+, CVPR14]
FCN [Long+, CVPR15]
Two-Stream CNN [Simonyan+, NIPS14]

11
Hito
Uma
Haar-like [Viola+, CVPR01]
+ AdaBoost
Fast R-CNN [Girshick, ICCV15]
ROI Pooling, Multi-task Loss Faster R-CNN [Ren+, NIPS15]
RPN
・・・
・・・
R-CNN時代（それ以前は”Hand-crafted” ObjectNess）⾼速化＆⾼精度化
One-shot Detector時代兎にも⾓にも（精度を保ちつつ）⾼速化
YOLO(v1)/v2/v3 [Redmon+, CVPR16/CVPR17/arXiv18]
One-shot detector, w/ full-connect layer
・・・
Latest Algorithm 精度重視，⾼速
Mask R-CNN [He+, ICCV17]
RoI Align, Det+Seg
・・・
bbox+segmentationのラベルが同時
に⼿に⼊るならMask R-CNNを試そう
41.8AP@MSCOCO
bboxのみが⼿に⼊
るならRetinaNetを
⽤いるのがベター
40.8AP@MSCOCO
SSD [Liu+, ECCV16]
One-shot detector, Anchor Box
Hand-crafted feature時代基礎/枠組みの構築
HOG [Dalal+, CVPR05]
+ SVM
ICF [Dollár+, BMVC09]
+ Soft-cascade
DPM [Felzenszwalb+,
TPAMI12]
+ Latent SVM
・・・
• 物体検出の流れ（2001〜2017）
R-CNN [Girshick, CVPR14]
Selective Search + CNN

DNNの動向・CVのトレンド（10ʼ/34）
12
物体検出の流れ（2018〜2020）
B. Singh et al. “An Analysis of Scale Invariance in
Object Detection,“ in CVPR 2018.
SNIP
B. Singh et al. “SNIPER: Efficient Multi-Scale
Training,“ in NeurIPS 2018.
https://papers.nips.cc/paper/8143-sniper-efficient-
multi-scale-training.pdf
SNIPER
Q. Zhao et al. “M2Det: A Single-Shot Object
Detector based on Multi-Level Feature Pyramid
Network,“ in AAAI 2019.
M2Det
Z. Xingyi et al. “Objects as Points,“ in arXiv 2019.
CenterNet
H. Law et al. “CornerNet: Detecting Objects as
Paired Keypoints,“ in ECCV 2018.
CornerNet
K. Duan et al. “CenterNet: Keypoint Triplets for
Object Detection,“ in ICCV 2019.
CenterNet
Mask R-CNN 41.7 -> CenterNet 47.0まで向上︕
物体候補が多く位置する領域を拡⼤多重解像度の特徴マップ使⽤
2点（左上, 右下）を回帰中央からxyサイズを回帰中央+2点, xyサイズを回帰

13
• セマンティック/インスタンスセグメンテーション
• ・・・ピクセルごとにラベルを回帰
– デファクトスタンダードはまだ覇権争い︖
– 問題を細分化して解いている印象
• ⽂脈把握, スケール変動, データ不⾜
FCN [Long, CVPR2015]
全層畳み込み，チャネル和
SegNet [Kendall, arXiv2015]
U-Net [Ronneberger, MICCAI2015]
位置情報保持，チャネル連結
・
・
・
ベースアルゴリズム・
・
・
精度重視
Mask R-CNN [He, ICCV2017]
RoI Align, Det+Seg
・
・
・
物体検出とインスタンスセグメ
ンテーションのタスクを同時に
学習することで双⽅を相補的に
改善している
DeepLab(v1,v2,v3) [Chen, TPAMI2017]
Dilated Conv, 特徴マップの並列化
※下はセマンティック/インスタンスセグメンテーションを両⽅含む

14
– CVとNLP（⾃然⾔語処理）の融合分野
• 画像説明⽂（Image Captioning）
• 視覚的質問回答（Visual Question Answering; VQA）
• Visual Dialog
画像 (Visual)と質問⽂ (Q)を⼊⼒，
回答 (A)を返却
画像を⼊⼒として
⽂章を出⼒
【VQA】
【Image Captioning】【Visual Dialog】
画像とそれに対する対話を繰り返しながら
回答を⾏う
https://visualqa.org/
O. Vinyals et al. “Show and Tell: A
Neural Image Caption Generator,” in
CVPR 2015.
https://visualdialog.org/

15
• 動画像認識のモデル（N-Dimension Conv）
– 2D: Two-Stream ConvNets（フロー画像を同時に準備）
– 2D+再帰モデル: CNN+LSTM（最近ベンチマークとしてしか使われなくなった）
– 3D: 3D CNN（データが⽤意できればこれが本命）
– (2+1)D: Separable Conv.（少量データの場合のオプション）
3D畳み込み（C3D, 3D ResNet, I3D）
3Dフィルタ
畳み込みマップ
（3D）
識別
D. Tran et al. “A Closer Look at Spatiotemporal
Convolutions for Action Recognition,” in CVPR 2018.

16
• 動画認識タスク
R. Krishna et al. “Dense Captioning Events in
Videos,“ in ICCV 2017.
DenseCaptioning
T. Lin et al. “Single Shot Temporal Action
Detection,“ in ACM MM 2017.
SSAD
Qiu et al. “Learning Spatio-Temporal Representation
with Local and Global Diffusion,“ in CVPR 2019.
Local & Global Diffusion (LGD)
動画から説明⽂を出⼒
動画の区間を推定（⾏動の始点・終点）
局所・⼤域特徴を同時抽出（⾼精度な動画認識）

17
• GAN:画像⽣成を⾏うための構造として提案
– 現在，⽣成/データの分布を近づける性質から多
様な場⾯に応⽤
– 超解像，異常検知，データ拡張など
GANの構造
https://medium.com/@sunnerli/the-
missing-piece-of-gan-d091604a615a
徐々に鮮明になるデータ
BigGAN https://arxiv.org/pdf/1809.11096.pdf
（注）下はGANにより⽣成された画像です

18
• GANの主要な流れ
1. GAN（オリジナルのGAN）
• [Goodfellow, NIPS2014] https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf
2. DCGAN（畳み込み層の使⽤）
• [Radford, ICLR2016] https://arxiv.org/abs/1511.06434
3. Pix2Pix（pixel同⼠が対応付くという意味でConditionalなGAN）
• [Isola, CVPR2017] https://arxiv.org/abs/1611.07004
4. CycleGAN（pix2pixの教師なし版）
• [Zhu, ICCV2017] https://arxiv.org/pdf/1703.10593.pdf
5. ACGAN（カテゴリ識別も同時に実施してコンディションとした）
• [Odera, ICML2017] https://arxiv.org/abs/1610.09585
6. WGAN/SNGAN（学習安定化）
• [Arjovsky, ICML2017] http://proceedings.mlr.press/v70/arjovsky17a.html
• [Miyato, ICLR2018] https://arxiv.org/abs/1802.05957
7. PGGAN（⾼精度化）
• [Karras, ICLR2018] https://arxiv.org/abs/1710.10196
8. Self-Attention GAN（アテンション機構を採⽤）
• [Zhang, arXiv 1805.08318] https://arxiv.org/abs/1805.08318
9. BigGAN（超⾼精細GAN）
• [Brock, ICLR2019] https://arxiv.org/abs/1809.11096
# 2018年10⽉時点での調査

19
• 鮮明な画像⽣成 - GAN vs. VAE︕︖
– キレイな画像⽣成はGANが優勢だった（〜2019/05）
• SNGAN, BigGAN, StyleGAN etc.
– だが，VQ-VAE-2でVAEが巻き返しを図るか︖
• GANのようにMode Collapseを起こさないと主張
⽣成モデル，今後の動向に期待︕︕
左︓VQ-VAE-2，右︓BigGAN
A. Razavi et al. “Generating Diverse High-
Fidelity Imageswith VQ-VAE-2,” NeurIPS,
2019.

20
• 教師なし/少量教師あり学習への拡がり
– キーワード
• {Un-, Weak-, Semi-, Self-} supervision
• {Zero-, One-, Few-} shot learning
• Transfer Learning
• Domain Adaptation
• Reinforcement Learning
– 教師がない/間接的に教師を与える，ような仕組みに対する
競争も激化
– 巨⼤IT企業のように⼤量のラベルを持たなくても学習を成
功させる
• アルゴリズム⾄上主義への回帰︖

• 学習法の簡単な整理
– {Un-, Semi-, Weak-, Self-} supervision
• Un-supervision（教師なし学習）
アノテーションが⼀切ないデータで学習
• Semi-supervision（半教師あり学習）
アノテーションを持つデータと持たないデータで学習
• Weak-supervision（弱教師付き学習）
出⼒として必要な情報よりも拘束⼒の弱いデータを⽤いて学習
– ex) 物体検出を⾏う際に画像ラベルのみを⽤いて学習
• Self-supervision（⾃⼰教師あり学習）
⾃ら教師を作り出して特徴表現を学習する「⾃⼰教師学習」
– 特定タスクの前に⾃ら教師を作り出し特徴表現を学習するため，その
後に特定タスクのためのファインチューニングを伴う
– ex) 領域分割した画像でジグソーパズルを解く，回転を当てる

22
転移学習（Transfer Learning）の網羅的調査
– Taskonomy [Zamir, CVPR2018]
• CVPR 2018 Best Paper Award
• 26種のタスク間の関連性を調べる
– CVの歴史の中で別々に議論されたいたサブタスクを繋げる
– 効果を最⼤化する転移学習の関係性を明らかにした
http://taskonomy.stanford.edu/
データセットは26タスクに対しラベル付け
Task Similarity Tree: 類似するタスク間の関
係性を可視化

23
• 教師あり学習 vs. 無教師/弱教師
– 少量/無ラベルで教師あり学習に勝つ︕
• How good is my GAN?: 勝てなかったがGANによるデータ拡張の⽅針を⽰す
• 6D Object Detection: 条件付だがこの⽂脈で勝利（ECCVʼ18 BestPaper）
• Cut/Paste Learn: 9割くらいの精度まで来た
[Sundermeyer, ECCV2018]Oral,BP
ラベル無しCGデータで実時間6D検出，
さらに教師有りを倒した
[Remez, ECCV2018]Oral
Cut/Pasteで既存セグメントラベルを増
加，教師有りに接近する精度
[Shmelkov, ECCV2018]
GANの評価法提案，追加実験のデー
タ拡張がポイント

24
⾃⼰教師あり学習（Self-supervised Learning）
– ⾃ら教師を作り出し，良好な特徴表現を獲得
• 事前タスク（Pretext task; 左下図）で学習，⽬的タスク（Target task; 右下図）で調整
• 例︓PretextはラベルなしImageNet, TargetはラベルありImageNet
Pretext task例︓ジグソーパズル
1.(a)(b)の図を9分割&シャッフルして復元するよう学習
2.通常通りPascalVOC, ImageNet等で学習
打倒︕ImageNet 事前学習が⽬標の研究分野

25
⼈間の教師に近接する精度を実現︕
– ImageNet教師あり学習に「⾃⼰教師+数%の教師」で到達
• SimCLR: Simple Framework for Contrastive Learning of Visual Representation
• 下図は論⽂中より引⽤ https://arxiv.org/abs/2002.05709
SimCLRはパラメータ数が多い
（Supervised 約25M vs. SimCLR 約400M）が，
自己教師学習により教師あり学習
と同等の精度まで到達

26
• 学習データ⽣成
– キーワード
• Synthetic Data
• Adversarial Learning
• Data Augmentation
• Domain Randomization
– CGなど合成（Synthetic）でデータを作成
– 敵対的学習（Adversarial Learning）
• 少量のサンプルから画像⽣成
• 合成をリアルに近づける
– データ拡張（Data Augmentation）
• データの⽔増しをあらゆる⽅法（e.g. 反転，回転，統合）で実現

27
シミュレーション画像からの変換
– GANにより変換/⽣成した画像も学習に使えるように
• 左図︓SimGAN
– CVPR2017 Best Paper
– CGをリアルに近付けるRefiner（R）と識別器（D）
• 右図︓GraspGAN
– ICRA2018
– 上記論⽂を元ネタとしてロボットシミュレータ画像をリアルに近づけて，マニ
ピューレーションを実⾏

28
• 超越（Beyond）/再考（Rethink） ImageNet
学習回数が多くなると
scratch/ pre-trainの精度が
同等に
通常の学習回数ではImageNet Pre-
trainが強く⾒えている、、、
[Mahajan, ECCV2018]
FBはSNSのHashtagでラベル付けなし，弱教師付きの3.5B枚画像DB構築
【超越】
Top-1: 85% w/ ResNeXt-101
ラベルはSNSの再利⽤
https://venturebeat.com/2018/05/02/facebook-is-using-instagram-photos-and-hashtags-to-improve-its-computer-vision/
ImageNetは他のタスクの精度向上に貢献する︖
• しない（左図参照）
• スクラッチで⻑く学習すれば同等の精度まで到達
– ただし，10K以上のラベルは必要
• 収束は早くなったので，研究ペース促進に寄与
無/弱/半教師付きの⽂脈で⼤量画像とその教
師を与えられればモデルを強化できる
【再考】 [He, arXiv2018]
タスクに即した事前学習をする（物体検知なら物体検知の事前学習）

29
• 動画DBの⼤規模化
– 動画共有サイトのタグ付け
– 画像識別の動画版
Kinetics [Kay, arXiv2017]
Moments in Time [Monfort, arXiv2018]
[Ghadiyaram, CVPR2019]
Kinetics-700 Moments in Time
700カテゴリ/650,000+動画 339カテゴリ/1,000,000+動画
359カテゴリ/65,000,000+動画
Instagram-65M
【最近の代表的な動画データセット】
10万〜1000万を超える動画数のデータセットが登場，
画像識別に変わるネクストトレンドとして位置付けられる

30
• DNNのフレームワークが次々にリリース
– Caffe/Caffe2, Theano, Chainer, TensorFlow, Keras,
Torch/PyTorch, MatConvNet, Deeplearning4j, CNTK,
MxNet, Lasagne
（順不同，その他多数）
– 特に，Caffeが出てきてからCVにおけるDNNの研究は爆発
的に広がった
https://chainer.org/images/logo.png
http://pytorch.org/docs/master/_static/pytorch-logo-dark.svg
https://www.tensorflow.org/_static/image
s/tensorflow/logo.png
# ⽇本ではChainer︖ 世界的にはTensorFlow︖研究者はPyTorch︖開発者はCaffe2/TensorFlow︖ 簡便性の⾯から
Kerasもよく使われていると聞く
# Facebookでも研究はPyTorch，プロダクトはCaffe2のように使い分け

31
• HPC: コンピューティングによる研究の加速
– AWS/Azure/Google Cloud, ⽇本でも
Tsubame3.0/ABCI/Fugaku(coming soon…)
• Multi-GPU, Multi-Node
– ImageNet 世界最速記録の変遷
• 29h > 1h > 30m > 15m > 6.6m > 1.8m > 2.0m > 1.2m
東⼯⼤TSUBAME 3.0 産総研ABCI
https://commons.wikimedia.org/wiki/
File:TSUBAME_3.0_PA075096.jpg
M. Yamazaki, et al. “Yet Another Accelerated SGD: ResNet-
50 Trainingon ImageNet in 74.7 seconds,” arXiv pre-print,
1903.12650, 2019.

32
• 現在も進化の⼀途を辿り，社会実装が進む
– ⾃動運転/ADAS
– ロボティクス
– ファッション
– 画像/動画検索
– 物流（ピッキング等）
– 等
研究者としては「こんなこともできる」を世に出したい

33
• ⾃動運転/ADAS（Self-Driving Cars/ADAS）
– 国際会議の研究（検知など単純タスク）は減少傾向, 実利⽤に向け開発︖
– 数年前はKITTI datasetに対しての精度競争が盛ん
– 現在は⾃動運転の解釈性，ニアミスシーンの解析等
KITTI: Autonomous driving benchmark
物体検出，ステレオ視，セグメンテ
ーション問題を提供
Optical Flow Stereo Matching Object Detection
Road Odometry Semantic Segmentation
[Geiger, CVPR2012]
[Kim, ICCV2017]
⾃動運転時の解釈性，物体検知の際
にどこを参照したか︖
事故に近いシーンを認識，予測
[Suzuki&Kataoka,
CVPR2018]

34
• ロボティクスへの応⽤ @CVPR2019
– 点群の利⽤や6D Object Detectionが多数
– マニピュレーション︓DenseFusionでは6D Det.
と把持を実施（左図）
– ⾃動運転︓点群トラッキング+形状復元（右図）
C. Wang et al. “DenseFusion: 6D Object Pose
Estimation by Iteratibve Dense Fusion,” in
CVPR 2019
http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_D
enseFusion_6D_Object_Pose_Estimation_by_Iterative_Dense_Fusion
_CVPR_2019_paper.pdf
S. Giancola et al. “Leveraging Shape Completion for 3D Siamese
Tracking,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Giancola_Leveraging_Shape_Completion_for_3D_Sia
mese_Tracking_CVPR_2019_paper.pdf
点群トラッキング+形状復元（下の例は⾞両の復元）

35
• ファッション分野への応⽤ @CVPR2019
– ファッションのアノテーションが進展
– DeepFashion2（左図）
• DeepFashionの強化版，より詳細なラベルを付与
– FCDBv2（右図）
• FCDBの強化版，バイナリ識別器によりデータクレンジング
Y. Ge et al. “DeepFashion2: A Versatile Benchmark for
Detection, Pose Estimation,Segmentation and Re-
Identification of Clothing Images,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_
Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2
019_paper.pdf
H. Kataoka, K. Abe, M. Minoguchi, A. Nakamura, Y. Satoh, "Ten-
million-order Human Database for World-wide Fashion Culture
Analysis", in CVPR 2019 Workshop on FFSS-USAD.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_Versatile_B
enchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2019_paper.pdf

36
• 動画認識の応⽤
– 動画⾃動ラベル付け
– ⾒守り，料理⾏動解析，ホームロボティクス,,,
• 動画DBは群雄割拠（下図）
D. Damen et al. “Scaling Egocentric
Vision: The EPIC-KITCHENS Dataset,” in
ECCV 2018.
https://epic-kitchens.github.io/2018
W. Kay et al. “The
Kinetics Human Action
Video Dataset,” in
arXiv:1705.06950
2017.
https://deepmind.com/research/open-
source/open-source-datasets/kinetics/
C. Gu et al. “AVA: A
Video Dataset of Spatio-
temporally Localized
Atomic Visual Actions,” in
CVPR 2018.
https://research.google.com/ava/downl
oad.html
M. Monfort et al. “Moments in Time
Dataset: one million videos for event
understanding,” in arXiv pre-print
1801.03150, 2018.
http://moments.csail.mit.edu/
H. Zhao et al. “HACS: Human Action
Clips and Segments Dataset for
Recognition and Temporal Localization,”
in arXiv pre-print 1712.09374 2017.
http://hacs.csail.mit.edu/
Something-Something v2 dataset
https://20bn.com/datasets/something-something

37
• 2020年 CV分野のトレンド: アルゴリズム考案
– 既存の問題をよりよく解く
• 精度向上/タスク解決に対して効果的な⼿法を提案
– 以前からホットな領域
• 画像識別，物体検出，（インスタンス）セグメンテーション，動画
認識，Shape-from-X，SLAM，Computational Photography，⾃
動運転/ADAS，ロボット応⽤，，，
– 最近ホットになった領域
• Language & Vision（画像説明⽂/VQA），敵対的⽣成ネット（
GAN），ファッション，，，
– 今後ホットになりそうな領域︖
• 多タスク学習（転移学習），強化学習, 3D⽣成, 解釈性，，，
# もちろん，上記以外にもまだまだあります

38
• 2020年 CV分野のトレンド: 少量教師学習
– ⼤規模データの収集/ラベル付け問題を解決および緩和
• 深層学習の1st waveがアーキテクチャ改善だとすると，
• 2nd waveはデータ作成/少量データ学習
– データ問題のキーワード
• {Un-, Weak-, Semi-, Self-} Supervised Learning
• {Zero-, One-, Few-} shot learning
• Domain Adaptation, Domain Randomization, Synthetic Data,
Adversarial Learning, Data Augmentation
今後も新しい学習⽅法が提案されると予想
# もちろん，上記以外にもまだまだあります

コンピュータビジョンの研究開発状況

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to コンピュータビジョンの研究開発状況

Similar to コンピュータビジョンの研究開発状況 (20)

Recently uploaded

Recently uploaded (9)

コンピュータビジョンの研究開発状況