CVPR 2019 速報

CVPR 2019 速報
⽚岡裕雄，原健翔，Qiu Yue，中嶋航⼤，
夏⽬亮太，美濃⼝宗尊，吉⽥光太，⽯川裕地，
笠井誠⽃，⼟屋志⾼，若宮天雅，相澤宏旭，有坂壮平
1
http://xpaperchallenge.org/cv

概要
2
• CV分野のトップ会議CVPR2019の参加速報
– cvpaper.challenge（次ページ）のメンバーで編集
• ACL/CVPR 2019 網羅的サーベイ（サマリHP 229ページ記載）実⾏中！
• 今回，cvpaper.challengeからはWS/コンペに6件（5ページ）
– 現在までの会議速報
• CVPR 2016 速報: https://www.slideshare.net/HirokatsuKataoka/cvpr-2016
• ECCV 2016 速報: https://www.slideshare.net/HirokatsuKataoka/eccv-2016
• CVPR 2017 速報: https://www.slideshare.net/cvpaperchallenge/cvpr-2017-78294211
• ICCV 2017 速報: https://www.slideshare.net/cvpaperchallenge/iccv-2017
• CVPR 2018 速報: https://www.slideshare.net/cvpaperchallenge/cvpr-2018-102878612
– 研究コミュニティ内で網羅的サーベイを実⾏, できる限り
聴講/議論

cvpaper.challenge?
3
• ⽇本のCV分野を強くするチャレンジ！
◆論⽂読破・まとめ・発想・議論・実装・論⽂執筆に⾄るまで取り組む
Survey Member: 250+名
Research Member: 50+名
（産総研/筑波⼤/電⼤/早⼤/慶⼤/⼯学院/東⼯⼤/東北⼤/東⼤/千葉
⼤/岐⾩⼤/デジハリ⼤/中部⼤/UCL）
cvpaper.challengeの研究プロジェクト
CV分野の今を映し, トレンドを創る挑戦
⼈を⾒ない⼈物⾏動認識
ECCV16WS Award
ViEW16若⼿奨励賞
Dynamic Fashion Cultures
MIRU17学⽣奨励賞
# イメージ図
NIDB
Near-Miss Incident DB
交通事故解析/予測
ICRA18/CVPR18
3D-ResNets-PyTorch
CVPR18/GitHub世界4位
その他多数のProj.が推進中
HP: http://xpaperchallenge.org/
Twitter: @CVpaperChalleng

How to join cvpaper.challenge?
4http://xpaperchallenge.org/cv/recruit.html

cvpaper.challengeの論⽂ @CVPR 2019
5
– Yue Qiu, Yutaka Satoh, Hirokatsu Kataoka, Ryota Suzuki, "Incorporating Depth into Visual
Question Answering", in CVPR 2019 Workshop on Visual Question Answering and Dialog.
– Yue Qiu, Yutaka Satoh, Hirokatsu Kataoka, Ryota Suzuki, "Visual Question Answering with
RGB-D Images", in CVPR 2019 Workshop on Women in Computer Vision (WiCV).
– Kota Yoshida, Munetaka Minoguchi, Kazuki Tsubura, Kazushige Okayasu, Seito Kasai, Akio
Nakamura, Hirokatsu Kataoka, “Which generates better jokes, hand-crafted features or deep
features,” CVPR 2019 Language & Vision Workshop, 2019.
– Hirokatsu Kataoka, Kaori Abe, Munetaka Minoguchi, Akio Nakamura, Yutaka Satoh, "Ten-
million-order Human Database for World-wide Fashion Culture Analysis", in CVPR 2019
Workshop on Understanding Subjective Attributes of Data, Focus on Fashion and Subjective
Search (FFSS-USAD). (Oral) [PDF] [Oral] [Poster]
– Seito Kasai, Yuchi Ishikawa, Tenga Wakamiya, Kensho Hara, Hirokatsu Kataoka, “AIST Team
submission for Task 3: Dense-Captioning Events in Videos,” CVPR 2019 Workshop,
International Challenge on ActivityNet Challenge, 2019.
– Tenga Wakamiya, Kensho Hara, Yuchi Ishikawa, Seito Kasai, Hirokatsu Kataoka, “AIST
Submission for ActivityNet Challenge 2019 in Trimmed Activity Recognition (Kinetics),” CVPR
2019 Workshop, International Challenge on ActivityNet Challenge, 2019.
– 論⽂/プレゼン資料等のダウンロードこちら http://hirokatsukataoka.net/

NLP（⾃然⾔語処理）版もあります！
6
https://www.slideshare.net/nlpaper-challenge/nlpaperchallenge-126950430

NLP（⾃然⾔語処理）版もあります！
7
https://www.slideshare.net/nlpaper-challenge/nlpaperchallenge-126950430

それならRoboticsも始めます！
8

それならRoboticsも始めます！
9

DNNの動向・CVのトレンド
10
- 現在までの流れをおさらい（速報2018から更新あり）
- CV分野の最近のトレンドも記載
- CVPR2019についての情報は主に
次のCVPR2019の動向・気付きを参照

DNNの動向・CVのトレンド（1/34）
11
• DNN時代以前の動向
– Perceptron, MLP, Neocognitron, BackProp, CNN
– DNNが流⾏る直前の画像認識では局所特徴が使⽤
1st AI 2nd AI 3rd AI
F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961.
Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986.
K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition
unaffected by shift in position”, in 1980
Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998.

12
• Perceptron, MLP, Neocognitron/ConvNet
– Perceptron
• ⼊⼒とコネクション（重み）の線形和，活性化関数により構成
– MLP: Multi-layer Perceptron
• Perceptronの多層化
– Neocognitron/ConvNet
• 畳込みの概念を導⼊，特に隣接ピクセルに類似関係のある画像処理
に有効
Perceptron（パーセプトロン）
Neocognitron
K. Fukushima, “Neocognitron: A Self-organizing Neural Network
Model for a Mechanism of Pattern Recognition Unaffected by Shift
in Position,” Biol. Cybenetics 36, pp.193-202, 1980.
https://www.rctn.org/bruno/public/papers/Fukushima1980.pdf
Convolutional Neural Net
Y. LeCun et al. “Gradient-Based Learning
Applied to Document Recognition,” IEEE,
1998.
http://yann.lecun.com/exdb/publis/pdf/l
ecun-01a.pdf

13
• ILSVRCを発端とする画像識別タスクへの応⽤
– AlexNet @画像認識コンペILSVRC2012
• 2位に10%以上の⼤差で勝者となる（2位は東京⼤学のチームISI）
⽜久⽒講演スライドより https://www.slideshare.net/YoshitakaUshiku/deep-learning-
73499744/4
– 背景にはBelief Propagation, ReLU, SGD, Dropoutなど構
造をDEEPにする技術が揃ってきた

14
DNNが勝てた背景
– ImageNet!（データが最も重要）
– Computing!（圧倒的な計算⼒）
http://www.image-net.org/
http://cvpr2017.thecvf.com/
×

15
ImageNetの収集について
– 14,000,000+ imgs / 20,000+ categories
– 2007年からデータを収集，2009年CVPR発表
– その後もデータ収集は継続して，現在は上記の規模に
http://fungai.org/images/blog/imagenet-logo.png
https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_t
o_understand_pictures/up-next?language=ja
ImageNetのロゴ，右側はStanfordの⾚，左は
前所属のPrinceton，そして上の緑は
WorldPeaceー世界平和ーを⽰す（らしい）
Fei-Fei⽒のTED動画（右）資⾦繰りの苦労や
，2000年代当時はアルゴリズム⾄上主義でデ
ータを収集することが理解されなかった

16
計算機環境（主にGPU）の発展
– 特に3rd AIブームからはNVIDIAの隆盛ぶりがすごい
– NVIDIA，最初はゲーム⽤グラフィックボードを売ってい
たらしいが，深層学習に会社の命運を託すと明⾔
– 結果，下記の性能向上と世界的な提携/資⾦獲得である
https://www.nextplatform.com/2015/03/18/nvidia-tweaks-pascal-gpus-for-deep-learning-push/
Tesla（2008年）からVolta（
2018年）世代までの性能向上

17
• 構造の深化（2014〜2016）
– 2014年頃から「構造をより深くする」ための知⾒が整う
– 現在（主に画像識別で）主流なのはResidual Network
AlexNet [Krizhevsky+, ILSVRC2012]
VGGNet [Simonyan+, ILSVRC2014]
GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015]
ResNet [He+, ILSVRC2015/CVPR2016]
ILSVRC2012 winner，DLの⽕付け役
16/19層ネット，deeperモデルの知識
ILSVRC2014 winner，22層モデル
ILSVRC2015 winner， 152層！(実験では103+層も)

18
• 構造の複雑化・⾃動化（2016〜）
– ResNet以降のアーキテクチャ
• ResNeXt, DenseNet, SENet, ...
– ⾃動化（Neural Architecture Search）
• NASNet, PNASNet, ...
SENet（SE-block）
J. Hu et al. “Squeeze-and-Excitation Networks, “ in TPAMI 2019.
https://arxiv.org/abs/1709.01507
S. Xie et al. “Aggregated Residual
Transformations for Deep Neural
Networks, “ in CVPR 2017.
ResNeXt
G. Huang et al. “Densely Connected
Convolutional Networks, “ in CVPR
2017.
DenseNet
B. Zoph et al. “Learning Transferable
Architectures for Scalable Image
Recognition,“ in CVPR 2018.
NASNet
C. Liu et al. “Progressive Neural
Architecture Search,“ in CVPR 2018.
PNASNet

19
• 他タスクへの応⽤（画像認識・動画認識）
– 物体検出: R-CNN, Fast/Faster R-CNN, YOLO, SSD,,,
– 領域分割: FCN, SegNet, U-Net,,,
– Vision & Language: 画像説明⽂, VQA, Visual Dialog,,,
– 動画認識: Two-stream ConvNets, 3D Conv., (2+1)D Conv. ,,,
Person
Uma
Show and Tell [Vinyals+, CVPR15]
R-CNN [Girshick+, CVPR14]
FCN [Long+, CVPR15]
Two-Stream CNN [Simonyan+, NIPS14]

20
Hito
Uma
Haar-like [Viola+, CVPR01]
+ AdaBoost
Fast R-CNN [Girshick, ICCV15]
ROI Pooling, Multi-task Loss Faster R-CNN [Ren+, NIPS15]
RPN
・・・
・・・
R-CNN時代（それ以前は”Hand-crafted” ObjectNess）⾼速化＆⾼精度化
One-shot Detector時代兎にも⾓にも（精度を保ちつつ）⾼速化
YOLO(v1)/v2/v3 [Redmon+,
CVPR16/CVPR17/arXiv18]
One-shot detector, w/ full-connect layer
・・・
Latest Algorithm 精度重視，⾼速
Mask R-CNN [He+, ICCV17]
RoI Align, Det+Seg
・・・
bbox+segmentationのラ
ベルが同時に⼿に⼊るなら
Mask R-CNNを試そう
41.8AP@MSCOCO
bboxのみが⼿に⼊
るならRetinaNetを
⽤いるのがベター
40.8AP@MSCOCO
SSD [Liu+, ECCV16]
One-shot detector, Anchor Box
Hand-crafted feature時代基礎/枠組みの構築
HOG [Dalal+, CVPR05]
+ SVM
ICF [Dollár+, BMVC09]
+ Soft-cascade
DPM [Felzenszwalb+,
TPAMI12]
+ Latent SVM
・・・
• 物体検出の流れ
R-CNN [Girshick, CVPR14]
Selective Search + CNN

21
• セマンティック/インスタンスセグメンテーション
• ・・・ピクセルごとにラベルを回帰
– デファクトスタンダードはまだ覇権争い？
– 問題を細分化して解いている印象
• ⽂脈把握, スケール変動, データ不⾜
FCN [Long, CVPR2015]
全層畳み込み，チャネル和
SegNet [Kendall, arXiv2015]
U-Net [Ronneberger, MICCAI2015]
位置情報保持，チャネル連結
・・・ベースアルゴリズム・・・
精度重視
Mask R-CNN [He, ICCV2017]
RoI Align, Det+Seg
・・・
物体検出とインスタンスセグメ
ンテーションのタスクを同時に
学習することで双⽅を相補的に
改善している
DeepLab(v1,v2,v3) [Chen, TPAMI2017]
Dilated Conv, 特徴マップの並列化
※下はセマンティック/インスタンスセグメンテーションを両⽅含む

22
– CVとNLP（⾃然⾔語処理）の融合分野
• 画像説明⽂（Image Captioning）
• 視覚的質問回答（Visual Question Answering; VQA）
• Visual Dialog
画像 (Visual)と質問⽂ (Q)を⼊⼒，
回答 (A)を返却
画像を⼊⼒として
⽂章を出⼒
【VQA】
【Image Captioning】【Visual Dialog】
画像とそれに対する対話を繰り返しながら
回答を⾏う
https://visualqa.org/
O. Vinyals et al. “Show and Tell: A
Neural Image Caption Generator,” in
CVPR 2015.
https://arxiv.org/pdf/1411.4555.pdf
https://visualdialog.org/

23
• 動画像認識のモデル（N-Dimension Conv）
– 2D: Two-Stream ConvNets（フロー画像を同時に準備）
– 2D+再帰モデル: CNN+LSTM（最近ベンチマークとしてしか使われなくなった）
– 3D: 3D CNN（データが⽤意できればこれが本命）
– (2+1)D: Separable Conv.（少量データの場合のオプション）
3D畳み込み（C3D, 3D ResNet, I3D）
3Dフィルタ
畳み込みマップ
（3D）
識別
D. Tran et al. “A Closer Look at Spatiotemporal
Convolutions for Action Recognition,” in CVPR 2018.

24
• GAN:画像⽣成を⾏うための構造として提案
– 現在，⽣成/データの分布を近づける性質から多
様な場⾯に応⽤
– 超解像，異常検知，データ拡張など
GANの構造
https://medium.com/@sunnerli/the-
missing-piece-of-gan-d091604a615a
徐々に鮮明になるデータ
BigGAN https://arxiv.org/pdf/1809.11096.pdf
（注）下はGANにより⽣成された画像です

25
• GANの主要な流れ
1. GAN（オリジナルのGAN）
• [Goodfellow, NIPS2014] https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf
2. DCGAN（畳み込み層の使⽤）
• [Radford, ICLR2016] https://arxiv.org/abs/1511.06434
3. Pix2Pix（pixel同⼠が対応付くという意味でConditionalなGAN）
• [Isola, CVPR2017] https://arxiv.org/abs/1611.07004
4. CycleGAN（pix2pixの教師なし版）
• [Zhu, ICCV2017] https://arxiv.org/pdf/1703.10593.pdf
5. ACGAN（カテゴリ識別も同時に実施してコンディションとした）
• [Odera, ICML2017] https://arxiv.org/abs/1610.09585
6. WGAN/SNGAN（学習安定化）
• [Arjovsky, ICML2017] http://proceedings.mlr.press/v70/arjovsky17a.html
• [Miyato, ICLR2018] https://arxiv.org/abs/1802.05957
7. PGGAN（⾼精度化）
• [Karras, ICLR2018] https://arxiv.org/abs/1710.10196
8. Self-Attention GAN（アテンション機構を採⽤）
• [Zhang, arXiv 1805.08318] https://arxiv.org/abs/1805.08318
9. BigGAN（超⾼精細GAN）
• [Brock, ICLR2019] https://arxiv.org/abs/1809.11096
# 2018年10⽉時点での調査

26
• 鮮明な画像⽣成 - GAN vs. VAE！？
– キレイな画像⽣成はGANが優勢だった（〜2019/05）
• SNGAN, BigGAN, StyleGAN etc.
– だが，VQ-VAE-2でVAEが巻き返しを図るか？
• GANのようにMode Collapseを起こさないと主張
⽣成モデル，今後の動向に期待！！
左：VQ-VAE-2，右：BigGAN
A. Razavi et al. “Generating Diverse
High-Fidelity Imageswith VQ-VAE-2,”,
arXiv pre-print 1906.00446, 2019.

27
• 教師なし/少量教師あり学習への拡がり
– キーワード
• {Un-, Weak-, Semi-, Self-} supervision
• {Zero-, One-, Few-} shot learning
• Transfer Learning
• Domain Adaptation
• Reinforcement Learning
– 教師がない/間接的に教師を与える，ような仕組みに対する
競争も激化
– 巨⼤IT企業のように⼤量のラベルを持たなくても学習を成
功させる
• アルゴリズム⾄上主義への回帰？

• 学習法の簡単な整理
– {Un-, Semi-, Weak-, Self-} supervision
• Un-supervision（教師なし学習）
アノテーションが⼀切ないデータで学習
• Semi-supervision（半教師あり学習）
アノテーションを持つデータと持たないデータで学習
• Weak-supervision（弱教師付き学習）
出⼒として必要な情報よりも拘束⼒の弱いデータを⽤いて学習
– ex) 物体検出を⾏う際に画像ラベルのみを⽤いて学習
• Self-supervision（⾃⼰教師あり学習）
⾃ら教師を作り出して特徴表現を学習する「⾃⼰教師学習」
– 特定タスクの前に⾃ら教師を作り出し特徴表現を学習するため，その
後に特定タスクのためのファインチューニングを伴う
– ex) 領域分割した画像でジグソーパズルを解く，回転を当てる

29
転移学習（Transfer Learning）の網羅的調査
– Taskonomy [Zamir, CVPR2018]
• CVPR 2018 Best Paper Award
• 26種のタスク間の関連性を調べる
– CVの歴史の中で別々に議論されたいたサブタスクを繋げる
– 効果を最⼤化する転移学習の関係性を明らかにした
http://taskonomy.stanford.edu/
データセットは26タスクに対しラベル付け
Task Similarity Tree: 類似するタスク間の関
係性を可視化

30
⾃⼰教師あり学習（Self-supervised Learning）
– ⾃ら教師を作り出し，良好な特徴表現を獲得
• 事前タスク（Pretext task; 左下図）で学習，⽬的タスク（Target task; 右下図）で調整
• 例：PretextはラベルなしImageNet, TargetはラベルありImageNet
Pretext task例：ジグソーパズル
1.(a)(b)の図を9分割&シャッフルして復元するよう学習
2.通常通りPascalVOC, ImageNet等で学習
打倒！ImageNet 事前学習が⽬標の研究分野

31
• 教師あり学習 vs. 無教師/弱教師
– 少量/無ラベルで教師あり学習に勝つ！
• How good is my GAN?: 勝てなかったがGANによるデータ拡張の⽅針を⽰す
• 6D Object Detection: 条件付だがこの⽂脈で勝利（ECCVʼ18 BestPaper）
• Cut/Paste Learn: 9割くらいの精度まで来た
[Sundermeyer, ECCV2018]Oral,BP
ラベル無しCGデータで実時間6D検出，
さらに教師有りを倒した
[Remez, ECCV2018]Oral
Cut/Pasteで既存セグメントラベルを増
加，教師有りに接近する精度
[Shmelkov, ECCV2018]
GANの評価法提案，追加実験のデー
タ拡張がポイント

32
• 学習データ⽣成
– キーワード
• Synthetic Data
• Adversarial Learning
• Data Augmentation
• Domain Randomization
– CGなど合成（Synthetic）でデータを作成
– 敵対的学習（Adversarial Learning）
• 少量のサンプルから画像⽣成
• 合成をリアルに近づける
– データ拡張（Data Augmentation）
• データの⽔増しをあらゆる⽅法（e.g. 反転，回転，統合）で実現

33
シミュレーション画像からの変換
– GANにより変換/⽣成した画像も学習に使えるように
• 左図：SimGAN
– CVPR2017 Best Paper
– CGをリアルに近付けるRefiner（R）と識別器（D）
• 右図：GraspGAN
– ICRA2018
– 上記論⽂を元ネタとしてロボットシミュレータ画像をリアルに近づけて，マニ
ピューレーションを実⾏

34
• 超越（Beyond）/再考（Rethink） ImageNet
学習回数が多くなると
scratch/ pre-trainの精度が
同等に
通常の学習回数ではImageNet Pre-
trainが強く⾒えている、、、
[Mahajan, ECCV2018]
FBはSNSのHashtagでラベル付けなし，弱教師付きの3.5B枚画像DB構築
【超越】
Top-1: 85% w/ ResNeXt-101
ラベルはSNSの再利⽤
https://venturebeat.com/2018/05/02/facebook-is-using-instagram-photos-and-hashtags-to-improve-its-computer-vision/
ImageNetは他のタスクの精度向上に貢献する？
• しない（左図参照）
• スクラッチで⻑く学習すれば同等の精度まで到達
– ただし，10K以上のラベルは必要
• 収束は早くなったので，研究ペース促進に寄与
無/弱/半教師付きの⽂脈で⼤量画像とその教
師を与えられればモデルを強化できる
【再考】 [He, arXiv2018]
タスクに即した事前学習をする（物体検知なら物体検知の事前学習）

35
• 動画DBの⼤規模化
– 動画共有サイトのタグ付け
– 画像識別の動画版
Kinetics [Kay, arXiv2017]
Moments in Time [Monfort, arXiv2018] YouTube-8M
Kinetics-700 Moments in Time
700カテゴリ/650,000+動画 339カテゴリ/1,000,000+動画 3,862カテゴリ/6,000,000+動画
YouTube-
8M
【最近の代表的な動画データセット】
10万/100万を超える動画数のデータセットが登場，画像
識別に変わるネクストトレンドとして位置づけられる
https://research.google.com/youtube8m/

36
• DNNのフレームワークが次々にリリース
– Caffe/Caffe2, Theano, Chainer, TensorFlow, Keras,
Torch/PyTorch, MatConvNet, Deeplearning4j, CNTK,
MxNet, Lasagne
（順不同，その他多数）
– 特に，Caffeが出てきてからCVにおけるDNNの研究は爆発
的に広がった
https://chainer.org/images/logo.png
http://pytorch.org/docs/master/_static/pytorch-logo-dark.svg
https://www.tensorflow.org/_static/image
s/tensorflow/logo.png
# ⽇本ではChainer？世界的にはTensorFlow？研究者はPyTorch？開発者はCaffe2/TensorFlow？簡便性の⾯から
Kerasもよく使われていると聞く
# Facebookでも研究はPyTorch，プロダクトはCaffe2のように使い分け

37
• HPC: コンピューティングによる研究の加速
– AWS/Azure/Google Cloud, ⽇本でも
Tsubame3.0/ABCI/Fugaku(coming soon…)
• Multi-GPU, Multi-Node
– ImageNet 世界最速記録の変遷
• 29h > 1h > 30m > 15m > 6.6m > 1.8m > 2.0m > 1.2m
東⼯⼤TSUBAME 3.0 産総研ABCI
https://commons.wikimedia.org/wiki/
File:TSUBAME_3.0_PA075096.jpg
M. Yamazaki, et al. “Yet Another Accelerated SGD: ResNet-
50 Trainingon ImageNet in 74.7 seconds,” arXiv pre-print,
1903.12650, 2019.

38
• 現在も進化の⼀途を辿り，社会実装が進む
– ⾃動運転/ADAS
– ロボティクス
– ファッション
– 画像/動画検索
– 物流（ピッキング等）
– 等
研究者としては「こんなこともできる」を世に出したい

39
• ⾃動運転/ADAS（Self-Driving Cars/ADAS）
– 国際会議の研究（検知など単純タスク）は減少傾向, 実利⽤に向け開発？
– 数年前はKITTI datasetに対しての精度競争が盛ん
– 現在は⾃動運転の解釈性，ニアミスシーンの解析等
KITTI: Autonomous driving benchmark
物体検出，ステレオ視，セグメンテ
ーション問題を提供Optical Flow Stereo Matching Object Detection
Road Odometry Semantic Segmentation
[Geiger, CVPR2012]
[Kim, ICCV2017]
⾃動運転時の解釈性，物体検知の際
にどこを参照したか？
事故に近いシーンを認識，予測
[Suzuki&Kataoka,
CVPR2018]

40
• ロボティクスへの応⽤ @CVPR2019
– 点群の利⽤や6D Object Detectionが多数
– マニピュレーション：DenseFusionでは6D Det.
と把持を実施（左図）
– ⾃動運転：点群トラッキング+形状復元（右図）
C. Wang et al. “DenseFusion: 6D Object Pose
Estimation by Iteratibve Dense Fusion,” in
CVPR 2019
http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_D
enseFusion_6D_Object_Pose_Estimation_by_Iterative_Dense_Fusion
_CVPR_2019_paper.pdf
S. Giancola et al. “Leveraging Shape Completion for 3D Siamese
Tracking,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Giancola_Leveraging_Shape_Completion_for_3D_Sia
mese_Tracking_CVPR_2019_paper.pdf
点群トラッキング+形状復元（下の例は⾞両の復元）

41
• ファッション分野への応⽤ @CVPR2019
– ファッションのアノテーションが進展
– DeepFashion2（左図）
• DeepFashionの強化版，より詳細なラベルを付与
– FCDBv2（右図）
• FCDBの強化版，バイナリ識別器によりデータクレンジング
Y. Ge et al. “DeepFashion2: A Versatile Benchmark for
Detection, Pose Estimation,Segmentation and Re-
Identification of Clothing Images,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_
Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2
019_paper.pdf
H. Kataoka, K. Abe, M. Minoguchi, A. Nakamura, Y. Satoh, "Ten-
million-order Human Database for World-wide Fashion Culture
Analysis", in CVPR 2019 Workshop on FFSS-USAD.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_Versatile_B
enchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2019_paper.pdf

42
• 動画認識の応⽤
– 動画⾃動ラベル付け
– ⾒守り，料理⾏動解析，ホームロボティクス,,,
• 動画DBは群雄割拠（下図）
D. Damen et al. “Scaling Egocentric
Vision: The EPIC-KITCHENS Dataset,” in
ECCV 2018.
https://epic-kitchens.github.io/2018
W. Kay et al. “The
Kinetics Human Action
Video Dataset,” in
arXiv:1705.06950
2017.
https://deepmind.com/research/open-
source/open-source-datasets/kinetics/
C. Gu et al. “AVA: A
Video Dataset of Spatio-
temporally Localized
Atomic Visual Actions,” in
CVPR 2018.
https://research.google.com/ava/downl
oad.html
M. Monfort et al. “Moments in Time
Dataset: one million videos for event
understanding,” in arXiv pre-print
1801.03150, 2018.
http://moments.csail.mit.edu/
H. Zhao et al. “HACS: Human Action
Clips and Segments Dataset for
Recognition and Temporal Localization,”
in arXiv pre-print 1712.09374 2017.
http://hacs.csail.mit.edu/
Something-Something v2 dataset
https://20bn.com/datasets/something-something

43
• 2019年 CV分野のトレンド: アルゴリズム考案
– 既存の問題をよりよく解く
• 精度向上/タスク解決に対して効果的な⼿法を提案
– 以前からホットな領域
• 画像識別，物体検出，（インスタンス）セグメンテーション，動画
認識，Shape-from-X，SLAM，Computational Photography，⾃
動運転/ADAS，ロボット応⽤，，，
– 最近ホットになった領域
• Language & Vision（画像説明⽂/VQA），敵対的⽣成ネット（
GAN），ファッション，，，
– 今後ホットになりそうな領域？
• 多タスク学習（転移学習），強化学習, 3D⽣成, 解釈性，，，
# もちろん，上記以外にもまだまだあります

44
• 2019年 CV分野のトレンド: 少量教師学習
– ⼤規模データの収集/ラベル付け問題を解決および緩和
• 深層学習の1st waveがアーキテクチャ改善だとすると，
• 2nd waveはデータ作成/少量データ学習
– データ問題のキーワード
• {Un-, Weak-, Semi-, Self-} Supervised Learning
• {Zero-, One-, Few-} shot learning
• Domain Adaptation, Domain Randomization, Synthetic Data,
Adversarial Learning, Data Augmentation
今後も新しい学習⽅法が提案されると予想
# もちろん，上記以外にもまだまだあります

CVPR 2019の動向・気付き
45
- 今回どんな研究が流⾏っていた？
- 海外の研究者は何をしている？
- 「動向」や「気付き」をまとめました

CVPR2019の動向・気付き（1/104）
46
• CVPR 2019 Opening
– Sponsors
• 284 sponsors（！）
• 104 exhibitors
• $3.1M（3+億円！）
スポンサーのリスト

47
– Conference
• 5,160 papers（50+% increased）
• 1,294 papers (25.2% Acceptance Rate)
– 288 short (5 min.) orals
• 9,227 registered attendees
– 2018と⽐較して+2,500⼈
– Rates
• US 4,763
• China 1,044
• Korea 664
• Japan 309
• Germany 265

48
– 著者の分布
• 地域別
– Asia 56%
– North America 27%
– Europe 14%
• 国別
– China 39%
– U.S. 25%
– Korea 4%
– Germany 4%
– U.K. 3%

49
タイトルワード頻度差分で⾒るトレンド⽐較
Learning 72
Image 59
Based 42
Detection 39
Segmentation 33
via 33
Graph 31
Network 29
Object 29
Neural 28
Domain 25
Facial -11
Recurrent -10
Inference -10
Identification -9
Sparse -8
Person -7
Weakly -6
Identity -6
Geometry -5
Localization -5
Re -5
増加ワードTop10 減少ワードWorst10
論⽂数変化 979 (2018)->1294 (2019) なので注意

50
論⽂増加分⽐率考慮版タイトルワード増減
増加ワードTop10 減少ワード
Worst10
Based 23.3
Graph 21.0
Adaptive 14.2
Image 13.7
Representation 12.7
Detection 12.7
Metric 12.4
Search 12.1
Domain 12.1
via 11.8
Scene 11.0
Deep -25.9
Identification -15.1
Person -14.8
Recurrent -13.2
Pose -13.0
Facial -12.9
Video -12.5
Visual -12.3
Inference -11.7
Weakly -11.6
Re -11.6
更に
常識化？
中身を
見たい？
内部表現を
見たい？
記号化？
よりDNNの内部的な部分への興味シフト？ドメイン適応が⼈気か
※計算：[2019]*979/1293 - [2018]

51
– Best Paper
既知の環境と未知物体に関するFermat Pathsの理論を提案，
Looking-around-the-corner設定に置いても効果的に3次元距
離画像推定を実施できる

CVPR2019の動向・気付き（6ʼ/104）
52
• Non-Line-of-Sightが流⾏りそう?
– ⾒えない領域の情報を得るための研究
– CVPR2017：1件，
CVPR2018：0件，
CVPR2019：6件（内1件はBest Paper）
A Theory of Fermat Paths for Non-Line-Of-Sight Shape Reconstruction

53
– Best Paper Honorable Mention
StyleGANの元論⽂
すでにPythonでコードが⼿に⼊るようになり，AdaINは標準で
使われている（下記は⼀例）
StyleGAN @NVlabs/stylegan
https://github.com/NVlabs/stylegan
StyleGAN @rosinality/style-based-gan-pytorch
https://github.com/rosinality/style-based-gan-pytorch
AdaIN@naoto0804/pytorch-AdaIN
https://github.com/naoto0804/pytorch-AdaIN

54
– Best Paper Honorable Mention
MVSの推定をDNNのDepth推定の事前情報とすることで精度を
従来の40%も向上，さらに⼈物を静⽌した状態で空間を動作可
能，アプリケーションとしても多数使⽤可能
Project & Code https://mannequin-depth.github.io/

55
– Best Student Paper Award
複数モーダル（画像+⾔語）のマッ
チングを強化学習的に実装，⾃⼰
教師付き模倣学習によりナビゲー
ションを実施した

56
– PAMI Longuet-Higgins Prize
• J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, L.
Fei-Fei, ImageNet: A large-scale hierarchical
image database, CVPR 2009.
• ImageNetがここにきて賞を獲得（次ページ）
– PAMI Young Researcher Award
• Karen Simonyan (Google DeepMind)
– IEEE Awards
• Jitendra Malik (2019 Computer Pioneer Award
Recipient)

57
• ImageNet論⽂@CVPRʼ09のその後
– コンペ開催
• ILSVRC 2010 - 2017
• 2012年にはAlexNetで⼤爆発！
– 論⽂採択後も画像を集めラベル付け続ける
• 14,197,122 images, 21,841 categories
• 物体検出，動画物体検出
– 拡張の成果
• IJCV 2015採択
• 2017年，研究コミュニティでのコンペは終了，
Kaggleへの移⾏ https://www.kaggle.com/c/imagenet-object-localization-challenge
絶対良いと信じる技術は論⽂発表後も磨き続ける！
http://www.image-net.org/

58
• 全体の傾向として...
– 1,294本あるとどの分野もそれなりに論⽂が通っ
ており「全部流⾏っている」ように⾒える
– 単純技術は，技術の深化・応⽤の多様化・再考
• 単純技術: 画像識別，物体検出，領域分割
– 技術統合による複雑化
• よくあるのは単純技術を〜学習で＊＊の応⽤
– 画像DBは量と共にラベル付の質や意味領域に
• 超⼤規模！（巨⼤IT企業に多い）
• ラベル付の質向上！（巨⼤IT企業に多い）
• 意味を整理して考えた（⼤学/ベンチャー企業に多い）

59
• Object Detection論⽂ほぼ全て⽬を通してみて...
• これは読むべき！？Object Detection (1/3)
– Region Proposal by Guided Anchoring
• 既存のanchorを再検討し，Guided Anchoringを提案
• RPNによるベースラインよりも90％減に成功し，mAPも向上
– Libra R-CNN: Towards Balanced Learning for Object
Detection
• 学習課程中のバランスを⾒直すことで精度向上
• IoU，feature pyramid，L1 lossの3つで⽣じる不均衡に対処
– Feature Selective Anchor-Free Module for Single-Shot
Object Detection
• 既存のSingle shot系の⼿法にFSAFというanchor-free branchを追加
• SSDからRetinaNetまで全てのSingle shot系の⼿法で⼤きく精度向上

60
– ScratchDet: Training Single-Shot Object Detectors From
Scratch
• 物体検出におけるスクラッチ学習で精度を落とさないために探索
• 画像情報を最⼤限に利⽤することでImageNet pre-trainよりも精度向上
– Bounding Box Regression With Uncertainty for Accurate
Object Detection
• BBoxの教師データの曖昧さを回避するための損失関数の定義
• 様々なアーキテクチャで精度向上することが可能
– Reasoning-RCNN: Unifying Adaptive Global Reasoning
Into Large-Scale Object Detection
• 数千クラスを扱う検出問題において，既存のモデルを強化
• クラスの意味や常識などの情報を使うことで精度向上に寄与

61
– Mask Scoring R-CNN
• 既存のモデルは分類信頼度=マスクの品質スコアだが相関してない問題
• マスク側の予測を優先させることでセグメンテーション精度の向上
– NAS-FPN: Learning Scalable Feature Pyramid Architecture
for Object Detection
• Feature Pyramid Network部分の設計を⾒直す論⽂
• Neural Architecture Searchによってより良いアーキテクチャを探索
やはり，物体検出のベースラインは既に完成されている！！
既存のモデルを局所的に改良し，精度向上に寄与するのが2019年のトレンド
これらの提案⼿法の組み合わせを網羅的に検証するだけでも論⽂化できそう！？
-> 網羅的検証により新しい知⾒を与える

62
• 物体検出の巨⼤DBにも対応している
– Open Images V4
• クラス数：600
• 画像枚数：総計1900万枚
• 物体数：15,400,000
– 数年前は PascalVOC / MSCOCO 等の DB で勝負
• 物体検知はより Open なフィールドにシフト
• Open Set Problemという未知物体へ対応する問題設定
も

63
招待講演：Antonio Torralba (MIT)
深層学習モデルの解剖
– データドメインが変わると精度が⼤幅に落ちる，ならばモデルはどこを⾒て
判断しているか？
– CNNレイヤーの全てのノードについてそれの発⽕した特徴マップを⾒ると⾯
⽩い知⾒が！
– 特にGANに注⽬していて，GAN Dissection (https://arxiv.org/abs/1811.10597) にあるよ
うにGANによって画像編集が⾏える可能性！！
– GANPaint (http://gandissect.res.ibm.com/ganpaint.html?project=churchoutdoor&layer=layer4) で実際に試せ
る！
@ワークショップ: Learning From Unlabeled Videos

64
•

65
• 3D構造を理解しようとする研究が増えてきた
– 画像認識は2D画像から3D空間を知ること
– 3D空間の理解は2D画像の理解につながる！
DeepVoxels https://vsitzmann.github.io/deepvoxels/
明確な3D情報なしに，3Dシーンのview-dependent
な外観をエンコードできる

66
• 3D構造を理解するためのカギは
微分可能なレンダラー？
– レンダラーを通して，Silhouetteを⼀致させる
ことで対象の3D形状を推定する
• Neural 3D Mesh Renderer
• Learning View Priors for Single-view 3D
Reconstruction
• Scene Representation Networks: Continuous 3D-
Structure-Aware Neural Scene Representations
↑ 微分可能なRay-Marchingを組み込んだDeepVoxel
の後続研究。https://arxiv.org/abs/1906.01618

67
• 動画認識といえばActivityNet Challenge！
– 元々は単体データセット&コンペ
• 現在のActivityNetのタスク
– Temporal Action Proposal（⾏動領域を抜けなく推定）
– Temporal Action Localization（開始・終了を推定）
– Dense Captioning Events in Videos（動画説明⽂）
！
論⽂で連携/共著するように，データセットをベースにし
て世界的コンペ/ワークショップとして知⾒を集約！
http://activity-net.org/challenges/2019/
F. Caba et al. “ActivityNet: A Large-Scale Video Benchmark for Human Activity
Understanding,” in CVPR 2015.
https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Heilbron_ActivityNet_A_Large-Scale_2015_CVPR_paper.html
データセット中には849時間の動画像，
203⾏動が含まれ，現在では開始・終了の
Durationや動画説明⽂が付与されている

68
• 最近は招待タスクも充実
– Kinetics-700（Google DeepMind）
– AVA（Google）
– Epic Kitchen（Univ. of Bristol/Toronto/Catania）
– ActEV-PC（NIST/IARPA）
https://actev.nist.gov/prizechallenge
• 監視映像からの物体/⾏動検知
• ⼈/物体のインタラクションも含め検知
D. Damen et al. “Scaling Egocentric
Vision: The EPIC-KITCHENS Dataset,” in
ECCV 2018.
https://epic-kitchens.github.io/2018
• ⼀⼈称の料理動画解析
• Video: 55時間/11.5M
フレーム
• 454K物体, 39K⾏動
arXiv:1705.06950
2017.
https://deepmind.com/research/open-
source/open-source-datasets/kinetics/
• YouTube動画にラベル付
• 30万動画/400カテゴリ(2017)
• 50万動画/600カテゴリ(2018)
• 65万動画/700カテゴリ(2019)
• ⼤規模であると同時にキレイ
なラベルを意識
C. Gu et al. “AVA: A Video Dataset of Spatio-temporally
Localized Atomic Visual Actions,” in CVPR 2018.
https://research.google.com/ava/download.html
• 15分動画に対して1秒
1回ラベル付け
• ⾏動/インタラクショ
ンラベル，bbox

69
• Kinetics-700 コンペ (Task A)に参加した
– 動画公開の⼤変さ（作成しながらコンペが稼働）
• 動画が公開しないままコンペ期間開始
– Kinetics-700 は Google DeepMind が作成
• 締め切り変更を余儀なくされる
• 公開⽇：5/30，締切：5/31→6/10
• 通常は動画ダウンロードだけで10⽇！
• 優勝チームの仕事量（10⽇）
– 65+ 万動画をダウンロード，フレーム分割，flow 画像計算
– 全20弱のアーキテクチャ探索（RGB, Flow, Audio）
主催側も参加側もスピード勝負！
arXiv:1705.06950 2017.
https://deepmind.com/re
search/open-
source/open-source-
datasets/kinetics/
@ワークショップ：International Challenge on
Activity Recognition (ActivityNet)

70
• Dense-Captioning Events (Task 3)に参加
– ActivityNet Captions を使⽤
– 上位勢の圧倒的実験量
• Captioning Module よりも，動画部分に注⼒
• ただし，proposal の⽣成や動画エンコードは，
recognition や localization と同じものが良いとは限ら
ない
– Baidu Vis もこの部⾨は優勝ならず（2位だが）
• Captioning Module は LSTM や Bidirectional LSTM
など
• Transformer も使⽤したが，学習時・推論時によりキ
ャプション⽣成に失敗

71
• Task 1: Temporal Action Proposals 導⼊
– “⾃然な動画は切り出されていない”
– ⾏動を切り出すことで⾏動位置特定や動画の密な
キャプショニングが可能となる
– 参加チーム 61，評価サーバー提出数 113
– 優勝：Baidu VIS, AUC 72.99

72
• Task 1 Winner: Baidu VIS, AUC 72.99
– “Boundary-Matching network for High-Quality
Temporal Action Proposal Generation”
– Boundary Matching Network (BMN) を採⽤
– Anchor-free のアプローチの中でも BSN
(Boundary Sensitive Network) を時系列をより考
慮できるように改良
– 開始時間・持続時間に応じて全ての領域の特徴量を
抽出 (Boundary matching feature map) → 確信
度算出 (Boundary matching confidence map)
– とにかくモデルアンサンブルを⽤いて検証

73
• Task 2: Temporal Action Localization 紹介
– HACS Segments データセットの紹介
– mAP がサチってきている？指標としてどうなの？
– DETAD: Diagnosing Error in Temporal Action
Detectors (Humam Alwassel)
• 偽陽性の出現理由を分析し，それぞれの mAP への感
度を測ることでモデルの弱点を解析
• 正解データのアノテーションの⼀貫性等も分析しそれ
らの影響も⾒る
– 結論：コンペのモデルは主に tIoU の低さが問題 (も
っと Localization Error を無くすべき)

74
• Task 2 Winner: Baidu VIS, mAP 39.7%
– （Task 1 と同様のモデルのため発表なし）

75
• Task 3: Dense-Captioning Events in
Videos 紹介
– ActivityNet Captions : 20k 動画・100k 説明⽂
– 平均で 1 動画 3.65 説明⽂・ 13.48 単語
– Visual Genome データセットと異なり⾏動関係をよく説明
– これを使⽤したデータセット・モデルも多く出現
– これからの⽅向性（まだ取り組まれていない！）
• wordpiece によるトークン化
• 低頻度単語・概念の取り扱い
• より良い評価⽅法の考案
• イベントの合成 (階層化)
• 他の Vision & Language のタスクの利⽤
• 外部知識ベースの解法

76
• Task 3 Winner: RMC/MSRA/CMU,
• avg. METEOR 9.91
– “Exploring Contexts for Dense Captioning Events
in Videos”
– 領域レベル＋過去・未来・現在特徴＋動画全体の特
徴＋イベント特徴＋⽂章特徴全てを利⽤した学習
– 他のイベントに依存しないものと依存するものを認
識するモデル
– REINFORCE，データ拡張で METEOR 向上
– 順位付けによる後処理などもあり

77
• Task A: The Kinetics Task 紹介
– Kinetics-700: ~650k 動画
– 700 の⾏動クラス，1 クラス最低 450 動画
– Video Recognition における，ImageNet 的な
存在
– 1 動画約 10 秒
– 優勝： JD AI research, avg. error 17.88

78
• Task A Winner: JD AI Research
• avg. error 17.88 % (I3D baseline 29.3 %)
– “Local and Global Diffusion Networks for
Trimmed Action Recognition”
– 局所的・⼤域的な特徴量をそれぞれ検出するパス
を⽤意し，互いに得た特徴量を伝播し合う
– Optical Flow や⾳声の特徴量も使⽤している

79
• 動画コンペはBaidu百度が激強
– Proposal/Localizationタスクで2冠達成
– Dense-Captioning Eventsのタスクで2位
(去年チャンピオンShizhe Chen⽒も同様に強い)
– Baidu百度とは
• 「中華⼈⺠共和国で最⼤の検索エンジンを提供する企業である。
創業は2000年1⽉。本社は北京市にあり、「百度百科」、「百度
⼊⼒⽅法」なども提供している。全世界の検索エンジン市場にお
いて、Googleに次いで第2位、中国国内では、穀歌を押さえて最
⼤のシェアを占める。」(wikipediaより; https://ja.wikipedia.org/wiki/%E7%99%BE%E5%BA%A6)

80
• 動画認識の最新を追うためには
– まずはトレンドを創っている研究者を探そう！
– Du Tran⽒が2019年の動画認識では重要⼈物
• 6/16のAction Classification and Video Modelingの
Tutorialでは10分に1回は名前が挙がるくらいには重
要
• C3D（ICCV2015）, R(2+1)D (CVPR2018)の⼈
• 弱教師
– Large-scale weakly-supervised pre-training for video
action recognition
– CVPR2019年論⽂
– https://arxiv.org/abs/1905.00561 Du Tran
Facebook AI
https://dutran.github.io/

81
• 動画におけるクリップの扱いに関する論⽂も
– 今までは16フレームなどを1クリップとした固定
⻑の⼊⼒
• ⻑い動画に対しては，クリップごとの結果を平均
→ 本当にそれって良いの？
– 動画全体の特徴量を使⽤する
• Long-Term Feature Banks for Detailed Video
Understanding https://www.philkr.net/papers/2019-06-02-cvpr/2019-06-02-cvpr.pdf
– 使⽤するクリップを選択する
• Action Classification and Video Modeling にて紹介
• SCSampler: Sampling Salient Clips from Video for
Efficient Action Recognition https://arxiv.org/abs/1904.04289

82
• 物体追跡の基本は相関フィルタの学習？
– 追跡のキーワード
• 相関フィルタ，順・逆⽅向トラッキング，
SiameseNet（SiamNet），Tracking-by-detection
– 相関フィルタの学習がキー
• フィルタを，時系列的⼀貫性を保つよう教師なし学習
• 構造にSiameseNet（⼊⼒が⼆枚）を⽤いることが多い
Chao Ma et al. “Hierarchical Convolutional
Features for Visual Tracking,” in ICCV 2015.
https://www.cv-
foundation.org/openaccess/content_iccv_2015/p
apers/Ma_Hierarchical_Convolutional_Features_I
CCV_2015_paper.pdf
相関フィルタは画像を⼊⼒した
ら物体の位置座標を返却
N. Wang, et al. “Unsupervised Deep Tracking,”, in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_
Unsupervised_Deep_Tracking_CVPR_2019_paper.pdf
SiameseNetは画像を⼆枚⼊⼒，時
系列的に連続する⼆枚のフレームを
⼊⼒して差分や⼀貫性から位置や特
徴表現を教師なし学習

83
• Tracking + α の流れは続く
– 今回は点群追跡（左図）や画像⽣成（右図）
– 追跡で時系列的な⼀貫性を学習，しながら追加の
モダリティを学習（できることがわかってきた）
S. Giancola et al. “Leveraging Shape Completion for 3D
Siamese Tracking,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Giancol
a_Leveraging_Shape_Completion_for_3D_Siamese_Tracking_CVP
R_2019_paper.pdf
Z. He, et al. “Tracking by Animation:Unsupervised Learning of Multi-
Object Attentive Trackers,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/He_Tracking_by_Ani
mation_Unsupervised_Learning_of_Multi-
Object_Attentive_Trackers_CVPR_2019_paper.pdf

84
• OCRの動向
– 2018年
• FOTS，ATN など，arbitrarily-oriented text
detector (ななめ，上下逆など)
• FOTS，EAA など，テキスト検出と認識をend-to-end
で学習可能 (2-stage object detectionと似た要領)
• ほぼリアルタイムで検出かつ⽂字認識
– 2019年
• 曲線，うねりなど，四⾓形で表現できないテキスト
(irregular shape)
• 検出⼿法が6本，認識⼿法が1本
• End-to-endの提案は⾒当たらず

85
• OCRの動向
– Irregular-shaped テキスト検出
• 単語単位
– Learning Shape-Aware Embedding for Scene
Text Detection
– Arbitrary Shape Scene Text Detection with
Adaptive Text Region Representation
– Towards Robust Curve Text Detection with
Conditional Spatial Expansion
– Shape Robust Text Detection with Progressive
Scale Expansion Network
– Look More Than Once: An Accurate Detector
for Text of Arbitrary Shapes
• ⽂字単位
– Character Region Awareness for Text
Detection (CRAFT)

86
• OCRの動向
– Irregular-shaped ⽂字認識
• ESIR: End-to-end Scene Text Recognition via
Iterative Image Rectification
– ドメイン適応
• Sequence-to-Sequence Domain Adaptation
Network for Robust Text Image Recognition
– 画像単位のDAではなく、⽂字単位のDA
– テキスト検出⼿法の評価⽅法
• Tightness-aware Evaluation Protocol for Scene
Text Detection
– 検出のcutoffや他の領域まで含んでしまった場合に
罰則をつけたIoU

87
• OCRの動向
– 曲線，うねりなど，四⾓形で表現できないテキスト
(irregular shape)のためのend-to-end(検出+認識)モ
デル
– CVPR2019では認識モデルは1稿のみ
• ESIR: thin plate spline transformationで曲がったテキストを整
形
• CRAFT (CVPR2019)、Mask TextSpotter (ECCV2018, Mask
RCNNの要領で⽂字ごとのsementation)のように⽂字単位で検出
する⽅法もより増えるかも？ただし、ほとんどのデータセットは
単語単位のアノテーションのみ

88
• 招待講演１：Bernt Schiele (MPI)
– Topics in Vision and Language
講演者の研究室が⾏っている3つの研究を紹介
• Topic 1: Grounding Language in Visual Data
- Reconstruction loss (アテンションの画像領域から⽂章を予測し，⽐較)
を導⼊，Semi- supervised Groundingを可能にした
• Topic 2: Aiming for higher diversity in captioning
- GANを使⽤，多様性あるキャプション⽣成 https://arxiv.org/abs/1703.10476
• Topic 3: Author attribute anonymity
- Textに含まれる著者のアイデンティティ情報を隠す/変更するタスク；3
つの構造：Attribute classifier，Language model, Semantic consistency
を⽤いてセマンティックを保ちつつ，Attributeの変換を可能に
@ワークショップ：Language and Vision

89
• 招待講演２：Devi Parikh (Georgia Tech)
– 複数の代表的なImage Captioning/VQAの研究を列挙
• Image Captioning: Neural Baby Talk (CVPR2018)
DNNにより⽂章⽣成；Novel物体キャプションや実環境シナリオに適切；
Vision＋Languageタスクをクラシックなビジョンタスクにさせた
• Visual Question Answering: Analysis (データセットバイアス): VQA-
CPデータセット及びVQA-GVQA⼿法 (CVPR2018)
学習テスト回答分布をわざと違うようにするデータセット; Grounding,
Reasoning, Answeringを分けて⾏う⼿法（VQA-GVQA）
• Visual Question Answering: Reading: TVQA (CVPR2019)
Textが含む画像中のTextに関するVQAタスク；TVQA Challengeが2019
のVQAワークショップに開かれている
• Visual Question Answering: Consistency: Cycle-Consistent VQA
(CVPR2019)
cycle-ganみたいなConsistency Lossを導⼊；似た質問に対し⼀致した回
答をさせる
Pythia (VQA2018 Challenge Modelも⾔及)

• 招待講演３：Andrei Barbu (MIT)
– How language enables intelligence
90
様々なタスクの
モデルの紹介

91
• Long Oral発表：Visual Discourse Parsing
– ビデオからシーンの関係性を出⼒するタスクを提案
– Toyデータセット (310ビデオ；平均19秒；⼿動アノテーション)でベース⼿法
を検証済み
– 所感：誰もがやろうとしてやっていない，に⽬をつけた！？
提案タスクイメージ図

92
• Short Oral発表: Answer Them All! Toward Universal Visual Question
Answering Models https://arxiv.org/abs/1903.00366
– 現状のSOTA VQA⼿法はReal/CGデータセットの両⽅において⾼精度を⽰す⼿法がほぼ
ないことを⽰した
– 簡単に良いVQAコンポネントを組み合わせた良いモデルを提案(要検証)
５つの⼿法(すべてSOTA)及び提案⼿法が9つのVQA
データセットにおいての性能: 明らかにリアル画像
データセットとCGデータセット(CLEVR系)を両⽴
して両⽅とも強い結果を残す従来⼿法がない
提案モデル：
Early Fusionが重要

93
●招待講演１：Alex Schwing (UIUC)
○ Visual Question Generation及びImage Captioningの
Diversity（多様性）について検討，研究紹介を⾏った
○Diversity should be “fast”, “controllable”, “accurate”
○研究紹介：
・AG-CVAE (NIPS2017): Controllability
https://papers.nips.cc/paper/7158-diverse-and-accurate-image-description-using-a-variational-auto-encoder-with-an-additive-gaussian-encoding-space.pdf
・POS (CVPR2019): Fast, Diverse, Accurate Image
Captioning
@ワークショップ: Visual Question Answering & Dialog

94
●招待講演 2：Lisa Hendricks (UC Berkeley)
○2つの研究紹介をもって，Image Captioningモデルのバイ
アス問題を検討
○研究１：Women also Snowboard (ECCV2018)
■ 既存のImage Captioningデータセットに性別バイアスの存在を指摘し
たそのバイアスがText時にAmplifyされる傾向も⽰した
■ Image Captioningモデルに⼈領域を検出しかつConfident Loss,
Appearance Confusion Loss及びCross Entropy Lossの3つのロスを
取り⼊れたモデルを提案し，相対的に性別バイアスを解消
○研究２：Object Hallucination in Image Captioning
(EMNLP2018)
■ 画像中に無い物をキャプション中に⽣成してしまうバイアス．
■ CHAIRという評価指標によりある程度キャプションモデルの
Hallucination性を評価できる

95
●招待講演 3：Christopher Manning (Stanford University)
○Making the L in VQA Matterを主なトピックに討論
○従来のVQAの問題点：
■ Answers: not just one word; should be interesting
■ Questions: short, no complications, fail to test compositional
ability
■ 結論：deep understandingが⽋けている；
○解決提案：
■ Visual Genome Dataset : デンスな領域アノテーション・画像ごとに
Scene Graph付き
■ GQA Dataset : Visual Genomeの画像，Scene Graphなどを利⽤し
て，Consistency, Validity/Plausibility, Distribution, Groundingなど
を評価できる
■ Compositional質問が⼤量に設定

96
●招待講演 4：Karl Moritz Hermann (DeepMind)
○Grounded Language Learningを主なTopic：
Grounding Language: Learning language through association
with other sensory experiences
○2つの研究をもって紹介：
Encoding Spatial Relations from
Natural Language
⾃然⾔語と3D Sceneの対応関係を学習で
きるモデル．⾃然⾔語とカメラ情報から
シーンをrenderingできる．
Learning to Follow Directions in Street View
リアル画像のStreet View Instructionsデー
タセット：real world; diversity imagery;
following the instructions from google map.

97
●招待講演 5：Layla El Asri (Microsoft Research)
○State Aliasing in Dialog Modeling with RNNsについて紹
介：関連論⽂
■ State Aliasing: RNNsを⽤いたDialogシステムにおいてPolicy
Gradientを適応する場合，異なるStateが共通したOptimal Actionを
シェアする場合，State Representationをうまく学習できない問題 (
背景知識が不⾜して理解できない)

98
●招待講演 6：Sanja Fidler (University of Toronto / NVIDIA)
○Compositional Learning of Complex TaskをTopicに2つ
の研究を紹介
Progressive Module Networks:
・⼩さいモジュールで⼤きいモジュールの問題
を解決；Compositional Modules
・VQA タスクにおいて：Level 0 (object
recogniton; attribute recogniton)
level 1 (image captioning; relationship
detection); level 2 (Object Counting); level
3 (VQA)
Learning to Caption by asking questions:
・ Human in the loop画像を説明
・ Use language to guide learning agent
・ Use language to ask a teacher
Components:
・ Captioner; Decision Maker; Question
Generator; Teacher

99
●招待講演 7：Yoav Artzi (Cornell University)
○3つの研究／研究⽅向を紹介
NLVR2：Natural Language Visual
Reasoning for real; 新しい
VisualReasoningのためのデータセット
提案；キャプションが正しいかを推定
TOUCHDOWN：Writing task; Task-focused
Navigation;リアル⽣活の応⽤
drif：realistic agents
instructionと環境から，運動軌跡をPlan

100
●Visual Question Answering Challenge
○VQA2.0データセット（評価指標Accuracy）:
○結果：
■ Winner team accuracy: 75.26%
■ 2019 Winner vs. 2018: +2.85%
■ 2019 Winner vs. human: 75.26% vs. 80.78%
fujiki-ryujiにより撮影

101
●Visual Question Answering Challenge：Winner
○ Deep Modular Co-Attention Networks for Visual Question Answering
○ Main Techniques:
■ simultaneously model the dense intra- and inter- modal
interaction
■ Larger model: bigger hidden dimension
■ better image feature: multi-view bottom-up attention
■ +5d bbox feature
■ +grid feature
■ bert for language
■ model ensemble: 27 models

102
●GQA Challenge：Task
○GQAデータセット（consistency;validity&Plausibility; Distribution;Groundingなどの能⼒を評価）
○結果：
■ 2019 Winner vs. Human: 73.33% vs. 89.30%
• 全ての画像に対しScene Graph付き
• Cleaned Visual Genomeデータセッ
トを使⽤

103
●GQA Challenge：Winner
○Hypergraph Attention Networks for GQA
○Main techniques:
■ alignment of information level between modalities
■ symbolic and structural representations
■ scene graphs + dependency trees
■ higher-order correlation between modalities
■ ensembles: 15 models

104
●TextVQA Challenge：task
○TextVQA Dataset（画像中に含むTextに関するVQA）
○結果（4つのタスクに割と難しくて，参加チームも少ない）
■ Human精度紹介されていなかった

105
●TextVQA Challenge：runner-up
○Winnerが現場に来ていないので，ビデオで簡単な紹介だけ
○Main Techniques:
■ Spell correcting OCR
■ Ensembling and Vocabulary Expansion
■ Shuffling OCR
■ Including n-grams

106
●Visual Dialog Challenge：task
○VisDial1.0 dataset
○結果：
■ Winner team accuracy: 74.57 (NDCG)
■ 2019 Winner vs. 2018: +16.82 (NDCG)
評価指標

107
●Visual Dialog Challenge：winner
○ Learning to Answer: Fine-tuning with Generalized Cross Entropy for
visual dialog challenge
○ Main Techniques:
■ Remove history from joint embedding
■ Multi-head，Ensemble
■ RvA+
■ Use complicate image features
■ +bbox features
■ Two-stage training: learn to reason; learn to answer

108
4つのChallengeにおいても，上位モデルに
○ Ensembleが使われている
○ ⾔語側にはBERTを⽤いる
○ 画像側に多種類の特徴の融合
○ 画像特徴抽出はRegion Based Features抽出が基本
会場の質問セッションにみんな関⼼に持った話題
○ Common Sense; Reasoning; Priors; Evaluation Metrics;
Dataset Biases
○ 古くから討論されていたReasoningに対しての研究が多くなって
る
○ 既存データセットに様々な問題が絡んでいる：GQAチャレンジ2位
チームによるとGQAがバイアスでかつノイズで

109
• Capsule Networkが⼊り込んできた
– DeepCaps: Going Deeper with Capsule
Networks
• CapsNetを深層にするための知⾒の共有
• 3D Convを⽤いてCapsule情報を保有するとこ
ろがポイント？
– 3D Point Capsule Networks
• 点群にもCapsNet！
CapsNetは遅れてCVにやってきた;
今回出ている研究は⽐較的早く対応し
て改善を施したもの

110
• Embodiment
– 体を持つこと，環境とインタラクションすること
の重要性
• 固定されたdatasetでの学習から，⼈間の⼦供のよう
な学習（passive self-supervised -> self-supervised
actions -> curiosity -> imitation learning -> social
learning）へ
• ⼈間の場合はハードウェア（体）がこの学習の流れを
駆動しているように思える
• 前週開催のICMLでも同様の話題が⽬についた

111
• データとNNで殴る⽅向性に若⼲の閉塞感?
– Era of datasets will be over (WS:Computer
Vision After 5 Yearsより)
• NNの隆盛以降，CVの様々な問題に対してデータセッ
トを整備しアルゴリズムをLearnableにすることで解
決を図ってきたが，少し頭打ち感がある
• データとNNは分野を⼤きく前進させたが，そこに研究
リソースが集中する状況はLocal Optimaなのでは

112
• 認識系だとFAIRが強い (1/2)
– 認識系
• Object Detection, Semantic Segmentation,
Instance Segmentation, Video Recognition, Image
Captioning, VQA…
– FAIR？
• Facebook AI Research
• Facebookによる⼈⼯知能研究所
– Why strong?
• 計算基盤（100+GPU/⼈）
• DNNフレームワーク（PyTorch, Caffe2を⾃前開発）
• 豊富な⼈材（最近のAwardを総ナメ）
• インターン⽣の活躍など

113
• 認識系だとFAIRが強い (2/2)
– アーキテクチャ/物体検出のトレンドを創出
• さらに積み上げて次のトレンドを創造
• Faster R-CNN, ResNetの考案者
-> ResNeXt (CVPRʼ17), Focal Loss (ICCVʼ17 Student
Best), Mask R-CNN (ICCVʼ17 Marr Prize)提案
– Facebookのデータ基盤
• Instagramからのデータ収集（Instagram-3.5B）
[Mahajan+, ECCV18]
FBはSNSのHashtagでラベル付けなし，弱教
師付きの3.5B枚画像DB構築
Instagramからの⾼速なデータ収集に
よりモデルの更新なしにImageNetの
SOTA達成

114
• GANに強い研究機関: NVIDIA
– 圧倒的な計算⼒
• GANは最初の探索が命（らしい）
• DGX-1/2などGPU使い放題？もっとすごいの⽤意されてそう
– CVPRʼ19でもStyleGANを発表，受賞
• StyleGAN https://arxiv.org/abs/
– やはり研究者が集合し，コードをまとめている
https://github.com/NVIDIA/
GitHub@NVIDIAにはPGGAN,
pix2pixHDなど研究業績を公開
（もちろんGAN以外も充実）

115
• “PartNet”がCVPR2019に2つある！？(1/4)
– PartNet: A Large-Scale Benchmark for Fine-Grained
and Hierarchical Part-Level 3D Object Understanding
– PartNet: A Recursive Part Decomposition Network
for Fine-Grained and Hierarchical Shape
Segmentation
CVPR論⽂は今や1200＋！！

116
– PartNet: A Large-Scale Benchmark for Fine-Grained and
Hierarchical Part-Level 3D Object Understanding
24のオブジェクトカテゴリをカバーする26,671の3Dモデル上の
573,585の部品インスタンスで構成
Fine-grainedなインスタンスレベルの3D形状セグメンテーション
のための⼤規模データセットの構築

117
– PartNet: A Recursive Part Decomposition Network for
Fine-Grained and Hierarchical Shape Segmentation
3D点群オブジェクトを対象とした再帰的NNベースの
階層的セグメンテーション⼿法
再帰的ニューラルネットワーク(RvNN)によって3D点群オブジェクトの構造
を階層的に分解していくことで、インスタンスセグメンテーションを実現

118
CVPR論⽂は
スピードと共に質も向上すべき！

119
• v2論⽂が続々と登場している
– DeepFashion2
– Deformable ConvNet v2
• 過去に登場した有名論⽂のver.2
– YOLOv2同様，以前の論⽂の改良はまだまだ通る
Y. Ge et al. “DeepFashion2: A Versatile Benchmark for
Detection, Pose Estimation,Segmentation and Re-
Identification of Clothing Images,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_
Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2
019_paper.pdf
X. Zhu et al. “Deformable ConvNets v2: More
Deformable, Better Results,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhu_Deformable_Conv
Nets_V2_More_Deformable_Better_Results_CVPR_2019_paper.pdf

120
• 調査研究が⾯⽩い！
– Do Better ImageNet Models Transfer Better?
– 16アーキテクチャ/12データセットで実験
• ImageNetの事前学習を⾏い識別層の調整/Fine-
tuning，もしくはスクラッチ学習
• ImageNetの事前学習はfine-tuningした後の精度と相
関があることが判明
左２つはImageNet事前学習から識別層だ
け調整/fine-tuningしたもの，右はスクラ
ッチ学習とfine-tuningの精度⽐較．事前
学習ありの場合は精度を予測可能
ImageNetの事前学習は収束の早さに寄
与するが，詳細画像識別の精度向上に
は寄与しなかった

121
• 超解像は定性評価が厳しくなってきた！？
– ⾒て明らかに分かる，は同じ年の他提案論⽂と⼤
差ない（⼀時期のGANと同じ？）
• （他の問題設定も同じだが）良い部分を切り抜いてる
– ⼀⽅，新しく⾯⽩いことを考えている
e.g. 画像を修正するのではなく，カメラレンズのパラメ
ータ側から⾒直す

122
• Computer Vision After 5 Years
– 「5年後のCVはどうなってる？」がテーマのWS
• 次はどうなる？をCVPRコミュニティで共有
• 主に⽶国の有名研究者によるトーク集
– 次ページ以降に各講演者のトークを記載
@ワークショップ: Computer Vision After 5 Years
HP: https://futurecv.github.io/

123
• Cordelia Schmid（INRIA/Google）
– 動画認識の未来
– ラベル付けと弱教師学習による⾏動認識/予測
– Machine Learning + Data = Machine Visual
Perception
– Open Images / AVA: どちらもLong-tail問題
• Open Images https://ai.googleblog.com/2019/05/announcing-open-images-v5-and-iccv-
2019.html
• AVA https://research.google.com/ava/
– そこでSURREAL dataset
• MoCap+CGによりアノテーションを⾃動化

124
– Video Understanding
• データセットはUCF101(24 classes), J-HMDB21
• 最近ではGoogleのAVA datasetがある
• AVA: 動画中⼀秒に⼀回しかラベルを付けないので
bboxがズレてるとか⼈が現れてもラベル付けされない
問題（空間的・時間的特徴量抽出の重要性）
– Relation Action Forecasting
• CVPRʼ19発表論⽂
http://openaccess.thecvf.com/content_CVPR_2019/papers/Sun_Relational_Action_Forecasting_CVPR_2019_paper.pdf

125
– 5年後に向けた議論
• Interaction with the world
• Audio & Text
– Multi-modal Supervision
• VideoBERT https://arxiv.org/abs/1904.01766
• 料理のシーンにて⽂章を⼊れるとその先の予測が動画
として返却，動画像はBoWの表現としてBERTに⼊⼒
・学習
– 将来の⽅向性？
• Imitation Learning
• Reinforcement Learning
• 上記ふたつの階層的学習

126
• Alexei Efros（UC Berkeley）
– 学⽣：CVで最も重要なトピックはなんですか？
– 教授：もう取り組んでいるではないか！？
• で始まるトーク
– 突然ですがタイトル変更
• Next 5 years without regrets
– Each paper is a liability - Vladlen Koltun
• 論⽂は残ってしまうのでずっと嘘をつき続けることに
なってしまう
• 分野を間違った⽅向に導いてしまう，公開が残る
– 研究することはリスクを取り続けること！

127
– Efros先⽣の後悔
• Graphical Model（もう戻らない！）
• ConvNets（もっと早くやっておけば。。。）
– Face Detectionのパイオニア？
• Viola & Jonesはその⼀つにすぎない
• 本質的にはRowleyやKanadeらの1988年顔認識研究

128
– Potential Liabilities / Future Regrets...
• Adversarial attacks, robustness
– ⼈間も騙される？トリックアートなど⽇常でも起こりうる
– CNNはズルしがち，似たような特徴が現れたら認識
• Vision + Language
For x = 0, 99
CVPR 20xx 素晴らしいデータセットを考えた，みんな使うべき
CVPR 20xx+1 SOTA達成した！
end
– Visionの⼒がそこまで及んでいない

129
– Potential Liabilities / Future Regrets...
• Explanability
– Explanations are subjective
– Unreasonable Effectiveness of Data [Halevy et al.,
2009]
– Magic of Data
• Datasets
– 同じ画像は⼆度⾒ない，起こらない（データセットによりズ
ルしてしまう）
– 何度もOverfit / Cheating してしまう
– どうすればよい？
• ⽉に向かってハシゴを登るか，遠吠えを続けるか？
• いや，後悔を少なくして最⾼にノスタルジア（後から
良かった）を感じよう！

130
• Bill Freeman（MIT/Google）
– CVとCP（Computational Photography）
– Forsyth & PonceのCV教科書を開いて「DNNを
使って〜」という枕詞をつければ次の研究が思い
つく？
– Hubel & Wiesel の神経科学からConvNetは思い
ついた by Yann LeCun

131
• Jitendra Malik（UCBerkeley/FAIR）
– 研究は解決できるアート
• Research is the art of the soluble
– 現在では，過去に不可能だった問題が解けるよう
になってきた
• 静⽌画シーン理解，動的シーン理解についてもそう
• ⾏動中の動きについてはまだオープンクエスチョン
– 今⽇ではAI研究者がラベルを与えている
• ⾚ちゃんから学ぼう（Multi-modal, Incremental,
Physical, Explore, Use Language）
• ⼈から教師ありで学ぶのは実は少量？それ以上の知⾒
を⾃ら獲得している？

132
• 企業ブースの印象
– 100件以上の企業展⽰
• 名の知れた巨⼤IT企業は当然⼤きいブース
• ⾃動運転関連の企業も多い
• カメラ，レーザーセンサ等計測器メーカーも多い
• それ以外ではアノテーションツール・受託や学習プラ
ットフォームを提供する企業が急激に増えた印象
• 話によると1~2年前から顧客の幅が広がり需要が増え
ているとのこと

133
• 著名な⼤学教員/研究者は⼆⼑流！
– {⼤学の研究室, 企業インターン}で学⽣を獲得
• 実働メンバーを獲得するチャンネルが複数ある
– さらに，企業のデータにアクセスも可能なはず
• 「実学」を解くための問題を発⾒可能
• 問題は⾒つけた時点で解けている/解き⽅が思いつく
– ⾃ら会社を作り研究室と連携している例
• CUHK-SenseTime連携研究室（2018の速報から進展
）
• ⼈材・計算基盤・データ等のやりとりをより柔軟に？

134
• 論⽂の過剰増加により，ネタ予測可能に！？
– 今年の論⽂キーワードをピックアップ，やってい
ない組み合わせが来年登場？
• 例：
– 距離画像推定 + 弱教師学習（2019）
– 距離画像推定 + 弱教師学習 + アテンション（2020?）
• ↑の調査と実験に⼤学院⽣は擦り減っている？
– 余計に調査研究，振り返り研究，新規問題設定型
研究が⾯⽩く，際⽴つ！
5年後くらいの未来型研究を「今年」やる！

135
• トレンドを創る研究室が固まってきた！？
– ポスターで混む*場所には傾向がある
• 事前にarXiv/github/SNSを通して話題になった論⽂
• （DNN時代以降の）有名研究室，有名企業
• など
– 上記2番⽬が重要
• トレンドを創るグループ
• ⼀度サイクルに⼊ると次々にトレンドを創る
• DNN時代に⼊り⼀回シャッフルされたが，強い研究室
は再び名前を上げてきた（？）
＊ポスターで混む = 聴衆の関⼼が⾼い，ということ

136
• 相変わらず研究速度は速い
– 研究スタイルは⼤きく2パターン？
1. arXivを⽇ごとに探索して研究速度を保つ
精度向上！とその理論/アイディアを議論
制限時間は短いがアイディアは思いつきやすい
2. 普遍的に重要な研究を⾏い続ける
分野が抱えるオープンクエスチョンを解く
制限時間が⽐較的⻑いが深い洞察⼒が必要，さらに
問題がすぐに解けるとは限らない

137
• インターン⽣の活躍
– 企業インターンが（特に夏は）盛んである
• 企業インターンの業績が企業研究の業績を増やす！
• スポンサー企業となりブース出展（〜6⽉）
-> 学⽣をインターンに招待（6⽉）
-> 夏季インターン（6〜9⽉）
-> ⼤学に戻り論⽂投稿（9〜11⽉）
-> 採択！ダメでもECCV/ICCV投稿（3⽉）
– 同じような構図が⼤学にもある
• 履歴書を持ち有名教員に持って⾏く，が⾒られる
• 上と同じようなスケジュールで夏期インターン？

138
• 海外の計算機事情？
– 強い研究チームはAWSを使⽤
• インスタンス使い放題という場合も
• 研究室のスポンサーが資⾦提供という例もある
– ⼀⽅で，GPU 3枚/⼈という研究グループも
• 世界トップクラスの研究をしている
必ずしもグラフィックボードの枚数と研究成果は
相関するわけではない

139
• CVPRの通し⽅！？
– 精度が⾼い！SOTA！！Accept！！！
• Computer Vision and Precision Recall（CVPR）問題
• 実際は精度だけでなく，分野に貢献するアイディア有
– 緻密な調査と有益な考察
• Rethinking ImageNet Pre-Training （注）会議論⽂にはなっていない
• ⼗分な実験から考察や結論を導いている
– DB提案論⽂
• ImageNet, Places, OpenImages
• 分析，ベンチマーキングされている
但し，上記だけでは通せない

140
• CVPRの通し⽅！？その2
– 英語で伝わる（論理的/⽂法的なミスが少ない）論⽂を書く
– 当然だが，努⼒が伴う
• 体裁だけ間に合わせた論⽂はトップに絶対通らない
– 最低3周，できれば7+回校正
• 参照：松尾ぐみの論⽂の書き⽅ http://ymatsuo.com/japanese/ronbun_eng.html
– 世界的ラボはPIが “Reject” 出す（とりあえず投稿，を許さない）
• ラボ内レビューを徹底
• 追加実験など改善活動を繰り返す
他⼈の⽬に触れ, 改善を繰り返す！

141
• CVPRは必勝テンプレがなんとなく存在する
– 何⼗本，何百本も読んでいるとわかってくる
• 1ページ⽬には論⽂を最も説明する図1を置く
• 論⽂の貢献（Contribution）は最初に書く
• 図2 or 3は⼿法等の全体像（overview）
• 実験量/最⾼精度は重要(?)，グラフ/表を⾒やすく
– その他，査読者の苦労を推し量る
• 査読者は同時に10本前後を受け取る
– 採択率を考えるとその上位20%には⼊りたい
• 図は徹底して綺麗に&問題設定や結果を明らかに
# もちろん上に縛られずに通る論⽂なんていくらでもあります！
# あくまでテンプレなので，より効果的なアピールを著者で考えよう！

142
• 1ページ⽬，図1に⼒を⼊れる
– 特に図1はCVPR特有？
• 図1が1ページ⽬に多い，というくらいです
– 最も良い結果やコンセプトなど最⼤のアピールポ
イントを図1に込める

143
• 貢献はイントロで書く
– Our contribution~ で始まることが多い⽂章
• 貢献は「Nつある」も重要
• あまり意味のない貢献を書いて増やすのは逆効果？
– （1）⼿法を改善した, （2）改善した⼿法で実験した結果
**%向上した -> 1, 2は実質的に同じ？
– 貢献を記述するときは（特に）端的に！

144
• ⼿法/学習法などOverviewを⼊れる
– 何をしているかをひとめで説明
– ⾔葉ではなく視覚的に分かりやすい全体像を⾒せ
てミスリードを少なくする
– 最近ではDNNアーキテクチャ，DB提案論⽂の場
合には収集⽅法や構成表が多し

145
• 実験量/最⾼精度は重要(?)
– 賛否両論
• 実験量が多ければよいという訳ではないが，査読項⽬
のひとつになることもある
• 最⾼精度は出ていなくても構わないが，分野に対する
貢献が最低ひとつはあることが好ましい
– ⾃分の⼿法の効果的な側⾯を⽰す実験
• 不必要な量はいらないが，エビデンスとして⼗分かど
うかは精査

146
• CVPRの通し⽅++
– 共著論⽂の内容を理解する
• 当然だが，努⼒しないと意外と難しい
– ミーティングへの参加，議論はもちろんだができ
れば論⽂（やコードレベル）で理解したい
– 論⽂の校正も指導員が徹底して⾏う
• 原稿を真っ⾚に染める
• ver.を上げていく
• 数週間前には提出して論⽂の質向上期間を設ける
• 研究室内/コミュニティ内部レビューを導⼊

147
• USC ICT の研究の進め⽅
– MUST WORK HARDER, SUBMIT OR DIE
• 締め切りの数ヶ⽉前から本格的に研究開始
• 研究成果が出ていなくてもLabのほぼ全員が2-3⼈くら
いのチームを組んで投稿を⽬指す
• ⼀週間前から研究室でご飯が提供され、研究だけに集中
できる環境作り. 投稿前のスピード感は圧倒的に早い.
この追込みが論⽂を定期的にトップカンファレンスに通す秘訣？？
- 研究環境
- GPUは，1,2枚/⼈に加えて共有のものが50枚くらい
- 最新の論⽂は発⾒した⼈が，Slackのプロジェクトグ
ループにて共有

148
• アジア勢の伸び
– 中国は⾔わずもがな，韓国も
• 著者数（submit）では中国がアメリカを越える
• 清華⼤など中国本⼟の⼤学からの発表も⽬⽴つ
• 参加者数で⽇本が韓国の半分というのは少し残念
• もっとみんな参加しよう！

CVPR2019ではないけど動向・気付き（103/104）
149
• 中国のCVエコシステム CCCV + CCPR = PRCV！
– CCCV（ICCV的な？）は2018年3,000+⼈参加らしい
– CCPR（ICPR的な？）もそれに匹敵？
– 合体してPRCV！（それってChinese CVPR!?）
国内でCV分野を強くする仕組みが完成！
http://www.prcv2019.com/en/index.html

150
• 次のトレンドを創るワークショップ！
– ワークショップも本会議同様⾯⽩い
• 特定トピックにフォーカスして議論
• その分野を盛り上げたい研究者が集結！
• 下記のワークショップは投稿すべき！
筆者（⽚岡）もオーガナイザとし
て企画するICCV 2019 Workshop
http://lsfsl.net/ws/
http://iccv2019.thecvf.com/images/ICCV19logo_main.png

最近のトレンドを作っている論⽂
151
- CVPRで現在使われている重要技術を紹介
- Google Scholarにて各国際会議上位の論⽂をCVPR 2019
の論⽂内で検索，引⽤回数が多いものを記載
- およそ10論⽂以上に引⽤された論⽂

CVPR のトレンドを創っている論⽂（1/13）
• Deep Residual Learning for Image
Recognition
– CVPR 2016
– スキップコネクションによる残差を次のユニットに渡すこ
とで，勾配消失することなくより深い層の学習を実現
# 画像識別については代表的なもののみを記載（他にもAlexNet, VGGNet, GoogleNetなど）

• Rich Feature Hierarchies for Accurate Object
Detection and Semantic Segmentation
– CVPR 2014
– 候補領域抽出 + 物体識別の2ステップにより物体検出
Person
Uma
物体2
物体識別：Uma（⾺）
位置（x,y,w,h）：118, 250, 89, 146
物体１
物体識別：Person（⼈）
位置（x,y,w,h）：125, 15, 78, 162
画像はPascal VOC datasetより抜粋
# 他にもFast/Faster R-CNN, SSD, YOLOなど

• Fully Convolutional Networks for Semantic
Segmentation
– CVPR 2015
– 物体領域の意味ごとに分類を実施するセマンティックセグ
メンテーション
# 他にもSegNet, U-Net, DeepLabなど

• Mask R-CNN
– ICCV 2017
– 物体検出 / セマンティックセグメンテーション⼿法の統合
によりインスタンスセグメンテーションを⾏う
– ROI Alignにより，さらに詳細にピクセル誤差を与える

• Show and Tell: A Neural Image Caption
Generator
– CVPR 2015
– CNN + LSTMにより画像説明⽂を⽣成
– CNNの特徴から⾔語をLSTMにより再帰的に出⼒

• VQA: Visual Question Answering
– ICCV 2015
– 視覚的質問回答:画像+質問⼊⼒，回答を出⼒する問題設定

• Convolutional Pose Machine
– CVPR 2016
– 尤度マップを再帰的に畳み込み洗練
– 改善を繰り返してOpenPoseをリリース

• Generative Adversarial Nets
– NIPS 2014
– 敵対的⽣成ネットワーク
– 識別器Dと⽣成器Gのmin-max最適化により画像⽣成のモ
デルを学習
# 他にもDCGAN, ACGAN, WGAN, SNGAN, BigGANなど

• Image-to-Image Translation with
Conditional Adversarial Networks
– CVPR 2017
– 画像から画像の変換を汎⽤的に実⾏
# 他にもCycleGANがある

• Learning Spatiotemporal Features with 3D
Convolutional Networks
– ICCV 2015
– 時空間3次元畳み込みによる3D CNN（C3D）を提案
– 時間⽅向にも畳み込みができるようになり動画認識がより
⾼精度になるための⾜がかりになった

A Closer Look at Spatiotemporal
Convolutions for Action Recognition
– CVPR 2018
– 空間⽅向と時間⽅向に分解して畳み込む(2＋1)Dを提案
– 動画認識において提案⼿法が有効であることを⽰した

• KITTI dataset
– CVPR 2012
– ⾃動運転⽤のデータセット/ベンチマーク KITTIを提案

• Microsoft COCO: Common Objects in
Context
– ECCV 2014
– 物体検出，セマンティックセグメンテーション，画像説明
⽂のタスクを同時に提供する画像DB

これから引⽤されそう（流⾏りそう）な論⽂
165
- すでに引⽤されている論⽂も含みます
- （取捨選択のためにもう少し時間が欲しかったですね）

引⽤されそうなCVPR 2019 論⽂（1/50）
166
• Relational Action Forecasting
– 過去の動画フレームから
この先起こる action を予測する
– Actor Proposal とその特徴量から
actor 同⼠の関係性をGNNで学習

167
• LVIS: A Dataset for Large Vocabulary
Instance Segmentation
– Instance Segmentation のためのデータセット
– 164k枚の⾼画質な画像
– 2.2M個のオブジェクトを含む
– 1,000以上の細分化されたカテゴリ

168
• Panoptic Feature Pyramid Networks
– Panoptic segmentation
• Feature pyramid network(FPN)を有したMask R-
CNN
• 密な画素に対してセグメンテーションをするための
lightweight semantic segmentation branch

169
• Reasoning-RCNN: Unifying Adaptive
Global Reasoning Into Large-Scale Object
Detection
– knowledge graph を⽤いた数千カテゴリの object
detection
• カテゴリ不均衡やオクルージョンの問題の改善

170
• Show, Control and Tell
– 従来のボトムアップなアテンションの順番を操作し
て，キャプションで出現する順番を操作
– Chunk-Shifting Gate で名詞の終わりを明⽰的に出
⼒しモデルに認識させる（著者が実験的に有効と⾔
っていた）

171
• Large-scale weakly-supervised pre-
training for video action recognition
– 弱教師ありの65M動画に対してラベル付け
• インスタグラムから動画とハッシュタグを参照
• Kineticsラベルや動詞，名詞に着⽬

172
• Dual Attention Network for Scene
Segmentation
– Scene Segmentationのためのattention
moduleの提案
• 空間⽅向のself-attention とチャネル⽅向のattention
を計算する⼆つのAttention Module
• 既存のネットワークの後段に加えるだけで精度向上

173
• Max-Sliced Wasserstein Distance and Its
Use for GANs
– Sliced Wasserstein Distance(SWD)の改良論⽂
• SWDに関する論⽂はCVPR2019で3本通っている。
昨年もnon-deepにSWDが適⽤されており、アツい！
– SWDはGANsに⽤いる際に収束が遅かったが、
Max-SWDはサンプルの射影を改善することで
GANsの収束を早くしている

174
• StyleGAN (1/3)
– 新しいGeneratorの構造を提案
• 教師なしで⾼レベルな属性と確率的な要素を分解可能
– ⾼レベルな属性：ポーズやアイデンティティなど
– 確率的な要素：髪の状態やそばかすなど
• Generatorがdisentangleになった

175
• StyleGAN (2/3)
– 様々なテクニックを導⼊
• 学習の安定性と速さを向上するprogressive growing
• 確率的な要素をモデル化するnoise injection
• 隣接したstyleの相関を仮定させないstyle mixing
noise injectionの効果．(b)で⼊⼒ノイズのみを
変化させた時の⽣成結果を⽰している．髪のア
ピアランスがノイズによって変化する．
(a) noiseinjectionの効果．(b)で⼊⼒ノイズのみを
変化させた時の⽣成結果を⽰している．髪のアピア
ランスがノイズによって変化する．

176
• StyleGAN (3/3)
– GANの新しい評価指標を提案
• どのGeneratorに対しても適応可能
• perceptual path length
– ⽣成画像の変化の滑らかさの評価指標
• linear separability
– disentanglementの程度の評価指標
– StyleGANはFIDでもSOTA
• FFHQデータセットで5.06

177
• Deformable ConvNets V2: More
Deformable, Better Results
– 受容野を物体形状に合わせるために導⼊された
Deformable ConvNets を改良し，より正確に物体
形状に合わせて受容野を広げる
– 畳み込みカーネルのオフセットと共に特徴量の重み
も学習する

178
• Universal Domain Adaptation
– ドメイン間のラベルの事前知識を⽤いない問題
• ドメインで共通のラベルと固有のラベルが存在
• domain gapも存在
– Universal Adaptation Networkを提案
• 共通のラベルか固有のラベルかを検出する

179
• Grounded Video Description
– ActivityNet Captions から物体検出と対応を⾏な
った新たなデータセット ActivityNet Entities を
作成
– Grounded Video Captioning (Bounding box 単
位で注⽬領域を可視化しながらのキャプショニン
グ)を⾏った

180
• From Recognition to Cognition: Visual
Commonsense Reasoning
– 画像からコンテクストに関する質問の回答及び推
論の理由づけを⾏うデータセット・タスク提案
– visualcommonsense.com でコンペも開催！

181
• Semantically Tied Paired Cycle
Consistency for Zero-Shot Sketch-Based
Image Retrieval
– ゼロショット物体画像検索をスケッチから⾏う
– 補助情報はクラス名・WordNet による階層情報

182
• SiCloPe: Silhouette-Based Clothed People
– ⼀枚画像から⾐服を含む三次元復元を実現
– 形状だけではなく全⾝のテクスチャも復元

CVPR 2019 速報

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to CVPR 2019 速報

Similar to CVPR 2019 速報 (20)

Recently uploaded

Recently uploaded (9)

CVPR 2019 速報