11. DNNの動向・CVのトレンド(1/34)
11
• DNN時代以前の動向
– Perceptron, MLP, Neocognitron, BackProp, CNN
– DNNが流⾏る直前の画像認識では局所特徴が使⽤
1st AI 2nd AI 3rd AI
F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961.
Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986.
K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition
unaffected by shift in position”, in 1980
Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998.
12. DNNの動向・CVのトレンド(2/34)
12
• Perceptron, MLP, Neocognitron/ConvNet
– Perceptron
• ⼊⼒とコネクション(重み)の線形和,活性化関数により構成
– MLP: Multi-layer Perceptron
• Perceptronの多層化
– Neocognitron/ConvNet
• 畳込みの概念を導⼊,特に隣接ピクセルに類似関係のある画像処理
に有効
Perceptron(パーセプトロン)
Neocognitron
K. Fukushima, “Neocognitron: A Self-organizing Neural Network
Model for a Mechanism of Pattern Recognition Unaffected by Shift
in Position,” Biol. Cybenetics 36, pp.193-202, 1980.
https://www.rctn.org/bruno/public/papers/Fukushima1980.pdf
Convolutional Neural Net
Y. LeCun et al. “Gradient-Based Learning
Applied to Document Recognition,” IEEE,
1998.
http://yann.lecun.com/exdb/publis/pdf/l
ecun-01a.pdf
18. DNNの動向・CVのトレンド(8/34)
18
• 構造の複雑化・⾃動化(2016〜)
– ResNet以降のアーキテクチャ
• ResNeXt, DenseNet, SENet, ...
– ⾃動化(Neural Architecture Search)
• NASNet, PNASNet, ...
SENet(SE-block)
J. Hu et al. “Squeeze-and-Excitation Networks, “ in TPAMI 2019.
https://arxiv.org/abs/1709.01507
S. Xie et al. “Aggregated Residual
Transformations for Deep Neural
Networks, “ in CVPR 2017.
https://arxiv.org/abs/1709.01507
ResNeXt
G. Huang et al. “Densely Connected
Convolutional Networks, “ in CVPR
2017.
https://arxiv.org/abs/1608.06993
DenseNet
B. Zoph et al. “Learning Transferable
Architectures for Scalable Image
Recognition,“ in CVPR 2018.
https://arxiv.org/abs/1707.07012
NASNet
C. Liu et al. “Progressive Neural
Architecture Search,“ in CVPR 2018.
https://arxiv.org/abs/1712.00559
PNASNet
40. DNNの動向・CVのトレンド(30/34)
40
• ロボティクスへの応⽤ @CVPR2019
– 点群の利⽤や6D Object Detectionが多数
– マニピュレーション:DenseFusionでは6D Det.
と把持を実施(左図)
– ⾃動運転:点群トラッキング+形状復元(右図)
C. Wang et al. “DenseFusion: 6D Object Pose
Estimation by Iteratibve Dense Fusion,” in
CVPR 2019
http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_D
enseFusion_6D_Object_Pose_Estimation_by_Iterative_Dense_Fusion
_CVPR_2019_paper.pdf
S. Giancola et al. “Leveraging Shape Completion for 3D Siamese
Tracking,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Giancola_Leveraging_Shape_Completion_for_3D_Sia
mese_Tracking_CVPR_2019_paper.pdf
点群トラッキング+形状復元(下の例は⾞両の復元)
41. DNNの動向・CVのトレンド(31/34)
41
• ファッション分野への応⽤ @CVPR2019
– ファッションのアノテーションが進展
– DeepFashion2(左図)
• DeepFashionの強化版,より詳細なラベルを付与
– FCDBv2(右図)
• FCDBの強化版,バイナリ識別器によりデータクレンジング
Y. Ge et al. “DeepFashion2: A Versatile Benchmark for
Detection, Pose Estimation,Segmentation and Re-
Identification of Clothing Images,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_
Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2
019_paper.pdf
H. Kataoka, K. Abe, M. Minoguchi, A. Nakamura, Y. Satoh, "Ten-
million-order Human Database for World-wide Fashion Culture
Analysis", in CVPR 2019 Workshop on FFSS-USAD.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_Versatile_B
enchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2019_paper.pdf
42. DNNの動向・CVのトレンド(32/34)
42
• 動画認識の応⽤
– 動画⾃動ラベル付け
– ⾒守り,料理⾏動解析,ホームロボティクス,,,
• 動画DBは群雄割拠(下図)
D. Damen et al. “Scaling Egocentric
Vision: The EPIC-KITCHENS Dataset,” in
ECCV 2018.
https://epic-kitchens.github.io/2018
W. Kay et al. “The
Kinetics Human Action
Video Dataset,” in
arXiv:1705.06950
2017.
https://deepmind.com/research/open-
source/open-source-datasets/kinetics/
C. Gu et al. “AVA: A
Video Dataset of Spatio-
temporally Localized
Atomic Visual Actions,” in
CVPR 2018.
https://research.google.com/ava/downl
oad.html
M. Monfort et al. “Moments in Time
Dataset: one million videos for event
understanding,” in arXiv pre-print
1801.03150, 2018.
http://moments.csail.mit.edu/
H. Zhao et al. “HACS: Human Action
Clips and Segments Dataset for
Recognition and Temporal Localization,”
in arXiv pre-print 1712.09374 2017.
http://hacs.csail.mit.edu/
Something-Something v2 dataset
https://20bn.com/datasets/something-something
80. CVPR2019の動向・気付き(34/104)
80
• 動画認識の最新を追うためには
– まずはトレンドを創っている研究者を探そう!
– Du Tran⽒が2019年の動画認識では重要⼈物
• 6/16のAction Classification and Video Modelingの
Tutorialでは10分に1回は名前が挙がるくらいには重
要
• C3D(ICCV2015), R(2+1)D (CVPR2018)の⼈
• 弱教師
– Large-scale weakly-supervised pre-training for video
action recognition
– CVPR2019年論⽂
– https://arxiv.org/abs/1905.00561 Du Tran
Facebook AI
https://dutran.github.io/
81. CVPR2019の動向・気付き(35/104)
81
• 動画におけるクリップの扱いに関する論⽂も
– 今までは16フレームなどを1クリップとした固定
⻑の⼊⼒
• ⻑い動画に対しては,クリップごとの結果を平均
→ 本当にそれって良いの?
– 動画全体の特徴量を使⽤する
• Long-Term Feature Banks for Detailed Video
Understanding https://www.philkr.net/papers/2019-06-02-cvpr/2019-06-02-cvpr.pdf
– 使⽤するクリップを選択する
• Action Classification and Video Modeling にて紹介
• SCSampler: Sampling Salient Clips from Video for
Efficient Action Recognition https://arxiv.org/abs/1904.04289
82. CVPR2019の動向・気付き(36/104)
82
• 物体追跡の基本は相関フィルタの学習?
– 追跡のキーワード
• 相関フィルタ,順・逆⽅向トラッキング,
SiameseNet(SiamNet),Tracking-by-detection
– 相関フィルタの学習がキー
• フィルタを,時系列的⼀貫性を保つよう教師なし学習
• 構造にSiameseNet(⼊⼒が⼆枚)を⽤いることが多い
Chao Ma et al. “Hierarchical Convolutional
Features for Visual Tracking,” in ICCV 2015.
https://www.cv-
foundation.org/openaccess/content_iccv_2015/p
apers/Ma_Hierarchical_Convolutional_Features_I
CCV_2015_paper.pdf
相関フィルタは画像を⼊⼒した
ら物体の位置座標を返却
N. Wang, et al. “Unsupervised Deep Tracking,”, in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_
Unsupervised_Deep_Tracking_CVPR_2019_paper.pdf
SiameseNetは画像を⼆枚⼊⼒,時
系列的に連続する⼆枚のフレームを
⼊⼒して差分や⼀貫性から位置や特
徴表現を教師なし学習
83. CVPR2019の動向・気付き(37/104)
83
• Tracking + α の流れは続く
– 今回は点群追跡(左図)や画像⽣成(右図)
– 追跡で時系列的な⼀貫性を学習,しながら追加の
モダリティを学習(できることがわかってきた)
S. Giancola et al. “Leveraging Shape Completion for 3D
Siamese Tracking,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Giancol
a_Leveraging_Shape_Completion_for_3D_Siamese_Tracking_CVP
R_2019_paper.pdf
Z. He, et al. “Tracking by Animation:Unsupervised Learning of Multi-
Object Attentive Trackers,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/He_Tracking_by_Ani
mation_Unsupervised_Learning_of_Multi-
Object_Attentive_Trackers_CVPR_2019_paper.pdf
85. CVPR2019の動向・気付き(39/104)
85
• OCRの動向
– Irregular-shaped テキスト検出
• 単語単位
– Learning Shape-Aware Embedding for Scene
Text Detection
– Arbitrary Shape Scene Text Detection with
Adaptive Text Region Representation
– Towards Robust Curve Text Detection with
Conditional Spatial Expansion
– Shape Robust Text Detection with Progressive
Scale Expansion Network
– Look More Than Once: An Accurate Detector
for Text of Arbitrary Shapes
• ⽂字単位
– Character Region Awareness for Text
Detection (CRAFT)
86. CVPR2019の動向・気付き(40/104)
86
• OCRの動向
– Irregular-shaped ⽂字認識
• ESIR: End-to-end Scene Text Recognition via
Iterative Image Rectification
– ドメイン適応
• Sequence-to-Sequence Domain Adaptation
Network for Robust Text Image Recognition
– 画像単位のDAではなく、⽂字単位のDA
– テキスト検出⼿法の評価⽅法
• Tightness-aware Evaluation Protocol for Scene
Text Detection
– 検出のcutoffや他の領域まで含んでしまった場合に
罰則をつけたIoU
95. CVPR2019の動向・気付き(49/104)
95
●招待講演 3:Christopher Manning (Stanford University)
○Making the L in VQA Matterを主なトピックに討論
○従来のVQAの問題点:
■ Answers: not just one word; should be interesting
■ Questions: short, no complications, fail to test compositional
ability
■ 結論:deep understandingが⽋けている;
○解決提案:
■ Visual Genome Dataset : デンスな領域アノテーション・画像ごとに
Scene Graph付き
■ GQA Dataset : Visual Genomeの画像,Scene Graphなどを利⽤し
て,Consistency, Validity/Plausibility, Distribution, Groundingなど
を評価できる
■ Compositional質問が⼤量に設定
@ワークショップ: Visual Question Answering & Dialog
96. CVPR2019の動向・気付き(50/104)
96
●招待講演 4:Karl Moritz Hermann (DeepMind)
○Grounded Language Learningを主なTopic:
Grounding Language: Learning language through association
with other sensory experiences
○2つの研究をもって紹介:
Encoding Spatial Relations from
Natural Language
⾃然⾔語と3D Sceneの対応関係を学習で
きるモデル.⾃然⾔語とカメラ情報から
シーンをrenderingできる.
Learning to Follow Directions in Street View
リアル画像のStreet View Instructionsデー
タセット:real world; diversity imagery;
following the instructions from google map.
@ワークショップ: Visual Question Answering & Dialog
97. CVPR2019の動向・気付き(51/104)
97
●招待講演 5:Layla El Asri (Microsoft Research)
○State Aliasing in Dialog Modeling with RNNsについて紹
介:関連論⽂
■ State Aliasing: RNNsを⽤いたDialogシステムにおいてPolicy
Gradientを適応する場合,異なるStateが共通したOptimal Actionを
シェアする場合,State Representationをうまく学習できない問題 (
背景知識が不⾜して理解できない)
@ワークショップ: Visual Question Answering & Dialog
98. CVPR2019の動向・気付き(52/104)
98
●招待講演 6:Sanja Fidler (University of Toronto / NVIDIA)
○Compositional Learning of Complex TaskをTopicに2つ
の研究を紹介
Progressive Module Networks:
・⼩さいモジュールで⼤きいモジュールの問題
を解決;Compositional Modules
・VQA タスクにおいて:Level 0 (object
recogniton; attribute recogniton)
level 1 (image captioning; relationship
detection); level 2 (Object Counting); level
3 (VQA)
Learning to Caption by asking questions:
・ Human in the loop画像を説明
・ Use language to guide learning agent
・ Use language to ask a teacher
Components:
・ Captioner; Decision Maker; Question
Generator; Teacher
@ワークショップ: Visual Question Answering & Dialog
107. CVPR2019の動向・気付き(61/104)
107
●Visual Dialog Challenge:winner
○ Learning to Answer: Fine-tuning with Generalized Cross Entropy for
visual dialog challenge
○ Main Techniques:
■ Remove history from joint embedding
■ Multi-head,Ensemble
■ RvA+
■ Use complicate image features
■ +bbox features
■ Two-stage training: learn to reason; learn to answer
@ワークショップ: Visual Question Answering & Dialog
111. CVPR2019の動向・気付き(65/104)
111
• データとNNで殴る⽅向性に若⼲の閉塞感?
– Era of datasets will be over (WS:Computer
Vision After 5 Yearsより)
• NNの隆盛以降,CVの様々な問題に対してデータセッ
トを整備しアルゴリズムをLearnableにすることで解
決を図ってきたが,少し頭打ち感がある
• データとNNは分野を⼤きく前進させたが,そこに研究
リソースが集中する状況はLocal Optimaなのでは
115. CVPR2019の動向・気付き(69/104)
115
• “PartNet”がCVPR2019に2つある!?(1/4)
– PartNet: A Large-Scale Benchmark for Fine-Grained
and Hierarchical Part-Level 3D Object Understanding
– PartNet: A Recursive Part Decomposition Network
for Fine-Grained and Hierarchical Shape
Segmentation
CVPR論⽂は今や1200+!!
119. CVPR2019の動向・気付き(73/104)
119
• v2論⽂が続々と登場している
– DeepFashion2
– Deformable ConvNet v2
• 過去に登場した有名論⽂のver.2
– YOLOv2同様,以前の論⽂の改良はまだまだ通る
Y. Ge et al. “DeepFashion2: A Versatile Benchmark for
Detection, Pose Estimation,Segmentation and Re-
Identification of Clothing Images,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_
Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2
019_paper.pdf
X. Zhu et al. “Deformable ConvNets v2: More
Deformable, Better Results,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhu_Deformable_Conv
Nets_V2_More_Deformable_Better_Results_CVPR_2019_paper.pdf
131. CVPR2019の動向・気付き(85/104)
131
• Jitendra Malik(UCBerkeley/FAIR)
– 研究は解決できるアート
• Research is the art of the soluble
– 現在では,過去に不可能だった問題が解けるよう
になってきた
• 静⽌画シーン理解,動的シーン理解についてもそう
• ⾏動中の動きについてはまだオープンクエスチョン
– 今⽇ではAI研究者がラベルを与えている
• ⾚ちゃんから学ぼう(Multi-modal, Incremental,
Physical, Explore, Use Language)
• ⼈から教師ありで学ぶのは実は少量?それ以上の知⾒
を⾃ら獲得している?