ディープラーニングを用いた物体認識とその周辺～現状と課題～ (Revised on 18 July, 2018)

ディープラーニングを用いた
物体認識とその周辺
～現状と課題～
岩村雅一山田良博
（大阪府立大学大学院工学研究科）
画像センシング展イメージセンシングセミナー招待講演 2018/6/13

自己紹介
1
岩村雅一
大阪府立大学大学院工学研究科准教授
[主な研究分野]
• 文字認識
• 物体認識
• 視覚障害者支援システム
[主な受賞]
• 2006年：電子情報通信学会論文賞
• 2007年：ICDAR Best Paper Award
• 2010年：DAS Best Paper Award
• 2011年：IAPR/ICDAR Young
Investigator Award
• 2017年：MVA Best Paper Award
山田良博
大阪府立大学大学院工学研究科 D2
日本学術振興会特別研究員
• 深層学習を用いた一般物体認識
（CIFAR-100データセットにおいて、
世界一の認識精度を二度達成）
[主な受賞]
• 2016＆2017年度：電子情報通信学会
PRMU研究会研究奨励賞（2年連続）
• 2017年：MIRU2017
インタラクティブ発表賞

自己紹介
2
岩村雅一
大阪府立大学大学院工学研究科准教授
• 文字認識
• 物体認識
• 視覚障害者支援システム
[主な受賞]
• 2006年：電子情報通信学会論文賞
• 2007年：ICDAR Best Paper Award
• 2010年：DAS Best Paper Award
• 2011年：IAPR/ICDAR Young
Investigator Award
• 2017年：MVA Best Paper Award
山田良博
大阪府立大学大学院工学研究科 D2
日本学術振興会特別研究員
• 深層学習を用いた一般物体認識
（CIFAR-100データセットにおいて、
世界一の認識精度を二度達成）
[主な受賞]
• 2016＆2017年度：電子情報通信学会
PRMU研究会研究奨励賞（2年連続）
• 2017年：MIRU2017
インタラクティブ発表賞
勝手に始めた人巻き込まれた人

この講演に含まれること・含まれないこと
物体検出
Semantic
Segmentation
Instance
Segmentation
画像生成
（GAN）
Adversarial
Examples
構造探索
可視化
自己教師あり学習
データセット
の拡張
物体認識の周辺タスク
蒸留
画像変換
（スタイル変換、
超解像など）
画像圧縮
画像キャプショニング
強化学習
含まれること
○ 発表者が知っていること、
面白いと思うこと
○ 情報へのポインタ
含まれないこと
× 幅広いサーベイ
3次元物体認識・
構造推定物体認識
関連技術
Attention
Visual QA
動画の認識
5

目次
6
1. 物体認識とニューラルネットワーク
2. 物体認識の周辺タスク
3. 関連タスク

物体認識とニューラルネットワーク

物体認識
8
ポチシロハチジロータマチビ
インスタンスレベル
（特定物体認識）
サブカテゴリレベル
（fine-grained
object
recognition）
カテゴリレベル
（一般物体認識）
チワワボクサーハスキー
犬ねずみ猫
（機械が）画像中の物体が何かを言い当てるタスク

物体認識
9
ポチシロハチジロータマチビ
インスタンスレベル
（特定物体認識）
カテゴリレベル
（一般物体認識）
チワワボクサーハスキー
犬ねずみ猫
（機械が）画像中の物体が何かを言い当てるタスク
サブカテゴリレベル
（fine-grained
object
recognition）
• クラス当たりの学習画像が多い
 ディープラーニングを適用しやすい
• クラス当たりの学習画像が少ない

深層学習以前の一般物体認識
10
入力画像
Images: Schiele & Fritz, “High-Level Computer Vision” Course Matrial,
https://www.mpi-inf.mpg.de/hlcv
局所特徴量の抽出
Bag-of-Visual-Words表現など
ベクトル量子化
（クラスタリング）
識別器
（SVM等）
クラス
ラベル
人手で設計教師無し学習
人手で設計
教師あり学習

深層学習以降の一般物体認識
11
入力画像
深層学習
(全結合層)
深層学習
(CNN)
入力画像
識別器
（SVM等）
深層学習
(CNN)
教師あり学習教師あり学習
教師あり学習教師あり学習

深層学習の登場で何が変わったか？
12
• 中山, Deep Learningによる画像認識革命,
SSII チュートリアル講演 (2015)
• 内田, 深層学習の非常に簡単な説明, SlideShare (2017)
• まとめサイト：玉木, Deep learning（深層学習）
チュートリアルなど集
特徴抽出系
• 学習により得られる
• 大規模なラベル付き学習データが必要
識別器
• 単なる線形識別器（±α）
• 従来からの大幅な性能向上は望めない
参考になるプレゼン、情報源

物体認識の周辺タスク

物体認識の周辺タスク -画像分類で十分？-
「ネコ」
これだけで『物体を認識した』と
言えるのだろうか？
14

物体認識の周辺タスク -高度な画像認識-
「ネコ」の画像
1. 場所
何処に「ネコ」が居る？
2. 複数物体
他に物体は無いか？
別の「ネコ」は居ないか？
物体分類では扱わない
高度な問題が存在

物体認識の周辺タスク -高度な画像認識の例-
Semantic Segmentation
(領域分割)
空
木
草
猫
画像の各部分が
どのクラスに属するか分類
入力画像出力
Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf

物体認識の周辺タスク -高度な画像認識の例-
『画像の認識』を扱うタスクは
物体認識以外にも無数に存在している
Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf

物体認識以外の
周辺タスクは何処まで進んだ？
18

物体認識の周辺タスク -物体認識が周辺タスクにもたらした恩恵-
物体認識
CNN
「ネコ」
「草」
「空」
「木」
認識精度が上がるにつれ画像認識CNNから
物体の正確な位置や確信度が得られるようになった
「ネコ」
周辺タスクに飛躍的な発展をもたらした
19

物体認識の周辺タスク -UberNet-
入力画像
Kokkinos+: UberNet : Training a ‘Universal’ Convolutional Neural Network for Low-,
Mid-, and High-Level Vision using Diverse Datasets and Limited Memory, CVPR (2017)
物体認識の精度向上で様々な周辺タスクが
同時に解けるまでになっている
20

物体認識の周辺タスク -周辺タスクの最先端-
代表的な3つのタスクについて
最先端の研究成果を紹介
21

物体認識の周辺タスク -領域分割 (PSPNet)-
Zhao+: Pyramid Scene Parsing Network, CVPR (2017)
優れた物体認識CNNに
様々な領域で物体の情報を扱う
特殊な構造を導入して精度改善
Semantic Segmentation
(領域分割)
Pyramid Pooling Module
23

物体認識の周辺タスク -物体検出 (YOLO)-
Object Detection
(物体検出)
入力画像
画像の「どこ」に「何」があるか扱う
「ネコ」
24

物体認識の周辺タスク -物体検出 (YOLO)-
Redmon+: YOLOv3: An Incremental Improvement,
https://pjreddie.com/media/files/papers/YOLOv3.pdf
優れた物体認識CNNに
位置情報を扱うタスクを付与
様々な物体のクラスと位置を扱う
Object Detection
(物体検出)
25

物体認識の周辺タスク -個別領域分割 (Mask R-CNN)-
Instance Segmentation
(個別領域分割)
イヌA
イヌB
画像中に含まれる
同じクラスの物体を
それぞれ別の領域で分割する
26
He+: Mask R-CNN, CVPR (2017)

検出された領域の中で
それぞれ領域分割を行う類似タスクとみなせる
物体検出個別領域分割
物体検出結果
27

物体検出と個別領域分割の類似性から
物体検出結果を活用して精度向上
物体検出の情報を利用
28

物体認識の周辺タスク -まとめ-
物体認識の成功が
周辺タスクの成功を
もたらした

深層学習を巡る最近の動向 –Caltech101-
31
2004年: Caltech101
クラス数： 101
画像枚数：約1万枚
初の近代的な物体認識用データセット

深層学習を巡る最近の動向 -ImageNetの衝撃-
32
クラス数： 2万以上
画像枚数：約1400万枚
2009年: ImageNet
100倍以上の規模！
物体認識が大きく変わる
きっかけになった

深層学習を巡る最近の動向 -ImageNetを用いたコンペティション-
33
ImageNet Large Scale Visual
Recognition Challenge (ILSVRC)
2010年から開催されてきた
大規模物体認識コンペ

深層学習を巡る最近の動向 -ILSVRCと精度向上-
34
Park+: IMAGENET Latge Scale Visual Recognition Challenge (ILSVRC) 2017 Overview,
http://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf
深層学習によって
人を上回る精度を達成
16%
5.1%
ヒト
2.3%
ILSVRC物体認識
top-5エラー率の推移

深層学習を巡る最近の動向 -ILSVRCの終了-
35
Fei-Fei+: IMAGENET Where have we been? Where are we going?,
http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf
ILSVRCは一定の役割を終えたとして
2017年で終了した
精度向上の結果...
※ 後継としてOpen Images Challengeが開催される
研究の主流は『単なる認識』以上の
タスクへ向きつつある

認識
応用
①画像生成 ②敵対的事例
③構造探索 ④セキュリティ
36

物体認識が出来たことで
何が出来るようになった？
① 画像生成
37

深層学習を巡る最近の動向 -画像生成 (GAN)-
38
物体認識の発展により
実現した高精細な画像生成
Generative Adversarial Network
(GAN/敵対的生成ネットワーク)
どのように生成する？
Karras+, Progressive Growing of GANs for Improved Quality, Stability, and Variation, ICLR (2018)

深層学習を巡る最近の動向 -画像生成 (GAN)-
39
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
データセット
本物
偽物
生成器と識別器が競い
偽物の画像の質を向上

深層学習を巡る最近の動向 -(例)GANの仕組み-
40
Generator
(生成器)
Discriminator
(識別器)
生成器と識別器が競う
ことで偽札の質が向上データセット
偽札
本物のお札
偽札を見抜く
見抜かれない
偽札を作る
同様の仕組みをCNNで...
「偽物」
OR
「本物」

深層学習を巡る最近の動向 -GANの進歩-
41malicious_ai_reportより
画像処理技術の向上に伴い
高精細な画像を生成できるように
現在
2013年 2017年

深層学習を巡る最近の動向 -GANの課題-
42
Mode Collapse
学習がある程度進んで
バランスが崩れてしまう
Fedus+: Many Paths to Equilibrium: GANs Do Not Need to Decrease a
Divergence At Every Step, ICLR (2018)
・多様性の減少
・生成画像の質の低下

深層学習を巡る最近の動向 –Mode Collapseの原因1:識別器の勝利-
43
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
識別器が優秀だと
うまく学習できない
データセット
偽札
本物のお札
見抜かれない偽札を
作ろうにも…
偽物を全部
見抜けたぞ！

深層学習を巡る最近の動向 –Mode Collapseの原因2:生成器の勝利-
44
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
生成器が優秀でも
うまく学習できないデータセット
偽札
本物のお札
全然分からん…
完璧な偽札が
出来た！
バランスが大事

深層学習を巡る最近の動向 –勝利条件の整理-
45
勝敗を決めるのは全て識別器の振る舞い
勝敗を決めない曖昧な振る舞いの識別器で
Mode Collapseを回避できる？
完全には分からん
Discriminator
(識別器)

深層学習を巡る最近の動向 -識別器を1-Lipschitz連続に-
46
Discriminator
(識別器)
𝐷( )
𝐷( )
距離A 距離B
入力と出力の距離関係が
保たれるよう識別器を調整
出力1
出力2
距離𝐴 ≥ 距離𝐵
制約：

深層学習を巡る最近の動向 -(例) 生成画像が似てきた場合-
47
Discriminator
(識別器)
𝐷( )
𝐷( )
距離A 距離B
偽物が似ると距離Bが小さく
識別結果に差がなくなり曖昧に
出力1
出力2
制約：
小小

深層学習を巡る最近の動向 -距離の制約を導入したGAN-
48
Spectral Normalization
Miyato+: Spectral Normalization for Generative Adversarial Networks, ICLR (2018)
距離の制約を
簡単な計算で実現
Mode Collapseを回避
制約：
Video: https://drive.google.com/drive/folders/1yhV8_VbOcs2rkiMTstO4RHqp4YRnzg6c

深層学習を巡る最近の動向 -画像生成まとめ-
49
物体認識の発展
数理的な分析の進歩
画像生成は飛躍的に発展
Karras+, Progressive Growing of GANs for Improved Quality, Stability, and Variation, ICLR (2018)

物体認識に迫る脅威
② 敵対的事例
50

深層学習を巡る最近の動向 -セキュリティ-
51
自動運転等の場面
停止だ
止まった！

深層学習を巡る最近の動向 -セキュリティ-
52
自動運転等の場面
文字を消して
悪戯してやる
悪意への対応が必要
止まらない！？
駐車禁止だ

深層学習を巡る最近の動向 -想定される脅威-
53
Goodfellow+: Explaining and Harnessing Adversarial Examples, ICLR (2015)
CNNが物体認識結果を間違える画像作りは
人の目には見えないレベルのノイズで実現可能
敵対的事例 (Adversarial Example)
パンダテナガザル

深層学習を巡る最近の動向 -敵対的事例の怖さ-
54
応用技術への脅威に
敵対的事例 (Adversarial Example)
文字を消さず
悪戯してやる
駐車禁止だ
標識はおかしくないのに
止まらない！？

深層学習を巡る最近の動向 -敵対的事例の仕組み-
55
生成画像𝐺(𝑥, 𝜃)本物の画像𝑥
ノイズを付与
ノイズ𝜽
生成画像の認識結果が異なるか確かめつつ
分類をだます小さなノイズ𝜽を学習していく

深層学習を巡る最近の動向 -敵対的事例の応用-
56
Brown+: Adversarial Patch, arXiv (2017)
缶バッジのようなものでも
画像認識結果を間違えさせることができる
どう対策するのか？
Video: https://www.youtube.com/watch?v=i1sp4X57TL4

深層学習を巡る最近の動向 -敵対的事例の対策-
57
生成画像𝐺(𝑥, 𝜃)
物体認識CNN
敵対的事例をCNNで学習する
敵対的事例を考慮し
頑健性が向上
更にこの対策は
存在するのだろうか？

深層学習を巡る最近の動向 -敵対的事例の対策の対策-
58
敵対的事例の生成をGANで学習
kurakin+: Adversarial Attacks and Defences Competition, arXiv (2018)
見抜かれないような
敵対的事例の生成を学習

より良い物体認識手法は
自動的に見つけられる？
③ 構造探索
59

ILSVRC物体認識
top-5エラー率の推移
深層学習を巡る最近の動向 -ILSVRCと精度向上-
60
CNN構造の進歩によって
人を上回る精度を達成
16%
5.1%
ヒト
2.3%
Park+: IMAGENET Latge Scale Visual Recognition Challenge (ILSVRC) 2017 Overview,
http://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf

深層学習を巡る最近の動向 -ILSVRCとCNN構造-
61
より良い構造を自動で探索したい！
優れたCNNの構造が認識精度を改善してきた
16% 6.7% 3.6%7.3%
Top-5 Error

深層学習を巡る最近の動向 -CNNの自動構造探索の考え方-
62
無数に存在する構造の精度を検証
最も優れた構造を発見する！
CNN構造をパラメータだと考える
認識精度の向上が
期待される

深層学習を巡る最近の動向 -AmoebaNet-
63
遺伝的アルゴリズム+大規模分散処理で
高い認識精度を実現するCNN構造を探索
(CIFAR-10およびImageNetで高精度を実現)
Real+: Regularized Evolution for Image Classifier Architecture Search, arXiv (2018)
実際に探索された構造の例

深層学習を巡る最近の動向 -構造探索の問題点-
64
課題: 認識精度の評価が大変
小規模データ: 約1日大規模データ: 約1ヶ月
1つの構造を評価するのに...
普通の専用計算機で
大規模な専用計算機が必要

深層学習を巡る最近の動向 -構造探索のコスト問題-
65
個人や大学の研究室レベルでは
(事実上)構造探索は不可能な規模に
最高級の深層学習用
計算ユニットが
膨大な量必要になる
数百台規模
Zoph+: Learning Transferable Architectures for Scalable Image Recognition, CVPR (2018)
ある論文の大規模計算機

深層学習を巡る最近の動向 -今後の構造探索の課題-
66
Pham+: Efficient Neural Architecture Search via Parameter Sharing, arXiv (2018)
低コストな探索手法が模索され始めている
ENASNet
個人や大学の研究室レベルでは
(事実上)構造探索は不可能な規模に
• パラメータの学習を最小限に
• 構造を制限する

物体認識の結果がどうして
こうなったのか知りたい！
④ 可視化
67

深層学習を巡る最近の動向 -物体認識の例-
68
ImageNetの実際の画像
※ 一部拡大
ピザ
分類システム
Lee+: Why Do Deep Neural Networks Still Not Recognize These Images?: A Qualitative Analysis
on Failure Cases of ImageNet Classification, CVPR Scene Understanding workshop (2017)

深層学習を巡る最近の動向 -物体認識の例-
69
正解: 絆創膏
ImageNetの実際の画像
※ 一部拡大

深層学習を巡る最近の動向 -根拠の提示-
70
正解: 絆創膏
ピザ
何故そう認識したか
根拠が知りたい
誤認識は
避けられないが…
分類システム
再発防止

深層学習を巡る最近の動向 -根拠の提示-
71
適当な所の情報を抜き出しても
よく分からない数字の羅列
人に分かりやすい情報提示が不可欠
CNNの認識過程はブラックボックス的

深層学習を巡る最近の動向 -根拠の可視化-
72
何処を見て
分類したか？
例: ネコ
例: イヌGrad-CAM
Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017)

73
何処を見て
分類したか？
Grad-CAM 例: イヌ
ここが変わったら
イヌっぽく
見えなくなる
クラスに対する変動を
見ることで可視化する
Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017)

74Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017)
Grad-CAM
クラスに対する勾配(変動が大きくなる部分)
を用いて特徴を取り出し可視化する
勾配
特徴

ラベル付きデータが少なくても
高精度な物体認識ができる？
⑤ データセット
の拡張
75

自己教師あり学習 (Self-supervised Learning)
76
例１：画像の色づけ [1]
• カラー画像から白黒画像を生成
• 白黒画像からカラー画像を予測
例２：動きの推定 [2]
• 動画中の2枚の画像からカメラ
の動きを推定
「手動のラベル付け」無しで特徴表現を学習
入力出力・教師
予測
[1] Zhang+: Colorful Image Colorization, ECCV (2016)
[2] Agrawal+: Learning to See by Moving, ICCV (2015)
生成
入力出力・教師
カ
メ
ラ
の
動
き
Egomotionはタダで
入手可能と仮定

Pretext tasksによる自己教師あり学習（pretext=言い訳）
77
本当に学習したいタスク
10クラスの物体認識
関係無さそうなタスク
回転角認識（4クラス問題）
0° 90° 180° 270°
関係無さそうなタスク（pretext tasks）の学習により、
本当に学習したいタスクで使える特徴表現を学習
特徴表現使用

Pretext tasksによる自己教師あり学習（pretext=言い訳）
78
関係無さそうなタスク（pretext tasks）の学習により、
本当に学習したいタスクで使える特徴表現を学習
関係無さそうなタスクの例
1. 幾何変換画像の回転や左右反転などの組み合わせ
2. 計数
画像の部分に含まれる物体の数の和が
画像全体に含まれる物体の数と一致
3. マルチモダリティ画像と音声の元の組み合わせかを判別
4. カメラの動き動画中の画像からカメラの動きを推定
5. パズルジグソーパズルを解く、画像の穴埋め

Pretext tasksによる自己教師あり学習：1. 幾何変換
79
[3] Gidaris+: Unsupervised Representation Learning by Predicting Image Rotations,
ICLR (2018)
[4] Kilinc+: Learning Latent Representations in Neural Networks for Clustering through
Pseudo Supervision and Graph-based Activity Regularization, ICLR (2018)
回転のみ [3]
• 4クラス問題
0° 90° 180° 270°
回転と左右反転 [4]
• 8クラス問題
共通の性質（数値は[3]より抜粋）
• 90°ずつの回転が最も精度が高い
回転角 45° 90° 180°
精度
(%)
88.51 89.06
87.46
85.52
• 精度は教師あり学習には劣る
教師あり自己教師あり
CIFAR-10 92.80 91.16
ImageNet 59.7 50.0
PASCAL
VOC
79.9 72.97

Pretext tasksによる自己教師あり学習：1. 幾何変換
80
[3] Gidaris+: Unsupervised Representation Learning by Predicting Image Rotations,
ICLR (2018)
教師あり学習自己教師あり学習入力
学習で得られた特徴 [3]
教師あり学習と同様の特徴が得られている

Pretext tasksによる自己教師あり学習：2. 計数
81
[5] Noroozi+: Representation Learning by Learning to Count, ICCV (2017)
画像全体に含まれる物体の数は、画像の各領域に含まれる
物体の数の和という制約を利用して、画像の特徴表現を学習
画像全体の物体数
画像を4分割したときの
各領域の物体数

Pretext tasksによる自己教師あり学習：3. マルチモダリティ
82
画像と音声の組み合わせが正しいかどうかを判別することで、
画像と音声の特徴表現を学習
同じ動画のものか判定
動画
音声特徴の抽出
画像特徴の抽出
[6] Arandjelović+: Look, Listen and Learn, ICCV (2017)
画像
音声

Pretext tasksによる自己教師あり学習：4. カメラの動き
83
入力
特徴抽出動きの推定
動画中の2枚の画像から「カメラの動き」を推定することで、
物体認識に使用できる特徴表現を学習
出力・教師
（タダで入手可能と仮定）
[2] Agrawal+: Learning to See by Moving, ICCV (2015)
カ
メ
ラ
の
動
き

Pretext tasksによる自己教師あり学習：5. パズル
84
隠れた部分を推定したり、パズルを解くことで、
[7] Noroozi+: Unsupervised Learning of Visual Representations by Solving Jigsaw
Puzzles, ECCV (2016)
元画像から緑の領域
を切り抜く
シャッフルした状態正しく並べた状態
ジグソーパズル [7]

Pretext tasksによる自己教師あり学習：5. パズル
85
隠れた部分を推定したり、パズルを解くことで、
[8] Pathak+: Context Encoders: Feature Learning by Inpainting, CVPR (2016)
画像の穴埋め [8]
穴埋め結果入力
穴埋め

データセットの拡張：前処理の工夫
86
学習データを意図的に劣化させることで、学習を促進
[1] Zhong+: Random Erasing Data Augmentation, arXiv:1708.04896 (2017)
[2] DeVries+: Improved Regularization of Convolutional Neural Networks with Cutout,
arXiv:1708.04552 (2017)

データセットの拡張：データとクラスラベルの合成
87
画像と正解ラベルの中間状態を作り
学習サンプルを増やすことで学習性能を向上
[1] Tokozume+: Learning from Between-class Examples for Deep Sound Recognition,
ICLR (2018)
[2] Zhang+: mixup: Beyond Empirical Risk Minimization, ICLR (2018)
[3] Lee+: SGD on Random Mixtures: Private Machine Learning under Data Breach
Threats, ICLR Workshop (2018)
[4] Tokozume+: Between-class Learning for Image Classification, CVPR (2018)

ディープラーニングを用いた物体認識とその周辺～現状と課題～ (Revised on 18 July, 2018)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ディープラーニングを用いた物体認識とその周辺～現状と課題～ (Revised on 18 July, 2018)

Similar to ディープラーニングを用いた物体認識とその周辺～現状と課題～ (Revised on 18 July, 2018) (20)