SlideShare a Scribd company logo
1 of 89
Download to read offline
ディープラーニングを用いた
物体認識とその周辺
~現状と課題~
岩村雅一 山田良博
(大阪府立大学 大学院工学研究科)
画像センシング展 イメージセンシングセミナー 招待講演 2018/6/13
自己紹介
1
岩村雅一
大阪府立大学 大学院工学研究科 准教授
[主な研究分野]
• 文字認識
• 物体認識
• 視覚障害者支援システム
[主な受賞]
• 2006年:電子情報通信学会 論文賞
• 2007年:ICDAR Best Paper Award
• 2010年:DAS Best Paper Award
• 2011年:IAPR/ICDAR Young
Investigator Award
• 2017年:MVA Best Paper Award
山田良博
大阪府立大学 大学院工学研究科 D2
日本学術振興会 特別研究員
[主な研究分野]
• 深層学習を用いた一般物体認識
(CIFAR-100データセットにおいて、
世界一の認識精度を二度達成)
[主な受賞]
• 2016&2017年度:電子情報通信学会
PRMU研究会 研究奨励賞(2年連続)
• 2017年:MIRU2017
インタラクティブ発表賞
自己紹介
2
岩村雅一
大阪府立大学 大学院工学研究科 准教授
[主な研究分野]
• 文字認識
• 物体認識
• 視覚障害者支援システム
[主な受賞]
• 2006年:電子情報通信学会 論文賞
• 2007年:ICDAR Best Paper Award
• 2010年:DAS Best Paper Award
• 2011年:IAPR/ICDAR Young
Investigator Award
• 2017年:MVA Best Paper Award
山田良博
大阪府立大学 大学院工学研究科 D2
日本学術振興会 特別研究員
[主な研究分野]
• 深層学習を用いた一般物体認識
(CIFAR-100データセットにおいて、
世界一の認識精度を二度達成)
[主な受賞]
• 2016&2017年度:電子情報通信学会
PRMU研究会 研究奨励賞(2年連続)
• 2017年:MIRU2017
インタラクティブ発表賞
勝手に始めた人巻き込まれた人
CIFAR-10/100 Dataset
3
4
この講演に含まれること・含まれないこと
物体検出
Semantic
Segmentation
Instance
Segmentation
画像生成
(GAN)
Adversarial
Examples
構造探索
可視化
自己教師あり学習
データセット
の拡張
物体認識の周辺タスク
蒸留
画像変換
(スタイル変換、
超解像など)
画像圧縮
画像キャプショニング
強化学習
含まれること
○ 発表者が知っていること、
面白いと思うこと
○ 情報へのポインタ
含まれないこと
× 幅広いサーベイ
3次元物体認識・
構造推定物体認識
関連技術
Attention
Visual QA
動画の認識
5
目次
6
1. 物体認識とニューラルネットワーク
2. 物体認識の周辺タスク
3. 関連タスク
物体認識とニューラルネットワーク
物体認識
8
ポチ シロ ハチ ジロー タマ チビ
インスタンスレベル
(特定物体認識)
サブカテゴリレベル
(fine-grained
object
recognition)
カテゴリレベル
(一般物体認識)
チワワ ボクサー ハスキー
犬 ねずみ猫
(機械が)画像中の物体が何かを言い当てるタスク
物体認識
9
ポチ シロ ハチ ジロー タマ チビ
インスタンスレベル
(特定物体認識)
カテゴリレベル
(一般物体認識)
チワワ ボクサー ハスキー
犬 ねずみ猫
(機械が)画像中の物体が何かを言い当てるタスク
サブカテゴリレベル
(fine-grained
object
recognition)
• クラス当たりの学習画像が多い
 ディープラーニングを適用しやすい
• クラス当たりの学習画像が少ない
深層学習以前の一般物体認識
10
入力画像
Images: Schiele & Fritz, “High-Level Computer Vision” Course Matrial,
https://www.mpi-inf.mpg.de/hlcv
局所特徴量の抽出
Bag-of-Visual-Words表現など
ベクトル量子化
(クラスタリング)
識別器
(SVM等)
クラス
ラベル
人手で設計 教師無し学習
人手で設計
教師あり学習
深層学習以降の一般物体認識
11
入力画像
深層学習
(全結合層)
深層学習
(CNN)
入力画像
識別器
(SVM等)
深層学習
(CNN)
教師あり学習教師あり学習
教師あり学習 教師あり学習
深層学習の登場で何が変わったか?
12
• 中山, Deep Learningによる画像認識革命,
SSII チュートリアル講演 (2015)
• 内田, 深層学習の非常に簡単な説明, SlideShare (2017)
• まとめサイト:玉木, Deep learning(深層学習)
チュートリアルなど集
特徴抽出系
• 学習により得られる
• 大規模なラベル付き学習データが必要
識別器
• 単なる線形識別器(±α)
• 従来からの大幅な性能向上は望めない
参考になるプレゼン、情報源
物体認識の周辺タスク
物体認識の周辺タスク -画像分類で十分?-
「ネコ」
これだけで『物体を認識した』と
言えるのだろうか?
14
物体認識の周辺タスク -高度な画像認識-
「ネコ」の画像
1. 場所
何処に「ネコ」が居る?
2. 複数物体
他に物体は無いか?
別の「ネコ」は居ないか?
物体分類では扱わない
高度な問題が存在
物体認識の周辺タスク -高度な画像認識の例-
Semantic Segmentation
(領域分割)
空
木
草
猫
画像の各部分が
どのクラスに属するか分類
入力画像 出力
Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
物体認識の周辺タスク -高度な画像認識の例-
『画像の認識』を扱うタスクは
物体認識以外にも無数に存在している
Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
物体認識以外の
周辺タスクは何処まで進んだ?
18
物体認識の周辺タスク -物体認識が周辺タスクにもたらした恩恵-
物体認識
CNN
「ネコ」
「草」
「空」
「木」
認識精度が上がるにつれ画像認識CNNから
物体の正確な位置や確信度が得られるようになった
「ネコ」
周辺タスクに飛躍的な発展をもたらした
19
物体認識の周辺タスク -UberNet-
入力画像
Kokkinos+: UberNet : Training a ‘Universal’ Convolutional Neural Network for Low-,
Mid-, and High-Level Vision using Diverse Datasets and Limited Memory, CVPR (2017)
物体認識の精度向上で様々な周辺タスクが
同時に解けるまでになっている
20
物体認識の周辺タスク -周辺タスクの最先端-
代表的な3つのタスクについて
最先端の研究成果を紹介
21
物体認識の周辺タスク -高度な画像認識の例-
Semantic Segmentation
(領域分割)
空
木
草
猫
画像の各部分が
どのクラスに属するか分類
入力画像 出力
Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
物体認識の周辺タスク -領域分割 (PSPNet)-
Zhao+: Pyramid Scene Parsing Network, CVPR (2017)
優れた物体認識CNNに
様々な領域で物体の情報を扱う
特殊な構造を導入して精度改善
Semantic Segmentation
(領域分割)
Pyramid Pooling Module
23
物体認識の周辺タスク -物体検出 (YOLO)-
Object Detection
(物体検出)
入力画像
画像の「どこ」に「何」があるか扱う
「ネコ」
24
物体認識の周辺タスク -物体検出 (YOLO)-
Redmon+: YOLOv3: An Incremental Improvement,
https://pjreddie.com/media/files/papers/YOLOv3.pdf
優れた物体認識CNNに
位置情報を扱うタスクを付与
様々な物体のクラスと位置を扱う
Object Detection
(物体検出)
25
物体認識の周辺タスク -個別領域分割 (Mask R-CNN)-
Instance Segmentation
(個別領域分割)
イヌA
イヌB
画像中に含まれる
同じクラスの物体を
それぞれ別の領域で分割する
26
He+: Mask R-CNN, CVPR (2017)
物体認識の周辺タスク -個別領域分割 (Mask R-CNN)-
検出された領域の中で
それぞれ領域分割を行う類似タスクとみなせる
物体検出 個別領域分割
物体検出結果
Instance Segmentation
(個別領域分割)
27
He+: Mask R-CNN, CVPR (2017)
物体認識の周辺タスク -個別領域分割 (Mask R-CNN)-
He+: Mask R-CNN, CVPR (2017)
物体検出と個別領域分割の類似性から
物体検出結果を活用して精度向上
Instance Segmentation
(個別領域分割)
物体検出の情報を利用
28
物体認識の周辺タスク -まとめ-
物体認識の成功が
周辺タスクの成功を
もたらした
関連技術
深層学習を巡る最近の動向 –Caltech101-
31
2004年: Caltech101
クラス数: 101
画像枚数: 約1万枚
初の近代的な物体認識用データセット
深層学習を巡る最近の動向 -ImageNetの衝撃-
32
クラス数: 2万以上
画像枚数: 約1400万枚
2009年: ImageNet
100倍以上の規模!
物体認識が大きく変わる
きっかけになった
深層学習を巡る最近の動向 -ImageNetを用いたコンペティション-
33
ImageNet Large Scale Visual
Recognition Challenge (ILSVRC)
2010年から開催されてきた
大規模物体認識コンペ
深層学習を巡る最近の動向 -ILSVRCと精度向上-
34
Park+: IMAGENET Latge Scale Visual Recognition Challenge (ILSVRC) 2017 Overview,
http://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf
深層学習によって
人を上回る精度を達成
16%
5.1%
ヒト
2.3%
ILSVRC物体認識
top-5エラー率の推移
深層学習を巡る最近の動向 -ILSVRCの終了-
35
Fei-Fei+: IMAGENET Where have we been? Where are we going?,
http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf
ILSVRCは一定の役割を終えたとして
2017年で終了した
精度向上の結果...
※ 後継としてOpen Images Challengeが開催される
研究の主流は『単なる認識』以上の
タスクへ向きつつある
認識
応用
①画像生成 ②敵対的事例
③構造探索 ④セキュリティ
36
物体認識が出来たことで
何が出来るようになった?
① 画像生成
37
深層学習を巡る最近の動向 -画像生成 (GAN)-
38
物体認識の発展により
実現した高精細な画像生成
Generative Adversarial Network
(GAN/敵対的生成ネットワーク)
どのように生成する?
Karras+, Progressive Growing of GANs for Improved Quality, Stability, and Variation, ICLR (2018)
深層学習を巡る最近の動向 -画像生成 (GAN)-
39
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
データセット
本物
偽物
生成器と識別器が競い
偽物の画像の質を向上
Generative Adversarial Network
(GAN/敵対的生成ネットワーク)
深層学習を巡る最近の動向 -(例)GANの仕組み-
40
Generator
(生成器)
Discriminator
(識別器)
生成器と識別器が競う
ことで偽札の質が向上データセット
偽札
本物のお札
偽札を見抜く
見抜かれない
偽札を作る
同様の仕組みをCNNで...
「偽物」
OR
「本物」
深層学習を巡る最近の動向 -GANの進歩-
41malicious_ai_reportより
画像処理技術の向上に伴い
高精細な画像を生成できるように
現在
2013年 2017年
深層学習を巡る最近の動向 -GANの課題-
42
Mode Collapse
学習がある程度進んで
バランスが崩れてしまう
Fedus+: Many Paths to Equilibrium: GANs Do Not Need to Decrease a
Divergence At Every Step, ICLR (2018)
・多様性の減少
・生成画像の質の低下
深層学習を巡る最近の動向 –Mode Collapseの原因1:識別器の勝利-
43
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
識別器が優秀だと
うまく学習できない
データセット
偽札
本物のお札
見抜かれない偽札を
作ろうにも…
偽物を全部
見抜けたぞ!
深層学習を巡る最近の動向 –Mode Collapseの原因2:生成器の勝利-
44
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
生成器が優秀でも
うまく学習できないデータセット
偽札
本物のお札
全然分からん…
完璧な偽札が
出来た!
バランスが大事
深層学習を巡る最近の動向 –勝利条件の整理-
45
勝敗を決めるのは全て識別器の振る舞い
勝敗を決めない曖昧な振る舞いの識別器で
Mode Collapseを回避できる?
完全には分からん
Discriminator
(識別器)
深層学習を巡る最近の動向 -識別器を1-Lipschitz連続に-
46
Discriminator
(識別器)
𝐷( )
𝐷( )
距離A 距離B
入力と出力の距離関係が
保たれるよう識別器を調整
出力1
出力2
距離𝐴 ≥ 距離𝐵
制約:
深層学習を巡る最近の動向 -(例) 生成画像が似てきた場合-
47
Discriminator
(識別器)
𝐷( )
𝐷( )
距離A 距離B
偽物が似ると距離Bが小さく
識別結果に差がなくなり曖昧に
出力1
出力2
距離𝐴 ≥ 距離𝐵
制約:
小 小
深層学習を巡る最近の動向 -距離の制約を導入したGAN-
48
Spectral Normalization
Miyato+: Spectral Normalization for Generative Adversarial Networks, ICLR (2018)
距離の制約を
簡単な計算で実現
Mode Collapseを回避
距離𝐴 ≥ 距離𝐵
制約:
Video: https://drive.google.com/drive/folders/1yhV8_VbOcs2rkiMTstO4RHqp4YRnzg6c
深層学習を巡る最近の動向 -画像生成まとめ-
49
物体認識の発展
数理的な分析の進歩
画像生成は飛躍的に発展
Karras+, Progressive Growing of GANs for Improved Quality, Stability, and Variation, ICLR (2018)
Generative Adversarial Network
(GAN/敵対的生成ネットワーク)
物体認識に迫る脅威
② 敵対的事例
50
深層学習を巡る最近の動向 -セキュリティ-
51
自動運転等の場面
停止だ
止まった!
深層学習を巡る最近の動向 -セキュリティ-
52
自動運転等の場面
文字を消して
悪戯してやる
悪意への対応が必要
止まらない!?
駐車禁止だ
深層学習を巡る最近の動向 -想定される脅威-
53
Goodfellow+: Explaining and Harnessing Adversarial Examples, ICLR (2015)
CNNが物体認識結果を間違える画像作りは
人の目には見えないレベルのノイズで実現可能
敵対的事例 (Adversarial Example)
パンダ テナガザル
深層学習を巡る最近の動向 -敵対的事例の怖さ-
54
応用技術への脅威に
敵対的事例 (Adversarial Example)
文字を消さず
悪戯してやる
駐車禁止だ
標識はおかしくないのに
止まらない!?
深層学習を巡る最近の動向 -敵対的事例の仕組み-
55
生成画像𝐺(𝑥, 𝜃)本物の画像𝑥
ノイズを付与
ノイズ𝜽
生成画像の認識結果が異なるか確かめつつ
分類をだます小さなノイズ𝜽を学習していく
深層学習を巡る最近の動向 -敵対的事例の応用-
56
Brown+: Adversarial Patch, arXiv (2017)
缶バッジのようなものでも
画像認識結果を間違えさせることができる
どう対策するのか?
Video: https://www.youtube.com/watch?v=i1sp4X57TL4
深層学習を巡る最近の動向 -敵対的事例の対策-
57
生成画像𝐺(𝑥, 𝜃)
物体認識CNN
敵対的事例をCNNで学習する
敵対的事例を考慮し
頑健性が向上
更にこの対策は
存在するのだろうか?
深層学習を巡る最近の動向 -敵対的事例の対策の対策-
58
敵対的事例の生成をGANで学習
kurakin+: Adversarial Attacks and Defences Competition, arXiv (2018)
見抜かれないような
敵対的事例の生成を学習
より良い物体認識手法は
自動的に見つけられる?
③ 構造探索
59
ILSVRC物体認識
top-5エラー率の推移
深層学習を巡る最近の動向 -ILSVRCと精度向上-
60
CNN構造の進歩によって
人を上回る精度を達成
16%
5.1%
ヒト
2.3%
Park+: IMAGENET Latge Scale Visual Recognition Challenge (ILSVRC) 2017 Overview,
http://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf
深層学習を巡る最近の動向 -ILSVRCとCNN構造-
61
より良い構造を自動で探索したい!
優れたCNNの構造が認識精度を改善してきた
16% 6.7% 3.6%7.3%
Top-5 Error
深層学習を巡る最近の動向 -CNNの自動構造探索の考え方-
62
無数に存在する構造の精度を検証
最も優れた構造を発見する!
CNN構造をパラメータだと考える
認識精度の向上が
期待される
深層学習を巡る最近の動向 -AmoebaNet-
63
遺伝的アルゴリズム+大規模分散処理で
高い認識精度を実現するCNN構造を探索
(CIFAR-10およびImageNetで高精度を実現)
Real+: Regularized Evolution for Image Classifier Architecture Search, arXiv (2018)
実際に探索された構造の例
深層学習を巡る最近の動向 -構造探索の問題点-
64
課題: 認識精度の評価が大変
小規模データ: 約1日 大規模データ: 約1ヶ月
1つの構造を評価するのに...
普通の専用計算機で
大規模な専用計算機が必要
深層学習を巡る最近の動向 -構造探索のコスト問題-
65
個人や大学の研究室レベルでは
(事実上)構造探索は不可能な規模に
最高級の深層学習用
計算ユニットが
膨大な量必要になる
数百台規模
Zoph+: Learning Transferable Architectures for Scalable Image Recognition, CVPR (2018)
ある論文の大規模計算機
深層学習を巡る最近の動向 -今後の構造探索の課題-
66
Pham+: Efficient Neural Architecture Search via Parameter Sharing, arXiv (2018)
低コストな探索手法が模索され始めている
ENASNet
個人や大学の研究室レベルでは
(事実上)構造探索は不可能な規模に
• パラメータの学習を最小限に
• 構造を制限する
物体認識の結果がどうして
こうなったのか知りたい!
④ 可視化
67
深層学習を巡る最近の動向 -物体認識の例-
68
ImageNetの実際の画像
※ 一部拡大
ピザ
分類システム
Lee+: Why Do Deep Neural Networks Still Not Recognize These Images?: A Qualitative Analysis
on Failure Cases of ImageNet Classification, CVPR Scene Understanding workshop (2017)
深層学習を巡る最近の動向 -物体認識の例-
69
正解: 絆創膏
ImageNetの実際の画像
※ 一部拡大
Lee+: Why Do Deep Neural Networks Still Not Recognize These Images?: A Qualitative Analysis
on Failure Cases of ImageNet Classification, CVPR Scene Understanding workshop (2017)
深層学習を巡る最近の動向 -根拠の提示-
70
正解: 絆創膏
ピザ
何故そう認識したか
根拠が知りたい
誤認識は
避けられないが…
分類システム
再発防止
Lee+: Why Do Deep Neural Networks Still Not Recognize These Images?: A Qualitative Analysis
on Failure Cases of ImageNet Classification, CVPR Scene Understanding workshop (2017)
深層学習を巡る最近の動向 -根拠の提示-
71
適当な所の情報を抜き出しても
よく分からない数字の羅列
人に分かりやすい情報提示が不可欠
CNNの認識過程はブラックボックス的
深層学習を巡る最近の動向 -根拠の可視化-
72
何処を見て
分類したか?
例: ネコ
例: イヌGrad-CAM
Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017)
深層学習を巡る最近の動向 -根拠の可視化-
73
何処を見て
分類したか?
Grad-CAM 例: イヌ
ここが変わったら
イヌっぽく
見えなくなる
クラスに対する変動を
見ることで可視化する
Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017)
深層学習を巡る最近の動向 -根拠の可視化-
74Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017)
Grad-CAM
クラスに対する勾配(変動が大きくなる部分)
を用いて特徴を取り出し可視化する
勾配
特徴
ラベル付きデータが少なくても
高精度な物体認識ができる?
⑤ データセット
の拡張
75
自己教師あり学習 (Self-supervised Learning)
76
例1:画像の色づけ [1]
• カラー画像から白黒画像を生成
• 白黒画像からカラー画像を予測
例2:動きの推定 [2]
• 動画中の2枚の画像からカメラ
の動きを推定
「手動のラベル付け」無しで特徴表現を学習
入力 出力・教師
予測
[1] Zhang+: Colorful Image Colorization, ECCV (2016)
[2] Agrawal+: Learning to See by Moving, ICCV (2015)
生成
入力 出力・教師
カ
メ
ラ
の
動
き
Egomotionはタダで
入手可能と仮定
Pretext tasksによる自己教師あり学習(pretext=言い訳)
77
本当に学習したいタスク
10クラスの物体認識
関係無さそうなタスク
回転角認識(4クラス問題)
0° 90° 180° 270°
関係無さそうなタスク(pretext tasks)の学習により、
本当に学習したいタスクで使える特徴表現を学習
特徴表現使用
Pretext tasksによる自己教師あり学習(pretext=言い訳)
78
関係無さそうなタスク(pretext tasks)の学習により、
本当に学習したいタスクで使える特徴表現を学習
関係無さそうなタスクの例
1. 幾何変換 画像の回転や左右反転などの組み合わせ
2. 計数
画像の部分に含まれる物体の数の和が
画像全体に含まれる物体の数と一致
3. マルチモダリティ 画像と音声の元の組み合わせかを判別
4. カメラの動き 動画中の画像からカメラの動きを推定
5. パズル ジグソーパズルを解く、画像の穴埋め
Pretext tasksによる自己教師あり学習:1. 幾何変換
79
[3] Gidaris+: Unsupervised Representation Learning by Predicting Image Rotations,
ICLR (2018)
[4] Kilinc+: Learning Latent Representations in Neural Networks for Clustering through
Pseudo Supervision and Graph-based Activity Regularization, ICLR (2018)
回転のみ [3]
• 4クラス問題
0° 90° 180° 270°
回転と左右反転 [4]
• 8クラス問題
共通の性質(数値は[3]より抜粋)
• 90°ずつの回転が最も精度が高い
回転角 45° 90° 180°
精度
(%)
88.51 89.06
87.46
85.52
• 精度は教師あり学習には劣る
教師あり 自己教師あり
CIFAR-10 92.80 91.16
ImageNet 59.7 50.0
PASCAL
VOC
79.9 72.97
Pretext tasksによる自己教師あり学習:1. 幾何変換
80
[3] Gidaris+: Unsupervised Representation Learning by Predicting Image Rotations,
ICLR (2018)
教師あり学習 自己教師あり学習入力
学習で得られた特徴 [3]
教師あり学習と同様の特徴が得られている
Pretext tasksによる自己教師あり学習:2. 計数
81
[5] Noroozi+: Representation Learning by Learning to Count, ICCV (2017)
画像全体に含まれる物体の数は、画像の各領域に含まれる
物体の数の和という制約を利用して、画像の特徴表現を学習
画像全体の物体数
画像を4分割したときの
各領域の物体数
Pretext tasksによる自己教師あり学習:3. マルチモダリティ
82
画像と音声の組み合わせが正しいかどうかを判別することで、
画像と音声の特徴表現を学習
同じ動画のものか判定
動画
音声特徴の抽出
画像特徴の抽出
[6] Arandjelović+: Look, Listen and Learn, ICCV (2017)
画像
音声
Pretext tasksによる自己教師あり学習:4. カメラの動き
83
入力
特徴抽出 動きの推定
動画中の2枚の画像から「カメラの動き」を推定することで、
物体認識に使用できる特徴表現を学習
出力・教師
(タダで入手可能と仮定)
[2] Agrawal+: Learning to See by Moving, ICCV (2015)
カ
メ
ラ
の
動
き
Pretext tasksによる自己教師あり学習:5. パズル
84
隠れた部分を推定したり、パズルを解くことで、
物体認識に使用できる特徴表現を学習
[7] Noroozi+: Unsupervised Learning of Visual Representations by Solving Jigsaw
Puzzles, ECCV (2016)
元画像から緑の領域
を切り抜く
シャッフルした状態 正しく並べた状態
ジグソーパズル [7]
Pretext tasksによる自己教師あり学習:5. パズル
85
隠れた部分を推定したり、パズルを解くことで、
物体認識に使用できる特徴表現を学習
[8] Pathak+: Context Encoders: Feature Learning by Inpainting, CVPR (2016)
画像の穴埋め [8]
穴埋め結果入力
穴埋め
データセットの拡張:前処理の工夫
86
学習データを意図的に劣化させることで、学習を促進
[1] Zhong+: Random Erasing Data Augmentation, arXiv:1708.04896 (2017)
[2] DeVries+: Improved Regularization of Convolutional Neural Networks with Cutout,
arXiv:1708.04552 (2017)
データセットの拡張:データとクラスラベルの合成
87
画像と正解ラベルの中間状態を作り
学習サンプルを増やすことで学習性能を向上
[1] Tokozume+: Learning from Between-class Examples for Deep Sound Recognition,
ICLR (2018)
[2] Zhang+: mixup: Beyond Empirical Risk Minimization, ICLR (2018)
[3] Lee+: SGD on Random Mixtures: Private Machine Learning under Data Breach
Threats, ICLR Workshop (2018)
[4] Tokozume+: Between-class Learning for Image Classification, CVPR (2018)
ディープラーニングを用いた
物体認識とその周辺
~現状と課題~
岩村雅一 山田良博
(大阪府立大学 大学院工学研究科)
画像センシング展 イメージセンシングセミナー 招待講演 2018/6/13

More Related Content

What's hot

【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset DistillationRyutaro Yamauchi
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Kazuki Maeno
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法Hirokatsu Kataoka
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展Takumi Ohkuma
 
kaggle Freesound Audio Tagging 2019 4th place solution
kaggle Freesound Audio Tagging 2019 4th place solutionkaggle Freesound Audio Tagging 2019 4th place solution
kaggle Freesound Audio Tagging 2019 4th place solution理 秋山
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...Deep Learning JP
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Yosuke Shinya
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural RepresentationsDeep Learning JP
 

What's hot (20)

【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
kaggle Freesound Audio Tagging 2019 4th place solution
kaggle Freesound Audio Tagging 2019 4th place solutionkaggle Freesound Audio Tagging 2019 4th place solution
kaggle Freesound Audio Tagging 2019 4th place solution
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
 

Similar to ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)

画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知Hideo Terada
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural imagesDeep Learning JP
 
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...Koichi Hamada
 
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)STAIR Lab, Chiba Institute of Technology
 
ユーザーサイド情報検索システム
ユーザーサイド情報検索システムユーザーサイド情報検索システム
ユーザーサイド情報検索システムjoisino
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会nlab_utokyo
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -Yutaka KATAYAMA
 
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報NVIDIA Japan
 
A12  坂井研究室 澤田純礼
A12  坂井研究室 澤田純礼A12  坂井研究室 澤田純礼
A12  坂井研究室 澤田純礼aomorisix
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
人工知能を用いた医用画像処理技術
人工知能を用いた医用画像処理技術人工知能を用いた医用画像処理技術
人工知能を用いた医用画像処理技術Yutaka KATAYAMA
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)cvpaper. challenge
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライドharmonylab
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Shohei Hido
 

Similar to ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018) (20)

ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
 
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
 
ユーザーサイド情報検索システム
ユーザーサイド情報検索システムユーザーサイド情報検索システム
ユーザーサイド情報検索システム
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
 
20150930
2015093020150930
20150930
 
A12  坂井研究室 澤田純礼
A12  坂井研究室 澤田純礼A12  坂井研究室 澤田純礼
A12  坂井研究室 澤田純礼
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
人工知能を用いた医用画像処理技術
人工知能を用いた医用画像処理技術人工知能を用いた医用画像処理技術
人工知能を用いた医用画像処理技術
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤
 

ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)