SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習

教師あり事前学習を凌駕する
「弱」教師あり事前学習
-人物検出の事例から-
片岡裕雄
国立研究開発法人産業技術総合研究所
1
http://hirokatsukataoka.net/

深層学習（DNN）は何をもたらした？
• DNN & ImageNet @ILSVRC’12
– メリット
• もはや説明不要
– デメリット
• 膨大なアノテーション/画像DLによる個人情報保護が必要
アノテーション問題/法令遵守の障壁は非常に大きい
1st AI 2nd AI 3rd AI
AMTにより5万人弱が参加，約2年を要した
数億画像DL，1400万枚収録，2.2万カテゴリ
【アノテーション地獄？】
http://www.image-net.org/
実は権利関係が不透明
現在でも学術・教育目的のみ
【法令の遵守】
http://image-net.org/explore?wnid=n01503061

DNNの事前学習による特徴表現が重要
• 学習戦略(1) 教師あり学習 Supervised Learning
– 学習の成功を確約，非常に強い特徴表現を獲得
学習戦略(2) {無, 弱, 自己}教師学習
– 人間による教師データのラベル付けは少量にしたい
2020年現在，{無, 弱, 自己}教師学習は劇的に進展中
gluon-cv.mxnet.io
Pretraining Finetuning
w/ ImageNet
93.65@CIFAR10
e.g. ImageNet, Places, Open Images
w/ Rotation Classify
89.06@CIFAR10
Jigsaw（自己教師） DeepCluster（教師なし）Rotation（自己教師）
# 厳密には教師なし学習
https://arxiv.org/abs/1603.09246 https://arxiv.org/pdf/1803.07728.pdf https://arxiv.org/abs/1807.05520
{Un, Weak-, Self-}Supervised Learning

ImageNetより大規模なデータ
「大規模データは正義」は現在進行形？
JFT-300M (Google, 2017) / IG-3.5B (Facebook, 2018)
ILSVRCの数百倍のデータセットは認識性能の向上に寄与するか？
-> YES: 対数レベルで比例して性能は向上（10倍ごとに数%程度; 左下図）
-> 35億枚の学習画像を用いた場合，モデルの変更なしで当時のSOTA達成（右下図）
Google, ICCV 2017
http://openaccess.thecvf.com/content_ICCV_2017/papers/Sun_Revisiting_Unr
easonable_Effectiveness_ICCV_2017_paper.pdf
Facebook, ECCV 2018
https://arxiv.org/pdf/1805.00932.pdf

少量教師学習への期待
「少量教師学習」は人間の教師を代替できるか？
SimCLR (Google, 2020)
「自己教師 + 数%の教師」により人間の教師に近接する精度を実現（左下図）
-> 2020年現在，最もアツい学習の枠組みとして注目を集める
Google, ICML 2020
https://arxiv.org/abs/2002.05709

人物検出（Person Detection）
データ量の面で物体データセットに劣る
– 背景には人物画像使用等の権利問題もある
Caltech GM-ATCI Daimler ETHZ TUD-Brussels INRIA
Earlier person datasets（102〜104 オーダー）
Larger-scale person datasets（104〜105 オーダー）
物体検出の成功に習い，
人物データセットも大規模化（106〜）を図りたい
CityPersons
https://arxiv.org/abs/1702.05693
35,000+ persons
EuroCityPersons
https://eurocity-dataset.tudelft.nl/
238,000+ persons
Larger-scale object datasets
OpenImages
https://storage.googleapis.com/
openimages/web/index.html
15,000,000+ instances
<<圧倒的小規模
http://www.vision.caltech.edu/Imag
e_Datasets/CaltechPedestrians/
https://sites.google.co
m/site/rearviewpeds1/
http://www.gavrila.net/Datasets/Daimler_Ped
estrian_Benchmark_D/daimler_pedestrian_b
enchmark_d.html
https://data.vision.ee.ethz
.ch/cvl/aess/dataset/
http://datasets.d2.mpi-
inf.mpg.de/tud-brussels/tud-
brussels-motionpairs.tar.gz
https://thoth.inrialpes.fr/data

大規模人物データセットの問題
ラベル付けのジレンマ
– 良質な教師データを大量に確保したい
– しかし，ラベルはできる限り人間が付けたくない
自動付与したラベルを最小限の人間教師で質向上
画像の権利問題
– 人物画像の利用はプライバシーなど問題を孕む
– しかし，良好な表現学習のため大量に使用したい
Creative Commonsで権利付けされたデータを使用

提案:人物検出のための弱教師あり事前学習
教師あり事前学習を凌駕する「弱」教師あり事前学習
– 870万(ImageNetの約7倍)の弱ラベル付画像の自動収集
– 僅か1,443枚の人為的ラベル付け（弱教師）のみで質を改善
WSPD: Weakly Supervised Person Dataset
870万の人物含む弱教師学習データ WSPD構築
WSPD事前学習モデルにより高性能な検出器
今後の人物検出のブレイクスルーとなる可能性
WSPD pre-train (提案)
ImageNet pre-train 改善
事前学習入替のみ，モデル変更なしで検出率+13%向上*
*ベースラインImageNet pre-trainとの比較

全体の流れ
大量画像収集+弱教師による選別で絶大な効果
– 既存の検出器+誤検出除去でデータを半自動構築
– 大規模データで任意の検出器に事前学習を実施
SSD, M2DetWSPD
4. Pre-training 5. Fine-tuning
SSD, M2Dete.g. Caltech Ped.
/ .
/
To get a better representation of person detection, we use
the person bboxes in 3. Bbox Refinement.
Fine-tuning for any person datasets.
2. Person Detection1. Image Collection 3. Bbox Refinement
Collect images taken in the vicinity
of 16 representative cities.
Faster R-CNN generates bbox in
the area considered to be person.
Remove noisy bbox by SVM binary
Classification; 2,886 training images.

Step 1. 画像収集
– 世界16都市で撮影された画像を収集
– YFCC100M（Flickr）を使用
SSD, M2DetWSPD
/ .
/
#img: 100M → 8.5M
#box: 0

Step 2. 既存検出器によるラベル付け
– 既存検出器により検出枠（bbox）を付与
– 本研究ではFaster R-CNNを使用
SSD, M2DetWSPD
/ .
/
#img: 8.5M
#box: 0 → 76M

Step 3. 誤検出の除去
– SVMによって各bboxが人物であるかを判断
– 学習データは少量を人手で用意
(人物画像・ネガティブ画像を各1,443枚)
SSD, M2DetWSPD
/ .
/
#img: 8.5M → 2.8M
#box: 76M → 8.7M

Step 4-5. 事前学習 & ファインチュー二ング
– Step 3のbboxを使用し検出器を学習
– 検出器にはSSD, M2Detを使用
SSD, M2DetWSPD
/ .
/
#img: 2.8M
#box: 8.7M

Q. 弱教師あり学習とは？#あくまで今回の場合
A. 単純なYES/NO質問に回答すること
– Step 2の検出枠に人物の全身写っているか否か？
– Step 3のデータ洗浄にて教師となる人物画像の質向上
5. Fine-tuning
tion 3. Bbox Refinement
tes bbox in
to be person.
Classification; 2,886 training images.YES: 2値判別器の正例に追加
NO: 学習データから除外
1,000枚程度画像が集まるまで実施
（数時間で終了）
データ洗浄前（人物以外も混在）
データ洗浄後（9割程度人物を含む; 次ページ）
2値識別により教師データの質向上！

WSPDのノイズ率
無作為抽出と手作業でカウント
– 1,000 bboxを抽出，手作業で4種類に分類
ラベル内包率 [%]
(i) 座標位置や大きさが正確 62.2
(ii) 人物位置がずれている 21.1
(iii) bbox内に複数人含む 9.7
(iv) bbox内に人物を含まない 7.0
人物と判断できるbboxは
93.0 %に及ぶ

比較
事前学習モデルの入れ替えにより比較
– 教師ありデータ: ImageNet, Pascal VOC, EuroCity Persons
– SSDを用いた場合，提案手法が最高精度
Ours
(#Img: 2.8M, #box: 8.7M)
教師あり事前学習との比較
+13.36% vs. ImageNet
+8.74% vs. PascalVOC [3]
(#img: 11.5K #box: 27.4K #class: 20)
+6.38% vs. EuroCity P. [4]
(#img: 47.3K #box: 238K)
※SSDによる検証結果

人物検出のエラー率
事前学習/検出器の変更による検出エラー率
– M2Detにおいても教師あり事前学習を凌駕
Method Pre-train
Supervision
(in pre-training)
# Batch,
# Epoch
Miss rate [%]
(lower is better)
SSD ImageNet Human Supervision 64, 100 33.90
SSD VOC Human Supervision 64, 100 29.28
SSD ECP Human Supervision 64, 100 26.92
SSD WSPD Weak Supervision 128, 100 20.55
M2Det ImageNet Human Supervision 16, 100 57.31
M2Det VOC Human Supervision 16, 100 73.72
M2Det ECP Human Supervision 16, 100 97.68
M2Det WSPD Weak Supervision 16, 50 16.44

SSDによる検出結果の例
– 事前学習の違いで精度に大きく影響
– 提案法は，未検出/誤検出が少なく精度向上に大きく寄与

ラベルの質と精度の関係
WSPDにノイズを追加して検証
– bboxを意図的に移動してラベルの質を低下
– 全データのうち10%ずつラベルを付与
• 対象とするbboxをランダムで選択
• 他のbboxとのIoUが最も低くなる座標に移動
ノイズ率90%でもImageNet事前学習（検出エラー率34%）より高精度
20
25
30
35
40
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
MissRate[%]
ノイズ率
ノイズ率30 %まで性能低下 1%以内

ラベル付け時間の比較
ImageNet
– アノテーション期間：約2年
– AMT使用：約5万人が参加，数億枚DL
– 合計: 1.28M学習サンプル（画像識別）
WSPD（提案）
– アノテーション期間：数時間
– 産総研RA：1,000枚程度の質評価，識別器が自動で評価
– 合計：8.7M学習サンプル（人物検出）

データセットおよび学習済モデル公開中
870万のbboxを含むWSPDを再現可能*
3種の保存形式をサポート
– Pascal VOC (xml)形式
– MS COCO (json)形式
– 画像のみの保存
* YFCC100M画像が必要
詳細はGitHub ReadMe参照
arXiv https://arxiv.org/abs/2003.12263
GitHub https://github.com/cvpaperchallenge/FashionCultureDataBase_DLoader

まとめ
事前学習は “大量かつタスク特化” が重要
– 事前学習DBはラベルの質と共に規模 (106+オーダ)が重要
– 数時間の作業（+既存の検出器）のみで済む弱教師データ収集を提案
– 人物検出にてベースラインと比較し+13%の精度向上を達成
「人間による教師の限界」を突破,
弱教師データ収集で教師あり学習の精度を大幅改善
https://www.youtube.com/watch?v=S7uZpHQ0KeM&feature=youtu.be
【Special Thanks】
阿部香織氏（AIST/TDU; 画像データ収集等初期DB収集）
美濃口宗尊氏（AIST/TDU; 人物検出器学習・実験）
cvpaper.challenge 研究メンバー

SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習

Similar to SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習 (17)

More from SSII

More from SSII (20)

Recently uploaded

Recently uploaded (9)

SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習