Training object class detectors with click supervision

Training object class detectors
with click supervision
ハワイ輪読会 2017
@conta_

緒方　貴紀 (@conta_)
CRO@ABEJA, Inc.
Computer VisionやMachine Learningの研究開発やっています
が最近は何をやっているのかわかりません
Self Introduction

簡単なアノテーションを作成するだけで、特定の物体検出がそこそこうまく
いくようになる手法の提案
物体検出の教師データを、物体の中心点(center-click annotation)のみ
にし、Multiple Instance Learning(MIL)を適応することで、
教師データをBounding Boxを利用した時と同等の精度で、
アノテーターの作業時間を9〜18倍改善した
What's this?

Deep Leanring ✕ 一般物体検出は、大抵Bounding Boxを教師データとして与える
=> 大量のデータが必要なので、クラウドソーシングを活用
一般物体検出を学習させるときの課題

Deep Leanring ✕ 一般物体検出は、大抵Bounding Boxを教師データとして与える
=> 大量のデータが必要なので、クラウドソーシングを活用
でも、、、
WorkerがBounding Boxをannotationするの結構時間かかる(25.5s/box)
チェックに時間かかる
作業結果のクオリティー担保むずい
一般物体検出を学習させるときの課題

物体にBounding Boxをつけるのではなく、物体中心をクリックするだけ
=> アノテータの作業大幅削減！
検出器は、Weakly Supervised Learning(MIL)を活用することでいい感じにできそう！
簡単なアノテーションで解決！

アノテーションをする際のWorkflow

Instructions
物体を長方形で囲った時に中心となる位置にクリックしてね！
とアノテーターへ伝える

アノテーターに、図のような多角形の画像に対して、中心をアノテーション
してもらい、アノテーション後に実際の中心とどれくらいずれているかの
フィードバックを与える。
=> 真値との誤差が20px以下になるまでくり返す
このテストをクリアすると
実際の作業へ移ることができる
Annotator training

特定の枚数(ここでは20枚)を単位として、アノテーターに実際の作業(物体
中心のクリック）をしてもらう。
Qualityを担保するために、もともとGround Truthを持っているデータを
バッチごとにランダムに混ぜて(Golden questions)精度計測をする。
=> 一定のQualityに満たない人のデータは受け付けない
Annotating images

Amazon Mechanical Turk (AMT) で実験
PASCAL VOC 2007でデータを作成（14,612 clicks in total for the
5,011 trainval images)
Annotation time: 平均1.87s/click、3.8時間でアノテーションを完了
Data collection

Multiple Instance Learning (MIL）
[Dietterich et al., 1997]
positive bags(正解を1つ以上含む）
と、negative bags(正解を含まない)を
用いた機械学習手法の一つ
MILによる物体検出器作成
B. Babenko, M.-H. Yang, and S. Belongie. Visual Tracking with
Online Multiple Instance Learning. In CVPR, 2009

Pre-trainされたAlexNet CNNとSVMを使って下記の２ステップを交互に回す
(I) re-localization
識別器Aをつかって、一番スコアの高くなる物体候補の位置を探す(Multi-folding/Objectness等で物体候
補を探す)
(II) re-training
(I)で探した位置をPositiveとして、識別器AをSVMにて学習させる
一定回数イテレーションを回した後、(II)のフェーズで、識別器AをFast RCNNにして再学習
MILによる物体検出器作成
物体候補pのスコアは、識別器Aと物体候補らしさO*を使って、下記のように計算する
*What is an object? In CVPR, 2010

■Box center score
アノテーションは必ずしも正確でないので、下記の式によって物体候補の尤度をスコアリング
p: proposal covering the object
c_p: center point
c: the click
One-click supervision
中心点のアノテーション活用方法

■Use in re-localization
MILで物体検出を学習させるステップ時のre-localization step時に、
Appearance(S_ap)だけでなく、この中心尤度（S_bc)の項も使う
■Use in initialization
サンプルする物体検出候補は、画像全体からでなく、画像の境界をはみ出ない
大きさでサンプリングすることで良い精度になる。特に、クリックが画像の境界に
近い場合、より良いMILの初期値を得ることができる
One-click supervision

１人にアノテーションしてもらうより、2人にアノテーションしてもらったほうが精度良さ
そうだよね！
=> 2人のアノテーションした物体中心位置の差をモデリング
■Box center score
前述の式を c => c1 and c2に置き換えるだけ
ただし、右写真のように２つのクリックが離れてた場合は、
しきい値d_maxを設けて、別々の物体として扱う
Two-click supervision

■Box area score
物体の大きさとアノテーションの誤差は相関がある（Fig. 4)
=> ２つのアノテーションの距離から物体候補を推定する(Fig. 6)
μ: 物体エリアの対数を推定するfunction(後術)、a_p: 物体候補エリア
(a_p - μ)は２つのエリアの対数比を表す
■Use in re-localization
前述と同じような形でトータルスコアに組み合わせる
Two-click supervision

クリックデータを活用するために必要なパラメータは下記の４つ
σ_bc:
d_max:
σ_ba:
μ(x):
Learning score parameters

クリックデータを活用するために必要なパラメータは下記の４つ
σ_bc:
d_max:
σ_ba:
μ(x):
Learning score parameters
Qualiﬁcation Testから計算
70px(Max error distanceが70pxぐらいだったので)
2クリックの距離と
物体エリアの対数比を
多項式回帰でﬁtting
μ(x)のaverage errorを使う

■PASCAL VOC 2007
20 classes / 5,011 training images / 4,952 test images.
■Evaluation
- Correct Localization (CorLoc)
物体候補が正しい位置にあるか？(Bounding Boxの重なり度合い
(i.e. IoU ≧ 0.5) )を測る
＊Training Imageに対して計測
- mAP
学習器が正しく動くか、Test Imageに対してmAPを計測
Experimental results

■MS COCO dataset
80 classes / 82,783 training images / 40,504 val images
VOC 2007と同じ条件て計測
- Click supervision
COCOのデータセットに対してはクリックアノテーションを
シミュレーションで行った
Experimental results

物体中心位置を与えるだけで物体検出ができるようになるアルゴリズムの提案
- MILを活用することで弱教師あり学習で識別器を学習する
- アノテーターのクリック位置から、統計値によって物体候補枠を推定
Weakly Supervisedなメソッドより精度が大幅に向上
アノテーションを9-18倍高速にできた
Conclusion

(余談) vs SOTA Object detection algorithm
J. Redmon and A. Farhadi. Yolo9000: Better, faster, stronger

Training object class detectors with click supervision

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Training object class detectors with click supervision

Similar to Training object class detectors with click supervision (9)

More from Takanori Ogata

More from Takanori Ogata (15)

Recently uploaded

Recently uploaded (10)

Training object class detectors with click supervision