SlideShare a Scribd company logo
1 of 37
西浦 翼
Libra R-CNN:Towards Balanced
Learning for Object Detection
ア
ク
シ
ョ
ン
論文情報
・CVPR2019
・著者
・コード https://github.com/OceanPang/ Libra_R-CNN.
・概要
物体検出における3つの課題に対して簡単で有効な
解決手法を提案
Ⅰ 物体領域の抽出レベルのimbalance
Ⅱ 特徴の抽出レベルのimbalance
Ⅲ 最適化レベルのimbalance
研究の外観
2
物体領域の抽出
特徴の抽出 最適化
物体検出の全体像
3
物体領域候補の抽出
4
スライディングウィンドウ方式
単純で非効率
選択的探索法(Selective Search)
効率的でR-CNNなどで使われている
物体領域の分類
5
Hard sample
難しい例
Easy sample
易しい例
Negative sample
負例
Positive sample
正例
Ⅰ 物体領域の抽出レベルのimbalance
6
課題
7
物体領域候補を探索(候補数は最大2,000くらい)
物体領域候補からランダムに抽出
Easy sample ばかり
前提:物体検出器の改善には Hard sample が必要
課題
8
Hard Negativesは6割以上が
Ground Truthと重なる
Random sampling だとGround
Truthと重なる物体候補領域を
3割しか持ってこれない
Hard Negativesを
学習できていない
指標
9
IoU(Intersection over Union)
予測結果とGround truthがどれだけ重なっているか
IoU =
𝑎𝑟𝑒𝑎 𝑜𝑓 𝑜𝑣𝑒𝑟𝑙𝑎𝑝
𝑎𝑟𝑒𝑎 𝑜𝑓 𝑢𝑛𝑖𝑜𝑛
訓練例の選択
10
Hard Negative Mining
初期ボックスの数が多いとほとんどが負例
→ ・信頼度順にソート
・負例:正例 = 3:1で選択する
OHEM(Online Hard Example Mining)
・ノイズラベルに弱い
・計算量が多い
Focal Loss
・1stage method だと割といい
・2stage methodだとeasy negativeがはじかれる
提案手法
11
IoU-balanced Sampling
ランダムサンプリングをするとハードネガティブの割合が低い
→IoUの高い抽出方法を提案
IoU低 高
1 K-1 K2
1.候補領域をIoU順にソート
2.K分割して抽出
抽
出
抽
出 抽
出
提案手法
12
IoU-balanced Sampling
N:負例の数
M:領域候補の数 Mk:K分割したk番目に含まれる候補領域の数
K:IoU順に分割する個数
(Kが高い方が一見良さそうだがIoUの高いサンプルが
含まれればよい、実験ではK=3)
Random sampling
IoU-balanced sampling
Negative sampleの割合
実験
13
MSCOCO 2017(Microsoft Common Object in Context)
訓練データ:115,000
検証データ:5,000
テストデータ:20,000
物体検出の評価データの変遷
Pascal VOC 2007
Pascal VOC 2012
MSCOCO 2014
MSCOCO 2017
訓練データ:5,011
テストデータ:4,952
2007 + 訓練データ:11,540
訓練データ:82,783
検証データ:35,504
テストデータ:5,000
量
・
質
が
難
化
結果
14
Backbone:ResNet-50-FPN
Method:Faster R-CNN
IoU-balanced Samplingを
組み込むだけで0.9ポイントアップ!
指標
15
TP:正しく正と判定
FN:誤って負と判定
FP:誤って正と判定
TN:正しく負と判定
Precision(適合率)
予測がどれほど正確か
Recall(再現率)
結果として出るべきもののうち実際に出たもの
指標
16
AP(Average Precision, 平均適合率)
再現率が100%になるまでの適合率を平均したもの
例:画像からリンゴ5個を検出する
結果
17
AP50: IoUが50%以上でRecall=100%としたときのAP
AP75: IoUが75%以上でRecall=100%としたときのAP
AP: AP50~95(5%刻み)を平均したもの
APS,M,L: small, medium, largeサイズの物体に対するAP
結果
18
Kの値を変えてもあまり差がない
結果
19
抽出した物体領域候補が物体に集中
Ⅱ 特徴の抽出レベルのimbalance
20
課題
21
FPN等で異なる次元の特徴を統合することは有効だと示された
隣接した特徴はうまく統合されるが、
離れた層の特徴は統合を繰り返すごとに希釈される
提案手法
22
Balanced Feature Pyramid
①Rescale ②Integrate ③Refine ④strengthen
提案手法
23
①Rescale
②Integrate
Interpolation と Max-poolingでサイズを合わせ、全ての特徴を統合する
このCを balanced semantic features と呼ぶ
Point : パラメータを使わない
提案手法
24
③Refine
④Strengthen
畳み込みかembedded Gaussian non-local attention(先行研究:
Non-local Neural Network)でRefineする
(本研究ではより安定した後者を使用)
FPNと同様に畳み込み処理をする
結果
25
Balanced Feature Pyramidを
組み込むだけで更に0.9ポイントアップ!
結果
26
Balanced Feature Pyramidを
導入して各スコアが上がった
Ⅲ 最適化レベルのimbalance
27
課題
28
・探索器はclassificationとlocalizationを同時に達成するのが難しい
・easy sampleの勾配は小さく、hard sampleの勾配は大きい
→調整しないと埋もれる
Inliers(loss < 1) : 全体の3割
Outliers(loss ≥ 1): 全体の7割
課題
29
Fast R-CNN以降よく使われる損失関数
SSDで使われる損失関数、Smooth L1 loss
提案手法
30
Balanced L1 Loss
勾配伝播式
※x=1で連続にするため
結果
31
Balanced L1 Lossを
組み込むだけで更に0.8ポイントアップ!
結果
32
L1 loss(グラフには記載無し)とSmooth L1 Lossを
αによってなめらかに変化させられる
結果
33
α=0.5, γ=1.5が最も良かった
最終結果
34
最終結果
35
AR(Average Recall)も大幅に向上した
まとめ
36
IoU Balanced Sampling, Balanced Feature Pyramid,
Balanced L1 Lossという3つの簡単で有効な手法を提案した
single-stage detector や two-stage detectorを問わず様々な
backboneで導入できる

More Related Content

More from harmonylab

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identificationharmonylab
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...harmonylab
 

More from harmonylab (20)

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 

Libra