2020 08 05_dl_DETR

1
調和系工学研究室修士二年久保田
2020年8月5日
DLゼミ論文紹介
「End-to-End Object Detection
with Transformers」

論文情報
• タイトル
End-to-End Object Detection with Transformers
• 著者
Nicolas Carion,Francisco Massa,Gabriel Synnaeve,Nicolas
Usunier,Alexander Kirillov,and Sergey Zagoruyko
Facebook AI
• まとめ
Detection Transformer(DETR)という新しいフレームワークによって、NMSやア
ンカー生成のような人の手で設計する部分の必要なく、End-to-Endで物体と画像
全体の関係から予測の集合を生成する。
競合手法(Faster R-CNN)と同等の性能を発揮。
• 実装
https://github.com/facebookresearch/detr
2

背景
最新の物体検出器
• Faster R-CNN,RetinaNet,CenterNet
重複したbboxの処理(NMS)、アンカーの設計・割り当てに大きく影響を受ける
Transformerを使ってそれらの処理を省いたEnd-to-Endのアプローチを提案
物体検出を直接集合予測問題とみなす
 従来は代理の回帰と分類問題を解いていた
下図のように人間側で設計するnon-maximum-suppressionやアンカー生
成を排除したEnd-to-Endモデル
3

直接集合予測
• 直接集合予測
• Transformer encode/decoderで画像中全ての物体を一度に予測
•self-attentionが要素間のpairwise相互作用をモデル化
• 予測が集合であるため、それらを正解と紐づけて損失計算する必要がある
•二部マッチングを使った損失を設計
–適切な予測と正解の組み合わせをハンガリアン法で見つける
4

The DETR model
• 直接集合予測に不可欠な二つの要素
1. 2部マッチングを行う集合予測損失
2. 集合予測を行うアーキテクチャ
5

1.Object detection set prediction loss
• 二部マッチング
• 正解と予測のpair-wise matching cost: Lmatch
•物体数N(画像一枚中の物体数の固定値を大きめに100と設定)とし、順列𝜎をハン
ガリアン法で探索し正解と予測のロスが最小コストの組み合わせを見つける
–物体がない場合no object でpadding (例えば物体数2の時は98個がno object)
•正解𝑦𝑖は「クラスラベル𝑐𝑖」と「𝑏𝑏𝑜𝑥の中心座標と幅・高さの𝑏𝑖」
•各組み合わせの損失計算：クラス損失とbbox損失の和
•bbox損失は一般的なl1損失と、bboxのスケールの影響を受けないGIoU損失
6
探索した最小コストとなる組み合わせ
Lmatchの中身

DETR architecture
• 3つの構成要素
1. 特徴量抽出するCNN backbone (DETRではResnet50,100を使用)
2. encoder-decoder transformer
3. 予測した検出結果を出力するfeed forward network
7

DETR architecture
1.特徴量抽出するCNN backbone
• 画像から特徴マップを抽出
8

DETR architecture
9
元のtransformer DETR
並列処理
Encoder,Decoderは各6層ずつ

DETR architecture
• Transformer encoder
•特徴マップfを1×1畳み込みでチャネル次元をdへ削減して新たな特徴マップへ
•エンコーダへシーケンスとして入力のために1次元の特徴マップに変換
•これにpositional encodingを付加しエンコーダで処理
–Self-attentionで要素間の対応関係を学習
–Feed Forward Networkを通過
–これを6層繰り返す
10

DETR architecture
• Transformer decoder
•入力はobject queries(出力位置付加)、エンコーダのメモリ
•複数のMulti-head (self )Attentionにより要素間の対応関係を学習
•object queriesは出力次元d,N個(物体数)のembeddingに変換される
•embedding(d,N)がfeed forward networkに渡される
11

DETR architecture
3. Feed forward network
• FFN(feed forward network)
•ReLUを活性化関数とする2層の1×1 convolutionで構成
•d次元,Ｎ個のembeddingを入力として受け取る
•正規化されたbbox中心座標と幅・高さと, クラスラベルが出力
–実際の物体数のより大きいN個(100個)を予測するので∅ (no object)でpadding
従来の物体検出におけるbackgroundクラスと同様の役割
• Auxiliary loss
•各デコーダ層の後にハンガリアンロス
–正しい物体数を出力するのを助ける役割
12

Experiments(R-CNNとDETR比較)
• データセット:COCO, panoptic segmentation datasets(後ほどのセグメンテーションで使用)
• バックボーン:Resnet-50,Resnet-101(ImageNet-pretrained)
• DC5:Resnetの最終層のストライド削除して特徴量解像度を増加
• FPN:Feature Pylamid Network
• +:genelized IOU,random crop augumentaiton,long training
13

Experiments
結果
• Params
DETRで41.3M(Resnet-50で23.5M,transformerで17.8M)でおおよそFaster RCNN-FPN+の42Mと同等
• 精度
大きい物体の精度は高いが、小さい物体の精度が低い
DETRがFaster RCNN-FPN+と同じ42.0AP。ただAP(L)で+7.8,AP(S)で-5。
DETR-DC5もAP(S)が低い。Resnet101使用で精度向上。
14

Ablation
エンコーダ数を変化させ、transformerのself-attentionの重要性の評価
• DETRのエンコーダ数は6。エンコーダー数0に減らすと、APが3.9低下
• エンコーダが物体の分離に重要であるという仮説
 エンコーダ層のAttention mapを可視化して確認
 インスタンスを分離しているようで、これがデコーダでの物体検出と位置決めを簡単にしてくれ
ているらしい
15

Ablation
デコーダの各層からの予測結果を比較し、デコーダ数の重要性の評価
• DETRはデコーダ数もエンコーダ数と同様6
• AP,AP50ともに層が増えるとともに高くなる
• DETRは本当に矩形の重複処理(NMS:non-maximum-surpression)を必要としない？
 各デコーダの出力に対してNMSしたバージョン(点線)も行い比較
1層では出力間の相互相関がわからず、重複予測が多いためNMSが有効
2層以降はself-attentionにより重複を抑制することができる
最終層の6層目のAPでは、NMSが正しい予測を削除してしまうためAPがわずかに低下
16

Ablation
デコーダの各層からの予測結果を比較し、デコーダ数の重要性の評価
• エンコーダ同様にデコーダのattention mapを可視化
 物体の境界を注視している
 エンコーダがインタスタンスを分離した後、デコーダはクラスと物体の境界に注視しているので
はないか、とのこと
17

Ablation
Positional encodingsの重要性
• DETRにはspatial positional encodingsとoutput positional
encoding(object queries)の2種類の位置エンコーディングがある
• 様々な設定で比較:noneや入力のみ等
 各attention層に位置エンコーディングした場合が一番精度が高い
18

Ablation
損失の影響
• Bboxに関するl1損失とGIoU損失の比較(クラス損失ははずせない)
 L1損失とGIoU損失の組み合わせが最も高精度
19

Analysis
デコーダ出力の各スロットの分析
• 出力N=100のうち20個について
緑色:小さなbbox
赤色:横長bbox
青色:縦長bbox
点の位置:正規化されたbboxの中心座標
• 各スロットが特定の領域・bboxサイズに特化するように学習されている
赤の横長bbox予測が多いのはCOCOデータセットの特性
20

Analysis
DETRの汎化能力の検証
• COCOには13頭以上のキリンが存在するクラスがない
• 合成で作成したキリンが24頭いる画像でも問題なく予測
• スロットそれぞれがクラスに強い特化がないことを確認
21
㊟これで一枚の画像

DETR for panoptic segmentation
Panoptic Sgmentation(物体検出＋セグメンテーション)
• FasterR-CNN等と同様にmask headの追加で拡張可能
22
Qualitative results

DETR for panoptic segmentation
• 評価
• PQ:panoptic quality
• things(車・人等)
• Stuff(草原・空等)
• 他手法と同等の精度
•stuffで優位
–従来手法の方なアンカーや提案領域を用いた局所推論ではなく、attention
による大域的な推論が影響している様子
23

Conclusion
• transformerで物体検出を直接集合予測として解くDETRを発表
• Fastet R-CNNと同等の結果を得られた
• Attentionによるグローバルな情報の処理により大きい物体に対する性能が向上
• 新しい検出器なので、課題がある
• 訓練・最適化・小さい物体の検出等
• 同様の問題が従来の検出器で改良されてきたように、これらの問題が大書されるこ
とを期待
24

ちなみに
• 推論コードが結構簡潔に書ける
25

2020 08 05_dl_DETR

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 2020 08 05_dl_DETR

Similar to 2020 08 05_dl_DETR (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (9)

2020 08 05_dl_DETR