[DL輪読会]ReDet: A Rotation-equivariant Detector for Aerial Object Detection

DEEP LEARNING JP
[DL Papers]
ReDet: A Rotation-equivariant Detector for Aerial
Object Detection
Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業)
http://deeplearning.jp/
1

書籍情報
• タイトル
ReDet: A Rotation-equivariant Detector for Aerial Object Detection
• 著者
Jiaming Han, Jian Ding, Nan Xue, Gui-Song Xia (中国武漢大学)
• CVPR2021に採択
• Paper
https://arxiv.org/abs/2103.07733
• Code
https://github.com/csuhan/ReDet
2

概要
• 航空写真における物体検出
物体のrotationを配慮すべき
oriented object detectionタスクでもいう
Oriented Bounding Boxes (OBBs)で対応
• 提案手法のcontribution
Backboneにrotation-equivariant CNNを導入し、rotation equivariance[1]とrotation
invarianceをencode（oriented object detectionにおけるrotation equivarianceの導入
が初）
RiRoI alignを提案し、rotation-equivariant特徴を抽出とrotation-invariant featureを抽
出
ネットワークを軽量化すると同時に、SOTAを達成
3
[1] Equivariance（同変？） is a property that applying transformations to the input produces transformations of the feature in a predictable way
𝛷 𝑇𝑟 𝐼 = 𝑇𝑟 𝛷 𝐼

既往研究 - oriented object detection
• 既往手法
– 様々な角度で回転させたanchorで、bboxの位置を回帰 → 計算量が増加
– RoI transformerで、普通のRoIをrotated RoIに変換し、anchor数を削減
– 物体領域を別の方法で表現（Gliding vertex/mask）
– R3Det、S2A-Netは、一般の特量マップとrotated bboxをalignする
– DRNは動的に特徴を選択し、 rotated bboxを検出
– CSLは角度の推定をもう一つのタスクとして学習
– CenterNetベース（小さい物体にいい精度を示す）
• 課題
– 一般的なCNNの場合、入力画像に回転かける≠特徴マップに同じ回転をかける
（rotation equivariance）→異なる回転に対応しきれない
– Rotation-equivariant networkは、回転不変の特徴を対象としていない
• 本手法は、backboneからrotation equivariance特徴を抽出し、headから回転
不変特徴を抽出 4

既往研究 - Rotation-equivariant Networks
• group conv/hexaconvというconvで畳み込む
• 内挿等でリサンプリングしたフィルタや、 circular harmonics（球面調和関
数）をフィルタにするなど、 equivariance情報を抽出
• 本手法は、Rotation-equivariant Networksを物体検出のbackboneに導入
（初）
5

既往研究 - Rotation-invariant Object Detection
• 従来の物体検出手法に対し、回転情報をencodeする機構（パラメータ）と
学習データの拡張が必要
• RoI warping拡張し、instance-levelの回転不変情報を抽出
– Rotated RoI warping
• 一般的なCNNだと、回転equivariantではないため、回転不変情報の抽出
が不完全
• 本手法は、Rotation-invariant RoI Align (RiRoI Align)で、回転equivariant
特徴量から、回転不変特徴を抽出
6

提案手法 - Rotation-equivariant Detector
• rotation-equivariant networksをbackboneとする
• Rotation-invariant RoI Alignを提案し、RoI毎回転不変特徴を抽出
7

提案手法 - Rotation-equivariant Backbone(ReResNet)
• equivariance ：𝛷 𝑇𝑟
𝑋 𝐼 = 𝑇𝑟
𝑌 𝛷 𝐼
– Where, 𝑇𝑟=transformation group
• translation-equivariance
– CNNはtranslation equivariant
– 𝑇𝑡𝑓 ∗ 𝜑 𝑥 = 𝑇𝑡 𝑓 ∗ 𝜑 𝑥
– Where, 𝑇𝑡=translation group, f=feature map, 𝜑=convolution filters, ∗=convolution operation
• translation and rotation-equivariant convolution
– 最近の研究成果では、CNNを大きいgroupに拡張することで、同時に達成できる
– 𝑇𝑔𝑓 ∗ 𝜑 𝑔 = 𝑇𝑔 𝑓 ∗ 𝜑 𝑔
– Where, 𝑇𝑔=rotation group, g=平行移動と回転の半直積
• Rotation-equivariant Networks
– 複数rotation-equivariantレイヤで構成
8

提案手法 - Rotation-invariant RoI（RiRoI） Align
• rotated RoI（RRoI）は、空間次元（spatial dimension）対応し、回転次元
（orientation dimension）特徴に対応しきれていない
– max poolingにより、特徴マップから、反応が強い回転情報のみ残す
• 空間次元に対し、RiRoIはRRoIと同様に、特徴マップからwarpingし、
alignmentする
• 回転次元に対する特徴alignment
• 𝑓𝑅 = 𝐼𝑛𝑡 𝑆𝐶 𝑓𝑅, 𝑟 , 𝜃 , 𝑟 = 𝜃𝑁/2𝜋
• Where, SC=switching channels, Int=feature interpolation, r=index
9

提案手法 - 回転角度の推定
• Rotation-invariant Features
– 入力画像に𝑇𝑟かけても、出力に変化がなければrotation-invariant featuresといえる
– image、instance、pixel-levelに分解できる
– RiRoI Alignから得られた特徴マップ
– 𝛷 𝐼𝑅 = 𝑇𝑟
′𝛷 𝑇𝑟𝐼𝑅
Where, HRoI 𝐼𝑅 as the rotation-invariant representation of RRoI 𝑇𝑅𝐼𝑅
𝛷は特徴空間上の表現
𝑇𝑟
′は𝑇𝑟の逆変換
𝑇𝑟 = 𝑇 𝜃 , 𝜃は一般的な物体検出手法で学習できる
10

実験 - Datasets
• DOTA:回転情報をもつ最大級の航空写真物体検出データセット
– Version:
• v1.0：2806枚画像（800～4000pixel）、188,282個物体
• v1.5：小さい物体（<10pixel）が追加され、402,089個物体、v1.0より学習が安定
– 1024×1024のパッチ画像にして（stride=824）学習
– Train/test Augmentation: random horizontal flip, multiscale=(0.5,1.0,1.5), random
rotation
• HRSC2016:船の検出データセット
– 1061枚画像（300~1500pixel）
– 800×512にリサンプリングして学習
– Augmentation: random horizontal flip
11

実験 – 実施詳細
• baseline
– ResNet + FPN
– ResNetはImageNetでpretrain
• 提案手法
– ReResNet: ImageNet-1Kでpretrain
– mmdetectionで手法を構築
12

実験結果 – Ablation Studies
• Rotation-equivariant backbone(ReResNet)
– 分類精度が落ちるが、検出の精度が良くなる
– モデルサイズも大幅に削減
13

• RiRoI Align
– 提案手法の有効性を確認
– interpolationは隣のrotation-equivariant特徴マップで行った方がいい
• やり過ぎると、情報が曖昧になってしまう
14

• rotation augmentation
– 提案手法は、特殊なネットワーク内部のrotation augmentationとみなせる
– 直接回転のaugmentationとの効果が近いが、収束が早くなる（モデルサイズが同じレ
ベル）
15

• 汎化性能（別のデータセットで実験）
– 他のデータセットでも、提案手法の有効性を確認
– 特に、AP75の結果から、位置推定の性能向上が顕著
16

実験結果 -既存SOTAとの比較
17

• 小さい物体において、提案手法の有効性がさらに顕著
18

• 単一物体のデータセットでも有効性を確認
19

実験結果 - 結果サンプル
20

まとめ
• Backboneに、rotation-equivariant layerを導入、 rotation-equivariant情報
を抽出
• RiRoI alignを提案し、 rotation-equivariant情報から、rotation-invariant情報
を抽出
• ネットワークサイズを削減する同時に、検出精度を向上
21

[DL輪読会]ReDet: A Rotation-equivariant Detector for Aerial Object Detection

Recommended

Recommended

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (20)

[DL輪読会]ReDet: A Rotation-equivariant Detector for Aerial Object Detection