2. Index
1
2
3
STEP 1
STEP 2
STEP 3
https://dacon.i
o
2
Exploratory Data Analysis
Deep Learning Model
Conclusion & QA
Exploratory Data
Analysis
Model
Conclusion & Q
A
• Backbone
• Head + Neck
• Post Processing
3. https://dacon.io 3
Exploratory Data
Analysis1. Rotation Augmentation
Fig.1 origin rotated Fig.3 rotatedFig.2 rotated
Since there are many orientation variations in aerial images
implement the online rotation augmentation. (e.g. 180, 270)
4. https://dacon.io 4
Exploratory Data
Analysis2. Mosaic Data Augmentation
Fig.1 origin image Fig.2 combines 4 images
This allows for the model to learn how to identify objects at a smaller scale than normal.
It also encourages the model to localize different types of images in different portions of the frame.
5. https://dacon.io 5
2. Model
Fig.1 ROI Transform Fig.2 ROI Transform
Fig.3 Spatial Transformer Network Fig.4 Dynamic Routing Algorithm
6. https://dacon.io 6
2. Deformable Convolution Networks
Fig.1 Training DCN Module Fig.2 DCN sampling locations (from the learned offset)
1. Enabling effective modeling of spatial transformation in convolution neural network
2. No additional supervision for learning spatial transformation
3. Significant accuracy improvements on sophisticated vision tasks
13. https://dacon.io 13
4. Reference
1. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
2. Fully Convolutional Networks for Semantic Segmentation
3. Focal Loss for Dense Object Detection
4. Deformable Convolutional Networks
5. Learning RoI Transformer for Detecting Oriented Objects in Aerial Images
6. YOLOv4: Optimal Speed and Accuracy of Object Detection
7. Arbitrary-Oriented Scene Text Detection via Rotation Proposals
Convolution Offset or Weight를 사용하여 geometric transform에서의 약점을 극복 하려고함 (e.g 기본적으로 convolution filter에 space sampling을 적용하여 공간값을 확장 시키고, 확장된 공간의 convolution weight를 학습하여 해결을 도모함)
다양한 해상도, 수평, 다중의 방향성등의 이미지 영역을 구분해야 하는데 고정된 convolution filter로 학습을 할 경우 효율적으로 localize를 하기 어려움 (e.g. RPN [0.5, 1, 1.5] X [64, 128, 256, 512]) 그렇기 때문에 localize에 포함된 이미지에 맞춰서 offset을 학습하는 구조 (특히 convolution layer3-5)을 사용할 경우 가장 좋은 성능을 보임
1. Neck Module 부분에서 기존의 Feature Pyramid Network를 사용하여 실험 했을 경우 학습데이터의 특성상 Pyramid Module 3, Pyramid Module 4의 context(activation map) 정보의 소실이 발생 하게 됨
2. 약점을 해결하기 위해 global attention sample Module을 추가함 GA Moduel은 High ReSolution Extraction Feature(P4)와 Low Level Extraction Feature(P3)를 단순히 Activation Function으로 연산하는 것이 아니라 P3 Feature를 3 x 3 convolution 연산을 하고, P4 Feature 를 Global Pooling을 수행한뒤에
3. 1 x 1 convolution 연산을 진행 한뒤 P3 module에 P4 module의 global pooling된 값을 곱한뒤 P4의 weight를 곱하면 기존의 UP Sampling을 할경우 손실 되었던 P3 Module의 정보를 극대화 시킴