23. • Multi-scale feature maps for detection
• Convolutional predictors for detection
• Default boxes and aspect ratios
Model
23
24. • Multi-scale feature maps for detection
• Convolutional predictors for detection
• Default boxes and aspect ratios
Model
24
ベースネットワークの最後に
FeatureMapを追加
=> 出力サイズをゴリゴリ減らしてマ
ルチスケールに対応
25. • Multi-scale feature maps for detection
• Convolutional predictors for detection
• Default boxes and aspect ratios
Model
25
3x3の小さなフィルタを掛け、
物体クラスのスコアと、物体位置の
オフセットを出力
26. • Convolutional predictors for detection
3x3の小さなフィルタを掛け、物体クラスのスコアと物体位置のオフセット(x, y ,
w, h)を出力
出力の一つ一つのセルが
・物体クラス
・物体位置
を表すイメージ
Model
26
27. • Multi-scale feature maps for detection
• Convolutional predictors for detection
• Default boxes and aspect ratios
Model
27
28. • Default boxes and aspect ratios
異なるアスペクト比に対応するために、アスペクト比ごとに出力を分ける
k個のアス比の異なるボックス、c個の物体クラスと、4つのオフセットを出力する
場合、1つセルのサイズは(c+4)kになる
feature mapがm*nとすると、
最終的な出力マップは、(c+4)kmnになる
Model
28
29. ロス関数は
物体の位置ずれである、localization loss (loc) と
物体のクラスである、confidence loss (conf)を組み合わせたもの
各画像で出てきた全ての出力に対して、(1)式を計算する
(Nはマッチしたボックスの数、重みαは実験では1.0)
Training Objective
29
45. • [1] Girshick, Ross, et al. "Rich feature hierarchies for accurate object detection and semantic
segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2014.
• [2] He, Kaiming, et al. "Spatial pyramid pooling in deep convolutional networks for visual recognition."
European Conference on Computer Vision. Springer International Publishing, 2014.
• [3] Girshick, Ross. "Fast r-cnn." Proceedings of the IEEE International Conference on Computer Vision. 2015.
• [4] Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks."
Advances in neural information processing systems. 2015.
• [5] Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." arXiv preprint arXiv:
1506.02640 (2015).
• [6] Liu, Wei, et al. "SSD: Single Shot MultiBox Detector." arXiv preprint arXiv:1512.02325 (2015).
• [7] Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer
vision 104.2 (2013): 154-171.
Appendix
45