目标检测发展及Faster R-CNN改进

2019年11月3日 592次阅读

目标检测发展

这里先给干货：目标检测算法的paper及源码
我总结了深度学习目标检测基本的发展和主要的优缺点，主要参考https://www.zhihu.com/collection/125609996
《目标检测发展及Faster R-CNN改进》

Faster R-CNN改进

Faster RCNN后续改进方法：
1）基础特征提取网络
Googlenet，ResNet，IncRes V2，ResNeXt 都是显著超越 VGG 的特征网络，当然网络的改进带来的是计算量的增加。
2）RPN（Region Proposal Networks）
通过更准确地 RPN方法，减少 Proposal个数，提高准确度。（对于小目标选择利用多尺度特征信息进行RPN，如：ION，HyperNet，MSCNN，FPN等; 对于有遮挡的目标选择增加ROI提供更多的上下文信息，如：ION，3DOP等）
3）改进分类回归层
分类回归层的改进，包括通过多层来提取特征和判别。（对最后的分类回归层进行改进，如：R-FCN，Mask RCNN等）
4）速度提升
如YOLO[6]，SSD[7]系列算法，删去了RPN（即Faster RCNN粗调+精调的思想），直接对proposal进行分类回归，极大的提升了网络的速度；同时NIN对全连接层的改进（全局池化）以及1×1的卷积层也提高了网络的速度。

参考文献

[1] 传统目标检测方法

如上图所示，传统目标检测的方法一般分为三个阶段：首先在给定的图像上选择一些候选的区域，然后对这些区域提取特征，最后使用训练的分类器进行分类。下面我们对这三个阶段分别进行介绍。
1) 区域选择
这一步是为了对目标的位置进行定位。由于目标可能出现在图像的任何位置，而且目标的大小、长宽比例也不确定，所以最初采用滑动窗口的策略对整幅图像进行遍历，而且需要设置不同的尺度，不同的长宽比。这种穷举的策略虽然包含了目标所有可能出现的位置，但是缺点也是显而易见的：时间复杂度太高，产生冗余窗口太多，这也严重影响后续特征提取和分类的速度和性能。（实际上由于受到时间复杂度的问题，滑动窗口的长宽比一般都是固定的设置几个，所以对于长宽比浮动较大的多类别目标检测，即便是滑动窗口遍历也不能得到很好的区域）
2) 特征提取
由于目标的形态多样性，光照变化多样性，背景多样性等因素使得设计一个鲁棒的特征并不是那么容易。然而提取特征的好坏直接影响到分类的准确性。（这个阶段常用的特征有SIFT、HOG等）
3) 分类器
主要有SVM, Adaboost等。
总结：传统目标检测存在的两个主要问题：一个是基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余；二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。
[2] Girshick R, Donahue J, Darrell T, et al. Region-Based Convolutional Networks for Accurate Object Detection and Segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 38(1):142-158.
[3] He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(9):1904-16.
[4] Girshick R. Fast R-CNN[J]. Computer Science, 2015.
[5] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39(6):1137-1149.
[6] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[J]. 2015:779-788.
[7] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[J]. 2015:21-37.
[8] Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[J]. 2016:6517-6525.
[9] Najibi M, Rastegari M, Davis L S. G-CNN: an Iterative Grid Based Object Detector[J]. 2015:2369-2377.