目标检测发展及Faster R-CNN改进

目标检测发展

这里先给干货:目标检测算法的paper及源码
我总结了深度学习目标检测基本的发展和主要的优缺点,主要参考https://www.zhihu.com/collection/125609996
《目标检测发展及Faster R-CNN改进》

Faster R-CNN改进

Faster RCNN后续改进方法:
1)基础特征提取网络
Googlenet,ResNet,IncRes V2,ResNeXt 都是显著超越 VGG 的特征网络,当然网络的改进带来的是计算量的增加。
2)RPN(Region Proposal Networks)
通过更准确地 RPN方法,减少 Proposal个数,提高准确度。(对于小目标选择利用多尺度特征信息进行RPN,如:ION,HyperNet,MSCNN,FPN等; 对于有遮挡的目标选择增加ROI提供更多的上下文信息,如:ION,3DOP等)
3)改进分类回归层
分类回归层的改进,包括通过多层来提取特征和判别。(对最后的分类回归层进行改进,如:R-FCN,Mask RCNN等)
4)速度提升
如YOLO[6],SSD[7]系列算法,删去了RPN(即Faster RCNN粗调+精调的思想),直接对proposal进行分类回归,极大的提升了网络的速度;同时NIN对全连接层的改进(全局池化)以及1×1的卷积层也提高了网络的速度。

参考文献

[1] 传统目标检测方法

如上图所示,传统目标检测的方法一般分为三个阶段:首先在给定的图像上选择一些候选的区域,然后对这些区域提取特征,最后使用训练的分类器进行分类。下面我们对这三个阶段分别进行介绍。
1) 区域选择
这一步是为了对目标的位置进行定位。由于目标可能出现在图像的任何位置,而且目标的大小、长宽比例也不确定,所以最初采用滑动窗口的策略对整幅图像进行遍历,而且需要设置不同的尺度,不同的长宽比。这种穷举的策略虽然包含了目标所有可能出现的位置,但是缺点也是显而易见的:时间复杂度太高,产生冗余窗口太多,这也严重影响后续特征提取和分类的速度和性能。(实际上由于受到时间复杂度的问题,滑动窗口的长宽比一般都是固定的设置几个,所以对于长宽比浮动较大的多类别目标检测,即便是滑动窗口遍历也不能得到很好的区域)
2) 特征提取
由于目标的形态多样性,光照变化多样性,背景多样性等因素使得设计一个鲁棒的特征并不是那么容易。然而提取特征的好坏直接影响到分类的准确性。(这个阶段常用的特征有SIFT、HOG等)
3) 分类器
主要有SVM, Adaboost等。
总结:传统目标检测存在的两个主要问题:一个是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余;二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。
[2] Girshick R, Donahue J, Darrell T, et al. Region-Based Convolutional Networks for Accurate Object Detection and Segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 38(1):142-158.
[3] He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(9):1904-16.
[4] Girshick R. Fast R-CNN[J]. Computer Science, 2015.
[5] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39(6):1137-1149.
[6] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[J]. 2015:779-788.
[7] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[J]. 2015:21-37.
[8] Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[J]. 2016:6517-6525.
[9] Najibi M, Rastegari M, Davis L S. G-CNN: an Iterative Grid Based Object Detector[J]. 2015:2369-2377.

点赞