摘抄与某乎
anchor 让网络学习到的是一种推断的能力。网络不会认为它拿到的这一小块 feature map 具有七十二变的能力,能同时从 9 种不同的 anchor 区域得到。拥有 anchor 的 rpn 做的事情是它已知图像中的某一部分的 feature(也就是滑动窗口的输入),判断 anchor 是物体的概率。anchor 可能比感受野大,也可能比感受野小,如果 anchor 比感受野大,就相当于只看到了我关心的区域(anchor)的一部分(感受野),通过部分判断整体,如果比感受野小,那就是我知道比我关心的区域更大的区域的信息,判断其中我关心的区域是不是物体。
作者:大缺弦
链接:https://www.zhihu.com/question/42205480/answer/378130538
来源:X乎 无耻粘贴复制的,^_^
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
anchor boxes用来预测bounding box,faster rcnn中用128*128,256*256,512*512,分三个尺度变换1:1,1:2,2:1,共计9个anchor来预测框,每个anchor预测2000个框左右,使得检出率提高很多。YOLOv2开始增加了anchor机制,在v3中增加到9个anchor。例如yolov3-voc.cfg中这组anchor,anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326,由作者通过聚类VOC数据集得到的,20类目标中大到bicycle、bus,小到bird、cat,目标大小差距很大,如果用自己的数据集训练检测目标,其中部分anchor并不合理,本文记录下在自己的数据集上聚类计算anchor,提高bounding box的检出率。