在BDD上训练CFENet并添加repulsion loss

2019年5月5日 302次阅读来源: 涂山容容

感谢大佬开源了CFENet,自己在refinedet上加了cfe模块，不过还是没啥效果。所以，还是用用大佬开源的代码吧。
代码地址：https://github.com/qijiezhao/CFENet/tree/working 目前还在working分支下还没有merge到master
恩，顺带学习了一下git 的命令，比如切换分支啥的
1.clone代码到本地

 git clone https://github.com/qijiezhao/CFENet.git
cd CFENet
git checkout working
git pull origin working

2.参照大佬的readme装东西

#安装pytorch，哎，tensorflow的坑还没有跳出来，又有新坑来了
conda install pytorch torchvision -c pytorch
pip install opencv-python,tqdm
#编译coco tool 和nms 感觉这块来自py-faster rcnn？不太清楚，毕竟没有跑过rcnn系列，不过看到另一个ssd里面有这一块代码，然后注释里面就是,猜测应该是那里来的吧
sh make.sh

3.准备数据集，打算用bdd100k的数据，代码里提供了voc和coco的数据读入，自己先把数据转成了coco
这里借用了一个脚本，直接运行就好了
https://codeload.github.com/touchsunshine/convert_bdd100k_to_coco_format/zip/master

里面的话有个bug
78行改成filepath = filepath + ‘.jpg’ 就ok了
然后就开始改源码啦
先copy了一份 coco.py 为coco_bdd.py
主要是读数据，json文件的路径，以及对应的图怎么读
之前的话json是根据dict的名字组合起来读的，自己改了一下，写死了一些，然后之前图是根据id来，直接把id变成路路径，估计是coco数据集本身imagename和image idx 就一样（差的就是长度），自己的话要根据image idx 去读取image name。主要还是要看懂代码
然后在所有要加数据集的地方，加加加
涉及的有cfenet300_vgg16.py train.py test.py
然后就可以跑起来作者的源码了。
目前采用这样的方式主要还是因为笔者比较弱鸡，不太会自己coding，哎。
4.添加repulsion_loss，主要是把https://github.com/bailvwangzi/repulsion_loss_ssd
大佬复现的代码合并进去
需要添加或者替换的其实也就是multibox_loss.py repulsion_loss.py box_utils.py
(attention: 该开源代码只实现了repulsion loss 的一个部分，就是预测框和gt远离，预测框和预测框的约束没加上）
添加之后出现了的错误：
1.priors = priors[pos_idx].view(-1, 4)
IndexError: too many indices for tensor of dimension 2
根据
https://github.com/bailvwangzi/repulsion_loss_ssd/issues/1

自己用的是0.4.1 所以的话就把priors也给expand了

priors = priors.expand_as(pos_idx)

2.报错
loss_c[pos.view(-1,1)] = 0 # filter out pos boxes for now
RuntimeError: copy_if failed to synchronize:device-side assert triggered
这个bug坑死我了，网上的方法试了好多，心都碎了，卡了一天。
然后注释掉了所有和rep_loss有关的函数，还是这个错，那就是和rep_loss没有关系了，

然后把match函数换回之前的，没有报错，因此定位到了match的函数，开始的时候大致过了一遍，并没有发现什么不同，不，是觉得前面的是一毛一样的啊，真的是眼神不好，最后用了pycharm的compare，看了两遍，发现
conf = labels[best_truth_idx]
这里有个+1 自己的label本来就是从1开始的，这里直接越界了，把+1 去掉就可以了 merge代码的时候要小心谨慎啊，开始时候一个不注意，后面的话要找就很难了，毕竟不是自己写的code，不清楚所有的逻辑。

然后就可以愉快的训练了，不过这种实现的话rep loss 一直都维持在0.2左右，感觉都在优化conf 和loc，这个占比太小了。

    原文作者：涂山容容
    原文地址: https://www.jianshu.com/p/6f8ca96fad25
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。