求助目标检测入门和代码理解(faster rcnn+fpn+retinanet)

YSXZ

我是刚开始搞目标检测，我想问下大家，对于新手来说有什么好的资料方便学习总结。我最近看了Faster RCNN，FPN，mask rcnn，retinanet的基础原理，然后又跑了下retinanet和fpn的代码，但是代码细节有一些不懂，那些参数的意思和模型训练策略我有些不理解，我可以从哪里找到一些资料方便我理解代码的呢？pytorch/tf/keras的都可以。
还有就是对自己的数据集除了在官方给出的目标检测代码框架基础上，一般有什么策略可以提升模型准确率。

chandler-wu

没错，我来挖坟了。作为刚入门的小白，看到金天的回答貌似心里有了数，我总是在不停的翻看和拷贝master的代码，仔细想想连基本的操作都实现不了。下定决心，从基础开始，一步步实现，不做拷贝侠。

刘看山

回答一下，这个问题比较大，我权且假设你是想从头入门学习目标检测这个领域。

从应用的角度讲，可以分为2D目标检测和3D目标检测，2D现在基本上很成熟了，比如我们经常听到的FasterRCNN系列，SSD系列，Yolo系列等，现在也到了大规模应用阶段，可以优化到非常快的速度。3D目标检测目前来讲还没有非常成熟的方法，这个也跟传感器的发展有关，目前还没有非常便宜的能够生成稠密点云的激光雷达。

楼主应该从2D目标检测开始。具体来讲，首先我给出下面这些锦囊：

框架用pytorch，否则你会在语言层面踩很多不必要的坑;
先把基础的部门看一下，比如nms，rpn，fpn等，最好自己实现一遍；
然后尝试自己实现一个fasterrcnn，这个其实不难。

你实现了自己的框架之后，基本上你就已经从入门到master了。祝你成功！