神励AI工坊

**LDoubleZhi**

是否直接修改yaml里的backbone_pretrained: 'checkpoints/mobilenet_v2.pth'就可以只当模型文件，再args.do_test=True就可以了？

**LDoubleZhi**

如题，只有coco的训练代码

**LDoubleZhi**

貌似是burn_in期间学习率太大导致nan，但是原论文burnin也不小啊

**LDoubleZhi**

[Epoch 0/150][Iter 0/86][lr 0.000000][Loss: anchor 9.16, iou 8.31, l1 35.46, conf 99672.05, cls 16.66, imgsize 608, time: 26.08]
[Epoch 0/150][Iter 10/86][lr 0.000000][Loss: anchor 18.68, iou 18.18, l1 101.71, conf 2369.89, cls 39.56, imgsize 608, time: 39.37]
[Epoch 0/150][Iter 20/86][lr 0.000003][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 416, time: 45.88]
[Epoch 0/150][Iter 30/86][lr 0.000015][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 352, time: 26.93]
[Epoch 0/150][Iter 40/86][lr 0.000047][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 384, time: 24.05]
[Epoch 0/150][Iter 50/86][lr 0.000114][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 480, time: 30.52]
[Epoch 0/150][Iter 60/86][lr 0.000237][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 576, time: 39.93]
[Epoch 0/150][Iter 70/86][lr 0.000439][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 480, time: 32.17]
[Epoch 0/150][Iter 80/86][lr 0.000749][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 448, time: 36.69]
[Epoch 1/150][Iter 0/86][lr 0.001000][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 352, time: 23.47]
[Epoch 1/150][Iter 10/86][lr 0.001000][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 352, time: 15.24]
[Epoch 1/150][Iter 20/86][lr 0.001000][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 512, time: 34.18]
[Epoch 1/150][Iter 30/86][lr 0.001000][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 544, time: 48.47]
[Epoch 1/150][Iter 40/86][lr 0.001000][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 416, time: 28.83]
[Epoch 1/150][Iter 50/86][lr 0.001000][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 416, time: 19.87]
[Epoch 1/150][Iter 60/86][lr 0.001000][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 352, time: 18.90]
[Epoch 1/150][Iter 70/86][lr 0.001000][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 576, time: 19.08]
[Epoch 1/150][Iter 80/86][lr 0.001000][Loss: anchor nan, iou nan, l1 nan, conf nan, cls nan, imgsize 608, time: 34.87]

**LDoubleZhi**

如题，asff中的3个融合权重参数是怎么监督学习

**LDoubleZhi**

@金天大佬，c++TRT貌似有内存泄露？

**LDoubleZhi**

@金天我目前用的是101，50的需要自己写onnx导出吗？

**LDoubleZhi**

float16推理速度在135ms，我直接在ctdetConfig.h设置input_size报错，必须要设置的和训练时一样吗？

**LDoubleZhi**

836ms合理吗？感觉太慢了

**LDoubleZhi**

@金天我好像找到原因了，demo_det_r010_custom.py里heads = {'hm': 5, 'reg': 2, 'wh': 2}中的hm要根据自己的类设置，哭了，搞了一周

**LDoubleZhi**

@金天我用demo.py和demo_det_r010_custom.py得到的结果不一样，是不是后者代码有问题

**LDoubleZhi**

@金天问题汇总一下：1.是否需要像原作者一样把torch中的bn disable 2.奇异ai的工程主要改了哪个python文件，如果想把作者的最新代码更新到里面时不能覆盖那些文件。一样的数据集一样的超参数用奇异ai的训练效果太差啊

**LDoubleZhi**

@金天我晚上完全把opts debugger coco_custom.py和原项目匹配一下(超参数，和类别设置)，训练看看结果，要是还有误检就说明代码有问题，同样的数据集我用xingyizhou的代码训练的模型效果很好

**LDoubleZhi**

@金天这个完全是误检了，把人和车识别成fence_a

**LDoubleZhi**

@金天原作者的project需要disable cudnn batch normalization，奇异ai的需要吗？

**LDoubleZhi**

@金天
这两个分别是我用annaai和原作者centernet训练的结果，coco格式数据集完全一样，不知道什么原因

**LDoubleZhi**

(图片地址)

loss降到1以下了，但检测结果非常差

**LDoubleZhi**

是因为lr设置的不好吗？iou thresh从哪里设置呢？