单GPU 多个同种目标检测模型并行推理 检测视频 检测速度会随着模型的增加降低 最后每个只有8-9fps的速度 有没有好的办法解决呢?
-
多路模型并行帧率太低
-
刘看山 |
这个是必然的,相信很多人都试过,在训练模型的时候去跑推理,会慢的不行。
这是英伟达内部的多模型伪并行决定的,你没有办法去解决。目前来看,可能的办法分为两种,但是代价都比较高:
- A100 这样的带有vGPU支持的卡;
- 整合到一个模型中,做多任务
-
@牧游 目前采用的多线程 ,效果确实不好;图拼接也尝试过,但拼接图处理速度无法保证精度的情况速度得到提高;我会尝试采用后面两种,但是否转化为c++程序会更有效一些呢?目前检测程序采用的c++的Python接口
-
牧游 |
1.使用多线程试试,但是我个人使用过程反而变慢了;
2.试试图拼接;
3.尽量少用不用往返cpu和gpu之间,看看能不能有点变量共用,一些预处理最好转为张量后再做,自己做的过程发现pytorch做一些减均值之类的操作比opencv快多了。
4.剪枝、压缩、trt