我看了tensorrt的int8量化原理,使用的是训练后量化方案,对weights直接使用线性量化,但我查到不训练直接量化的方式对小模型的精度损失非常大,mtcnn就是使用的三个小模型,我的显卡不支持int8也没有验证,请问tensorrt对mtcnn的int8量化会产生较大的精度损失吗?效率提升会有多少呢,谢谢
-
sigma |
tensorrt平台mtcnn的int8量化问题
-
sigma |
-
刘看山 |
泻药。
刚下飞机,人在美国。博士毕业,年薪百万。现在正式来回答一下问题。
关于这个TensorRT int8 mix precision的推理问题,其实可以总结为两点:
- 速度提升可以达到50%,相对于fp32,显存占用可以降低20%甚至更多;
- 一般int8即使pascal架构也支持,fp16才要turing架构,因此即便是pascal架构显卡也是可以做实验的,但是难点在于你需要编写自己的calibrator用数据去calibrate模型。
关于tensorrt量化推理,我们社区会在近期退出一些教程,当然了,是肯定有example的。欢迎关注