这个是必然的,相信很多人都试过,在训练模型的时候去跑推理,会慢的不行。

这是英伟达内部的多模型伪并行决定的,你没有办法去解决。目前来看,可能的办法分为两种,但是代价都比较高:

A100 这样的带有vGPU支持的卡; 整合到一个模型中,做多任务