当我执行Python代码在单个流数据点上运行推断时,推断时间大约为2.5秒。 但是,如果我在200多个流数据点上执行推断,每个数据点的平均推断时间将下降到0.10秒
对于任何数量大于1的点,推理运行速度都会更快,这有什么原因吗?是因为GPU需要时间预热还是什么
也可以,我从C++中执行Python脚本时,如何利用这个?我不想每次都调用Python脚本,而是模拟调用多个流点。我目前在考虑从C++中使用Sypor()调用或PyIIrimalIZE省(),但我觉得每次都会在单个点上调用推理,所以我总是用最慢的推理来运行。p>
目前没有回答
相关问题 更多 >
编程相关推荐