我想在多GPU系统上用Tensorflow编写变压器模型的训练循环。由于代码不支持tf2,因此无法使用built-in but experimental探查器。因此,我想使用nvprof+nvvp(CUDA10.1,驱动程序:418)
我可以在没有任何错误的情况下分析代码,但是,在nvvp中检查结果时,没有GPU的数据。我不知道这是什么原因,因为nvidia smi清楚地表明GPU被利用了
This thread似乎描述了同样的问题,但没有解决办法。按照this question中的建议,我对代码运行了cudamemcheck,没有产生任何错误
我尝试过使用其他命令行参数运行nvprof,例如--analysis-metrics
(没有区别)和--profile-child-processes
(警告它无法捕获GPU数据),但没有效果
有人能帮我理解为什么我不能捕获GPU数据,以及如何解决这个问题吗
还有,为什么在剖析深层神经网络方面的资源如此之少?由于培训时间较长,因此确保充分利用所有计算资源显得尤为重要
谢谢大家!
考虑添加命令行参数^ {< CD1> }。
相关问题 更多 >
编程相关推荐