我有一台机器有两个不同的gpu(一个RTX和一个Titan V),它经常无法运行任务。这种行为主要在id=1的GPU中观察到。在
同一个任务可以在id为0的不同计算机或GPU中成功运行。在
精确堆栈如下:
File "cupy/core/core.pyx", line 1689, in cupy.core.core.ndarray.__setitem__
File "cupy/core/core.pyx", line 3598, in cupy.core.core._scatter_op
File "cupy/core/_kernel.pyx", line 828, in cupy.core._kernel.ufunc.__call__
File "cupy/util.pyx", line 48, in cupy.util.memoize.decorator.ret
File "cupy/core/_kernel.pyx", line 617, in cupy.core._kernel._get_ufunc_kernel
File "cupy/core/_kernel.pyx", line 51, in cupy.core._kernel._get_simple_elementwise_kernel
File "cupy/core/carray.pxi", line 164, in cupy.core.core.compile_with_cache
File "[miniconda]/envs/[env_name]/lib/python3.5/site-packages/cupy/cuda/compiler.py", line 161, in compile_with_cache
mod.load(cubin)
File "cupy/cuda/function.pyx", line 181, in cupy.cuda.function.Module.load
File "cupy/cuda/function.pyx", line 183, in cupy.cuda.function.Module.load
File "cupy/cuda/driver.pyx", line 185, in cupy.cuda.driver.moduleLoadData
File "cupy/cuda/driver.pyx", line 81, in cupy.cuda.driver.check_status
cupy.cuda.driver.CUDADriverError: CUDA_ERROR_INVALID_SOURCE: device kernel image is invalid
我的设置如下:
^{pr2}$同样的问题也出现在chainer5.3中(我从头创建了一个新的conda环境)。在
我相信这与多线程有关,但我无法在cupy中找到如何关闭它或如何完全避免这个问题。在
一些潜在的不相关信息: 这是一个相当随机的过程。在GPU id=1中,10次中有8次由于上述错误而无法运行。在
有什么想法吗?在
目前没有回答
相关问题 更多 >
编程相关推荐