使用ctypes对cuda分配的内存使用python句柄

pycu_alloc = dll.alloc_gpu_mem pycu_alloc.argtypes = [c_size_t] pycu_alloc.restypes = [c_void_p] host2gpu = dll.host2gpu host2gpu.argtypes = [c_void_p, c_void_p, c_size_t] gpu2host = dll.gpu2host gpu2host.argtypes = [c_void_p, c_void_p, c_size_t] a = np.random.randn(1024).astype('float32') c = np.zeros(1024).astype('float32') c_a = c_void_p(a.ctypes.data) c_c = c_void_p(c.ctypes.data) da = pycu_alloc(1024) c_da = c_void_p(da) host2gpu(c_a, c_da, 1024) gpu2host(c_c, c_da, 1024) print a print c

1条回答

网友

1楼 · 发布于 2024-04-23 19:30:42

问题在于：

pycu_alloc.restypes = [c_void_p]

这没用。你想要的是：

^{pr2}$

请参见ctypes文档中的Return types。在

如果不这样，ctypes假设函数返回一个C int。在32位平台上，您可能会逃脱惩罚，因为您最终构建了一个c_void_p，其值是int……但在64位平台上，该指针将以丢失高32位结束。在

所以，当你把它传递给CUDA时，它会识别出指针不在它知道的任何范围内，并返回一个cudaErrorInvalidValue（11）。在

另外，如果你把所有的事情都做对了，这一行应该是不必要的：

c_da = c_void_p(da)

您调用的函数argtypes指定了c_void_p，因此您可以将从c_void_p返回函数得到的int传递给它。在

对于普通的malloc和free，您可以看到相同的行为，除了您可能会在free处得到一个segfault，而不是一个很好的错误：

malloc = libc.malloc
malloc.argtypes = [c_size_t]
malloc.restype = c_void_p # comment this line to crash on most 64-bit platforms

free = libc.free
free.argtypes = [c_void_p]
free.restype = None

a = malloc(1024)
free(a) # commenting this line and uncommenting the next two has no effect
#c_a = c_void_p(a)
#free(ca)

相关问题更多 >

编程相关推荐

热门问题

热门文章