以numpy数组为参数的Cython内联函数

import numpy as np cimport numpy as np cdef inline inc(np.ndarray[np.int32_t] arr, int i): arr[i]+= 1 def test1(np.ndarray[np.int32_t] arr): cdef int i for i in xrange(len(arr)): inc(arr, i) def test2(np.ndarray[np.int32_t] arr): cdef int i for i in xrange(len(arr)): arr[i] += 1

# cython: infer_types=True # cython: boundscheck=False # cython: wraparound=False import numpy as np cimport numpy as np cdef inline inc(np.ndarray[np.int32_t, ndim=2] arr, int i, int j): arr[i, j] += 1 def test1(np.ndarray[np.int32_t, ndim=2] arr): cdef int i,j for i in xrange(arr.shape[0]): for j in xrange(arr.shape[1]): inc(arr, i, j) def test2(np.ndarray[np.int32_t, ndim=2] arr): cdef int i,j for i in xrange(arr.shape[0]): for j in xrange(arr.shape[1]): arr[i,j] += 1

# cython: infer_types=True # cython: boundscheck=False # cython: wraparound=False import numpy as np cimport numpy as np cdef inline inc(np.ndarray[np.float32_t, ndim=2] arr, int i, int j): arr[i, j]+= 1 def test1(np.ndarray[np.float32_t, ndim=2] arr): cdef int i,j for i in xrange(arr.shape[0]): for j in xrange(arr.shape[1]): inc(arr, i, j) def test2(np.ndarray[np.float32_t, ndim=2] arr): cdef int i,j for i in xrange(arr.shape[0]): for j in xrange(arr.shape[1]): arr[i,j] += 1 cdef class FastPassingFloat2DArray(object): cdef float* data cdef int stride0, stride1 def __init__(self, np.ndarray[np.float32_t, ndim=2] arr): self.data = <float*>arr.data self.stride0 = arr.strides[0]/arr.dtype.itemsize self.stride1 = arr.strides[1]/arr.dtype.itemsize def __getitem__(self, tuple tp): cdef int i, j cdef float *pr, r i, j = tp pr = (self.data + self.stride0*i + self.stride1*j) r = pr[0] return r def __setitem__(self, tuple tp, float value): cdef int i, j cdef float *pr, r i, j = tp pr = (self.data + self.stride0*i + self.stride1*j) pr[0] = value cdef inline inc2(FastPassingFloat2DArray arr, int i, int j): arr[i, j]+= 1 def test3(np.ndarray[np.float32_t, ndim=2] arr): cdef int i,j cdef FastPassingFloat2DArray tmparr = FastPassingFloat2DArray(arr) for i in xrange(arr.shape[0]): for j in xrange(arr.shape[1]): inc2(tmparr, i,j)

In [4]: timeit ttt.test1(arr) 1 loops, best of 3: 623 ms per loop In [5]: timeit ttt.test2(arr) 100 loops, best of 3: 2.29 ms per loop In [6]: timeit ttt.test3(arr) 1 loops, best of 3: 201 ms per loop

3条回答

网友

1楼 · 编辑于 2024-05-15 00:37:13

将数组作为类型为numpy.ndarray的Python对象传递给inc()。由于引用计数等问题，传递Python对象非常昂贵，而且似乎会阻止内联。如果以C方式传递数组，即作为指针，test1()甚至比我的机器上的test2()更快：

cimport numpy as np

cdef inline inc(int* arr, int i):
    arr[i] += 1

def test1(np.ndarray[np.int32_t] arr):
    cdef int i
    for i in xrange(len(arr)):
        inc(<int*>arr.data, i)

网友

2楼 · 编辑于 2024-05-15 00:37:13

问题是，分配numpy数组（或者，等价地，将其作为函数参数传入）不仅仅是一个简单的赋值，而是一个“缓冲区提取”，它填充结构并将跨距和指针信息提取到快速索引所需的局部变量中。如果迭代的元素数量适中，那么这个O（1）开销很容易在循环中分摊，但对于小函数来说肯定不是这样。

改善这一点是很多人的心愿，但这是一个非常重要的变化。例如，见http://groups.google.com/group/cython-users/browse_thread/thread/8fc8686315d7f3fe的讨论

网友

3楼 · 编辑于 2024-05-15 00:37:13

发帖至今已有3年多的时间，同时也取得了很大的进展。关于此代码（问题的更新2）：

# cython: infer_types=True
# cython: boundscheck=False
# cython: wraparound=False
import numpy as np
cimport numpy as np

cdef inline inc(np.ndarray[np.int32_t, ndim=2] arr, int i, int j):
    arr[i, j]+= 1

def test1(np.ndarray[np.int32_t, ndim=2] arr):
    cdef int i,j    
    for i in xrange(arr.shape[0]):
        for j in xrange(arr.shape[1]):
            inc(arr, i, j)

def test2(np.ndarray[np.int32_t, ndim=2] arr):    
    cdef int i,j    
    for i in xrange(arr.shape[0]):
        for j in xrange(arr.shape[1]):
            arr[i,j] += 1

我有以下时间安排：

arr = np.zeros((1000,1000), dtype=np.int32)
%timeit test1(arr)
%timeit test2(arr)
   1 loops, best of 3: 354 ms per loop
1000 loops, best of 3: 1.02 ms per loop

因此，即使超过3年，这个问题还是可以重现的。Cython现在有typed memoryviews，因为它是Cython 0.16中引入的，所以在发布问题时不可用。有了这个：

# cython: infer_types=True
# cython: boundscheck=False
# cython: wraparound=False
import numpy as np
cimport numpy as np

cdef inline inc(int[:, ::1] tmv, int i, int j):
    tmv[i, j]+= 1

def test3(np.ndarray[np.int32_t, ndim=2] arr):
    cdef int i,j
    cdef int[:, ::1] tmv = arr
    for i in xrange(tmv.shape[0]):
        for j in xrange(tmv.shape[1]):
            inc(tmv, i, j)

def test4(np.ndarray[np.int32_t, ndim=2] arr):    
    cdef int i,j
    cdef int[:, ::1] tmv = arr
    for i in xrange(tmv.shape[0]):
        for j in xrange(tmv.shape[1]):
            tmv[i,j] += 1

有了这个我得到：

arr = np.zeros((1000,1000), dtype=np.int32)
%timeit test3(arr)
%timeit test4(arr)
1000 loops, best of 3: 977 µs per loop
1000 loops, best of 3: 838 µs per loop

我们几乎快到那里了，而且已经比老式的方式快了！现在，inc()函数有资格声明^{}，所以让我们声明它！但糟糕的是：

Error compiling Cython file:
[...]

cdef inline inc(int[:, ::1] tmv, int i, int j) nogil:
    ^
[...]
Function with Python return type cannot be declared nogil

啊，我完全错过了void返回类型的丢失！再一次但是现在用void：

cdef inline void inc(int[:, ::1] tmv, int i, int j) nogil:
    tmv[i, j]+= 1

最后我得到：

%timeit test3(arr)
%timeit test4(arr)
1000 loops, best of 3: 843 µs per loop
1000 loops, best of 3: 853 µs per loop

和手动内联一样快！

为了好玩，我试过Numba这段代码：

import numpy as np
from numba import autojit, jit

@autojit
def inc(arr, i, j):
    arr[i, j] += 1

@autojit
def test5(arr):
    for i in xrange(arr.shape[0]):
        for j in xrange(arr.shape[1]):
            inc(arr, i, j)

我得到：

arr = np.zeros((1000,1000), dtype=np.int32)
%timeit test5(arr)
100 loops, best of 3: 4.03 ms per loop

尽管它比Cython慢4.7倍，很可能是因为JIT编译器未能内联inc()，但我认为它是非常棒的！我需要做的就是添加@autojit，而不必用笨拙的类型声明来搅乱代码；几乎不需要任何东西就可以加速88x！

我也试过和努玛一起做其他事情，比如

@jit('void(i4[:],i4,i4)')
def inc(arr, i, j):
    arr[i, j] += 1

或nopython=True但未能进一步改善。

Improving inlining is on the Numba developers' list，我们只需要提交更多的请求就可以使它具有更高的优先级。；）

相关问题更多 >

编程相关推荐

热门问题

热门文章