将文件句柄传递给Cython函数
我想用cython来编译一个python函数,这个函数可以读取一个二进制文件,同时跳过一些记录(我不想先把整个文件都读进来再切片,因为那样会耗尽内存)。我可以写出类似这样的代码:
def FromFileSkip(fid, count=1, skip=0):
if skip>=0:
data = numpy.zeros(count)
k = 0
while k<count:
try:
data[k] = numpy.fromfile(fid, count=1, dtype=dtype)
fid.seek(skip, 1)
k +=1
except ValueError:
data = data[:k]
break
return data
然后我可以这样使用这个函数:
f = open(filename)
data = FromFileSkip(f,...
不过,在用cython编译“FromFileSkip”这个函数时,我想把函数里所有涉及到的类型都定义清楚,包括“fid”,也就是文件处理器。请问我该如何在cython中定义它的类型,因为它不是一个“标准”的类型,比如说整数。
1 个回答
5
定义fid
的类型并没有什么帮助,因为调用Python函数的开销还是很大的。你可以试着用“-a”这个标志编译你的例子,看看我说的是什么意思。不过,你可以使用底层的C语言函数来处理文件,这样可以避免在循环中使用Python时的额外开销。为了举例说明,我假设数据是从文件的开头开始的,并且它的类型是double
。
from libc.stdio cimport *
cdef extern from "stdio.h":
FILE *fdopen(int, const char *)
import numpy as np
cimport numpy as np
DTYPE = np.double # or whatever your type is
ctypedef np.double_t DTYPE_t # or whatever your type is
def FromFileSkip(fid, int count=1, int skip=0):
cdef int k
cdef FILE* cfile
cdef np.ndarray[DTYPE_t, ndim=1] data
cdef DTYPE_t* data_ptr
cfile = fdopen(fid.fileno(), 'rb') # attach the stream
data = np.zeros(count).astype(DTYPE)
data_ptr = <DTYPE_t*>data.data
# maybe skip some header bytes here
# ...
for k in range(count):
if fread(<void*>(data_ptr + k), sizeof(DTYPE_t), 1, cfile) < 0:
break
if fseek(cfile, skip, SEEK_CUR):
break
return data
注意,运行cython -a example.pyx
的输出显示,在循环内部没有Python的额外开销。