我想在scikit learn中处理相当大的ARFF文件。这些文件位于zip存档中,我不想在处理之前将存档解压到文件夹中。因此,我使用Python 3.6的zipfile模块:
from zipfile import ZipFile
from scipy.io.arff import loadarff
archive = ZipFile( 'archive.zip', 'r' )
datafile = archive.open( 'datafile.arff' )
data = loadarff( datafile )
# …
datafile.close()
archive.close()
但是,这会产生以下错误:
Traceback (most recent call last):
File "./m.py", line 6, in <module>
data = loadarff( datafile )
File "/usr/lib64/python3.6/site-packages/scipy/io/arff/arffread.py", line 541, in loadarff
return _loadarff(ofile)
File "/usr/lib64/python3.6/site-packages/scipy/io/arff/arffread.py", line 550, in _loadarff
rel, attr = read_header(ofile)
File "/usr/lib64/python3.6/site-packages/scipy/io/arff/arffread.py", line 323, in read_header
while r_comment.match(i):
TypeError: cannot use a string pattern on a bytes-like object
根据loadarff documentation,loadarff
需要一个类似文件的对象。
根据zipfile documentation,open
返回一个类似ZipExtFile
的文件。你知道吗
因此,我的问题是如何使用ZipFile.open
返回的内容作为loadarff
的ARFF输入。你知道吗
注意:如果我手动解压并直接用data = loadarff( 'datafile.arff' )
加载ARFF,一切正常。你知道吗
将
zfile
读入内存中的BytesIO
对象。将TextIOWrapper
与encoding='utf-8'
一起使用。在loadarff
中使用这个内存缓冲文本对象。你知道吗Edit:Turnsout
zfile.open()
返回一个类似文件的对象,因此可以通过以下方式完成上述操作:谢谢@Bernhard
相关问题 更多 >
编程相关推荐