Dask是否能够以块的形式读取压缩文件?你知道吗
我在this notebook读取.xz文件时收到几个错误
import dask.bag as db
bag = db.read_text('data/1-input/RC_2018-09.xz', blocksize=100e6).map(json.loads)
ValueError: Cannot infer logical size from file compressed with compression='xz'
ValueError: Cannot do chunked reads on files compressed with compression='xz'. To read, set blocksize=None
显式设置compression='xz'
也会导致错误。你知道吗
再深入一点,我看到一些关于compression.py中xz文件的行被注释掉了,所以我想知道这是不是被禁用了。你知道吗
根据xz specs,它确实支持随机访问读取到有限的块大小。你知道吗
这对我来说并不重要-我总是可以解压然后运行Dask-这只会节省一些磁盘空间。你知道吗
谢谢!你知道吗
XZ确实支持压缩,但在实践中非常罕见。维护它的成本最终超过了它的使用成本,因此维护人员停止了对这个特性的维护。如果你有兴趣拿起维修,那么这将是受欢迎的,它将有可能再次添加回来。你知道吗
相关问题 更多 >
编程相关推荐