dask可以读取块中的压缩文件吗?

2024-05-08 13:59:14 发布

您现在位置:Python中文网/ 问答频道 /正文

Dask是否能够以块的形式读取压缩文件?你知道吗

我在this notebook读取.xz文件时收到几个错误

import dask.bag as db

bag = db.read_text('data/1-input/RC_2018-09.xz', blocksize=100e6).map(json.loads)

ValueError: Cannot infer logical size from file compressed with compression='xz'

ValueError: Cannot do chunked reads on files compressed with compression='xz'. To read, set blocksize=None

显式设置compression='xz'也会导致错误。你知道吗

再深入一点,我看到一些关于compression.py中xz文件的行被注释掉了,所以我想知道这是不是被禁用了。你知道吗

根据xz specs,它确实支持随机访问读取到有限的块大小。你知道吗

这对我来说并不重要-我总是可以解压然后运行Dask-这只会节省一些磁盘空间。你知道吗

谢谢!你知道吗


Tags: 文件readdb错误withcompressed形式dask
1条回答
网友
1楼 · 发布于 2024-05-08 13:59:14

XZ确实支持压缩,但在实践中非常罕见。维护它的成本最终超过了它的使用成本,因此维护人员停止了对这个特性的维护。如果你有兴趣拿起维修,那么这将是受欢迎的,它将有可能再次添加回来。你知道吗

相关问题 更多 >

    热门问题