gzip文件上的dask分块读取文本
dask-igzip的Python项目详细描述
Dask indexed gzip
##################
|pypi-version| |travis| |coveralls|
An implementation compatible with `dask read_text`_ interface,
than can chunk a gzipped text file into several partitions,
thanks to an index, provided by `indexed_gzip`_
This is useful when your data resides in a big gzipped file,
但您希望利用DASK并行性功能。
初始化
>
>>gt>gt;data-pu path=os.path.join(os.path.dirname(dask-igzip.u文件名),“.”,“test”,“data”)
:
:
>
>>gt>gt;source=os.path.path.join(data-pu path,“sample.txt.txt.gz”source=os.path.join(data-路径,sample.txt.gz)”
>>>gt>gt>gt;data-pu path=os.path.path.join(data-pu path.path,“sample.txt.txt.gz”data)
>>>
>>gt>gt u igzip.read_text(源,chunk_size=3,encoding=“utf-8”)
>;>lines=bag.take(4,分区=2)
>;>print(“.join(lines.strip())
第一句
第二句
第三句
第四句
>; “第9行”
为什么?
----
这种限制来自于这样一个事实,即
无法以可预测且一致的方式拆分gzip文件。
这个项目提供了一个实现,其中gzip被索引,
然后行位置也被索引,
文本的读取可以通过块来完成(这样就可以实现并行性)。
第一次运行时,索引保存在磁盘上,这样后续运行就很快了。
。_`索引的“gzip”:https://github.com/pauldmccarthy/index的“gzip”
。_` dask read_text`:https://dask.pydata.org/en/latest/bag creation.html db read text
……| pypi版本image::https://img.shields.io/pypi/v/dask igzip.svg
:目标:https://pypi.python.org/pypi/dask igzip
:alt:最新的pypi版本
。|特拉维斯图片:http://img.shields.io/travis/jurismarches/dask_igzip/master.svg?style=flat
:目标:https://travis ci.org/jurismarches/dask_igzip
…|工作服图片:http://img.shields.io/coveralls/jurismarches/dask_igzip/master.svg?style=flat
:目标:https://coveralls.io/r/jurismarches/dask-igzip
changelog
_`保留变更日志:http://keep a changelog.com/en/1.0.0/
。_`语义语义版本化`:http://semver.org/spec/v2.0.0.0.0.0.0.html
<0.2.0-2018-06-20
======
>
>
-read-read-read-text现在接受一个限制参数,限制要读取的行的全局数量
<0.1.1.1.1.1.1.1.1.1.1.0
==============0个-2018年6月19日
##################
|pypi-version| |travis| |coveralls|
An implementation compatible with `dask read_text`_ interface,
than can chunk a gzipped text file into several partitions,
thanks to an index, provided by `indexed_gzip`_
This is useful when your data resides in a big gzipped file,
但您希望利用DASK并行性功能。
初始化
>
>>gt>gt;data-pu path=os.path.join(os.path.dirname(dask-igzip.u文件名),“.”,“test”,“data”)
:
:
>
>>gt>gt;source=os.path.path.join(data-pu path,“sample.txt.txt.gz”source=os.path.join(data-路径,sample.txt.gz)”
>>>gt>gt>gt;data-pu path=os.path.path.join(data-pu path.path,“sample.txt.txt.gz”data)
>>>
>>gt>gt u igzip.read_text(源,chunk_size=3,encoding=“utf-8”)
>;>lines=bag.take(4,分区=2)
>;>print(“.join(lines.strip())
第一句
第二句
第三句
第四句
>;
为什么?
----
无法以可预测且一致的方式拆分gzip文件。
这个项目提供了一个实现,其中gzip被索引,
然后行位置也被索引,
文本的读取可以通过块来完成(这样就可以实现并行性)。
第一次运行时,索引保存在磁盘上,这样后续运行就很快了。
。_`索引的“gzip”:https://github.com/pauldmccarthy/index的“gzip”
。_` dask read_text`:https://dask.pydata.org/en/latest/bag creation.html db read text
……| pypi版本image::https://img.shields.io/pypi/v/dask igzip.svg
:目标:https://pypi.python.org/pypi/dask igzip
:alt:最新的pypi版本
。|特拉维斯图片:http://img.shields.io/travis/jurismarches/dask_igzip/master.svg?style=flat
:目标:https://travis ci.org/jurismarches/dask_igzip
…|工作服图片:http://img.shields.io/coveralls/jurismarches/dask_igzip/master.svg?style=flat
:目标:https://coveralls.io/r/jurismarches/dask-igzip
changelog
_`保留变更日志:http://keep a changelog.com/en/1.0.0/
。_`语义语义版本化`:http://semver.org/spec/v2.0.0.0.0.0.0.html
<0.2.0-2018-06-20
======
>
>
-read-read-read-text现在接受一个限制参数,限制要读取的行的全局数量
<0.1.1.1.1.1.1.1.1.1.1.0
==============0个-2018年6月19日