gzip文件上的dask分块读取文本

dask-igzip的Python项目详细描述


Dask indexed gzip
##################

|pypi-version| |travis| |coveralls|

An implementation compatible with `dask read_text`_ interface,
than can chunk a gzipped text file into several partitions,
thanks to an index, provided by `indexed_gzip`_

This is useful when your data resides in a big gzipped file,
但您希望利用DASK并行性功能。

初始化

>
>>gt>gt;data-pu path=os.path.join(os.path.dirname(dask-igzip.u文件名),“.”,“test”,“data”)




>
>>gt>gt;source=os.path.path.join(data-pu path,“sample.txt.txt.gz”source=os.path.join(data-路径,sample.txt.gz)”
>>>gt>gt>gt;data-pu path=os.path.path.join(data-pu path.path,“sample.txt.txt.gz”data)

>>>
>>gt>gt u igzip.read_text(源,chunk_size=3,encoding=“utf-8”)
>;>lines=bag.take(4,分区=2)
>;>print(“.join(lines.strip())
第一句
第二句
第三句
第四句
>;“第9行”

为什么?
----

这种限制来自于这样一个事实,即
无法以可预测且一致的方式拆分gzip文件。

这个项目提供了一个实现,其中gzip被索引,
然后行位置也被索引,
文本的读取可以通过块来完成(这样就可以实现并行性)。
第一次运行时,索引保存在磁盘上,这样后续运行就很快了。

。_`索引的“gzip”:https://github.com/pauldmccarthy/index的“gzip”
。_` dask read_text`:https://dask.pydata.org/en/latest/bag creation.html db read text



……| pypi版本image::https://img.shields.io/pypi/v/dask igzip.svg
:目标:https://pypi.python.org/pypi/dask igzip
:alt:最新的pypi版本
。|特拉维斯图片:http://img.shields.io/travis/jurismarches/dask_igzip/master.svg?style=flat
:目标:https://travis ci.org/jurismarches/dask_igzip
…|工作服图片:http://img.shields.io/coveralls/jurismarches/dask_igzip/master.svg?style=flat
:目标:https://coveralls.io/r/jurismarches/dask-igzip





changelog
_`保留变更日志:http://keep a changelog.com/en/1.0.0/
。_`语义语义版本化`:http://semver.org/spec/v2.0.0.0.0.0.0.html



<0.2.0-2018-06-20
======



>






>

-read-read-read-text现在接受一个限制参数,限制要读取的行的全局数量






<0.1.1.1.1.1.1.1.1.1.1.0


==============0个-2018年6月19日

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在Hibernate中从两个具有不同功能的表(postgreSQL)映射一个实体   java jfreechart需要自定义Y轴,以便打印   Java:从外部获取类。罐子   java如何获取Appium服务器日志   具有完全相同内容的java重写函数会导致错误   java消息的类路径是什么。属性(如果在依赖项jar中)   循环/相等的java问题==   java如何使用ionic cordova angularjs将所选图像发送到spring controller以保存到服务器?   库中的java语言环境数据   java从JSON webservice检索安卓中的字节[]   调试如何从Java中的类调试方法?   java将日期字符串切割成变量   无法使用java附加到文件?