Python dask-igzip包_程序模块 - PyPI

gzip文件上的dask分块读取文本

dask-igzip的Python项目详细描述

Dask indexed gzip
##################

|pypi-version| |travis| |coveralls|

An implementation compatible with `dask read_text`_ interface,
than can chunk a gzipped text file into several partitions,
thanks to an index, provided by `indexed_gzip`_

This is useful when your data resides in a big gzipped file,
但您希望利用DASK并行性功能。

初始化

>
>>gt>gt；data-pu path=os.path.join（os.path.dirname（dask-igzip.u文件名），“.”，“test”，“data”）

：
：
>
>>gt>gt；source=os.path.path.join（data-pu path，“sample.txt.txt.gz”source=os.path.join（data-路径，sample.txt.gz）”
>>>gt>gt>gt；data-pu path=os.path.path.join（data-pu path.path，“sample.txt.txt.gz”data）

>>>
>>gt>gt u igzip.read_text（源，chunk_size=3，encoding=“utf-8”）
>；>lines=bag.take（4，分区=2）
>；>print（“.join（lines.strip（））
第一句
第二句
第三句
第四句
>；“第9行”

为什么？
----

这种限制来自于这样一个事实，即
无法以可预测且一致的方式拆分gzip文件。

这个项目提供了一个实现，其中gzip被索引，
然后行位置也被索引，
文本的读取可以通过块来完成（这样就可以实现并行性）。
第一次运行时，索引保存在磁盘上，这样后续运行就很快了。

。_`索引的“gzip”：https://github.com/pauldmccarthy/index的“gzip”
。_` dask read_text`:https://dask.pydata.org/en/latest/bag creation.html db read text

……| pypi版本image：：https://img.shields.io/pypi/v/dask igzip.svg
：目标：https://pypi.python.org/pypi/dask igzip
：alt:最新的pypi版本
。|特拉维斯图片：http://img.shields.io/travis/jurismarches/dask_igzip/master.svg？style=flat
：目标：https://travis ci.org/jurismarches/dask_igzip
…|工作服图片：http://img.shields.io/coveralls/jurismarches/dask_igzip/master.svg？style=flat
：目标：https://coveralls.io/r/jurismarches/dask-igzip

changelog
_`保留变更日志：http://keep a changelog.com/en/1.0.0/
。_`语义语义版本化`:http://semver.org/spec/v2.0.0.0.0.0.0.html

<0.2.0-2018-06-20
======

>

>

-read-read-read-text现在接受一个限制参数，限制要读取的行的全局数量

<0.1.1.1.1.1.1.1.1.1.1.0

==============0个-2018年6月19日

欢迎加入QQ群-->： 979659372

dask-igzip 0.2.0

dask-igzip的Python项目详细描述

推荐PyPI第三方库

structure

Epiphan

pixelpin-auth-flask

reprint

kw-mone

linq3

hesong-utils

g200s

datanomiq-alien

orange-starfrac

sshas

djangodaterangefilter

RegApi

sendgriddjango

bespin

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

dask-igzip 0.2.0

dask-igzip的Python项目详细描述

推荐PyPI第三方库

structure

Epiphan

pixelpin-auth-flask

reprint

kw-mone

linq3

hesong-utils

g200s

datanomiq-alien

orange-starfrac

sshas

djangodaterangefilter

RegApi

sendgriddjango

bespin

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签