Python karld包_程序模块 - PyPI

以节省内存的方式处理一些数据

karld的Python项目详细描述

如何数据

拆分数据。
创建一个将数据作为迭代器的生成器，生成键和值对。
按键对每个键/值对列表进行排序。
使用heap按键合并键/值对列表。
按键对键/值对分组。
将每个键分组的值减少到一个值，从而产生一个键/值对。

您可以使用密钥函数代替密钥，只要它生成在映射排序合并组阶段中使用相同的键。

分割数据

使用分割文件分割数据文件或使用分割csv文件分割可能有多行字段以确保它们不被拆分的csv文件。：

import os

import karld

big_file_names = [
    "bigfile1.csv",
    "bigfile2.csv",
    "bigfile3.csv"
]

data_path = os.path.join('path','to','data', 'root')


def main():
    for filename in big_file_names:
        # Name the directory to write the split files into based
        # on the name of the file.
        out_dir = os.path.join(data_path, 'split_data', filename.replace('.csv', ''))

        # Split the file, with a default max_lines=200000 per shard of the file.
        karld.io.split_csv_file(os.path.join(data_path, filename), out_dir)


if __name__ == "__main__":
    main()

当您生成数据并希望根据数量将其分片到文件时，请使用拆分输出函数之一，如split_file_output_csv、split_file_output或 split_file_output_json：

import os
import pathlib

import karld


def main():
    """
    Python 2 version
    """

    items = (str(x) + os.linesep for x in range(2000))

    out_dir = pathlib.Path('shgen')
    karld.io.ensure_dir(str(out_dir))

    karld.io.split_file_output('big_data', items, str(out_dir))


if __name__ == "__main__":
    main()

CSV可序列化数据：

import pathlib

import karld


def main():
    """
    From a source of data, shard it to csv files.
    """
    if karld.is_py3():
        third = chr
    else:
        third = unichr

    # Your data source
    items = ((x, x + 1, third(x + 10)) for x in range(2000))

    out_dir = pathlib.Path('shard_out_csv')

    karld.io.ensure_dir(str(out_dir))

    karld.io.split_file_output_csv('big_data.csv', items, str(out_dir))


if __name__ == "__main__":
    main()

JSON可序列化数据行：

import pathlib

import karld


def main():
    """
    From a source of data, shard it to csv files.
    """
    if karld.is_py3():
        third = chr
    else:
        third = unichr

    # Your data source
    items = ((x, x + 1, third(x + 10)) for x in range(2000))

    out_dir = pathlib.Path('shard_out_json')

    karld.io.ensure_dir(str(out_dir))

    karld.io.split_file_output_json('big_data.json', items, str(out_dir))


if __name__ == "__main__":
    main()

文档

阅读文档：http://karld.readthedocs.org/en/latest/

已在http://karld.readthedocs.org/en/latest/getting-started.html展开“入门”。

更多的例子记录在http://karld.readthedocs.org/en/latest/source/example.html。查看示例文件的源，例如…

贡献：

在这里提交任何问题：https://github.com/johnwlockwood/karl_data/issues。

向development的分支发出pull请求: https://github.com/johnwlockwood/karl_data.
documentation是用structuredtext编写的，当前使用: 狮身人面像风格列表http://sphinx-doc.org/domains.html#info-field-lists

查看关闭的pull请求，查看开发流程对master的每个更改都是通过github上的pull请求完成的。代码评审是受欢迎的，即使是合并的请求。请随意提问密码。

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
johnwlockwoodiv
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
如何实现一个类，该类在每次更改其属性时更改其“last_edited”变量？
如何实现一个类？
如何实现一个类的属性设置？
如何实现一个能够存储输入并反复访问输入的存储系统？GPA计算器
如何实现一个自定义的keras层，它只保留前n个值，其余的都归零？
如何实现一个行为类似于Python中序列的最小类？
如何实现一个请求的多线程或多处理
如何实现一个长时间运行的、事件驱动的python程序？
如何实现一个颜色一致的非舔深度地图实时？
如何实现一个默认的SQLAlchemy模型类，它包含用于继承的公共CRUD方法？
如何实现一次热编码的生成函数
如何实现一种在数组中删除对的方法
如何实现一类支持向量机用于图像异常检测
如何实现一维阵列到二维阵列的复制转换
如何实现三维三次样条插值？

karld 0.3.1

karld的Python项目详细描述

如何数据

分割数据

文档

贡献：

推荐PyPI第三方库

VisiLibit

Bitcore

lando

mmbot

avwx

sickragetv

tc-as-a-service

ifilters

azuremgmtstorage

cassandra-migrator

jpxtime3

helga-trade

robotframework-wiremock

GarNet

ply2atti

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

karld 0.3.1

karld的Python项目详细描述

如何数据

分割数据

文档

贡献：

推荐PyPI第三方库

VisiLibit

Bitcore

lando

mmbot

avwx

sickragetv

tc-as-a-service

ifilters

azuremgmtstorage

cassandra-migrator

jpxtime3

helga-trade

robotframework-wiremock

GarNet

ply2atti

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签