仅单向管道(pyplyn)用于python中的数据处理
pyplyn的Python项目详细描述
pyplyn:用于数据处理的单向管道
Pyplyn是麻省理工学院授权的基于流的简单数据处理结构,用于 数据处理重复的任务,不必重复自己的每一个 不同的情况。
它基于python可爱的生成器,因此对于每一个进入管道的数据流 以迭代的方式。它目前被用于一个研究项目来处理 一些重复的日常工作。(移动、过滤、更改数据)
尽管如此,项目中使用的pyplyn模块仍然有些肮脏但有用的东西 progressbar、基于ml的分类过滤器等组件 简单的图书馆,我认为处理我们的 重复性任务。
快速启动
Pyplyn旨在以基于流的方式进行数据处理:
import pyplyn as p pipe = p.Pipe() pipe.add(p.LineReader("hello.txt")) pipe.add(p.LambdaFilter(lambda line: len(line) < 50)) pipe.add(p.LineWriter("small_hello.txt")) pipe.run()
您甚至可以编写自己的pyp模块,如下所示:
import pyplyn as p import pymongo class MongoCollection(p.InPypElement): def __init__(self, db, collection): self.collection = pymongo.MongoClient()[db][collection] def grasp(self): for document in self.collection: yield document
通过以下方式将此新管道元素添加到当前流:
pipe = p.Pipe() pipe.add(MongoCollection("data","raw")) pipe.add(p.LambdaExtension(lambda document: document["text"]) pipe.add(p.LineWriter("data_text.txt"))
文档
很抱歉,目前没有,但我建议您检查来源,它是 现在很直截了当。
贡献
任何贡献都是受欢迎的。