路易吉的包装纸。这使得定义任务变得容易。
gokart的Python项目详细描述
卡丁车
数据管道库“luigi”的包装器。
开始
运行pip install gokart
安装pypi的最新版本。Documentation对于最新版本,托管在readthedocs上。
如何使用
请使用gokart.taskonkart而不是luigi.task来定义您的任务。
gokart.taskonkart
的基本任务importgokartclassBasicTask(gokart.TaskOnKart):defrequires(self):returnTaskA()defoutput(self):# please use TaskOnKart.make_target to make Target.returnself.make_target('basic_task.csv')defrun(self):# load data which TaskA outputtexts=self.load()# do something with texts, and make results.# save results with the file path {self.workspace_directory}/basic_task_{unique_id}.csvself.dump(results)
基本函数的详细信息
使用taskonkart设定目标
TaskOnKart.make_target
根据传递的路径扩展判断Target
类型。支持以下扩展。
- pkl
- TXT
- CSV
- tsv
- 广州
- json
- XML
为在保存时生成多个文件的模型创建目标。
TaskOnKart.make_model_target
和TaskOnKart.dump
设计用于保存和加载gensim.model.word2vec等模型。
classTrainWord2Vec(TaskOnKart):defoutput(self):# please use 'zip'.returnself.make_model_target('model.zip',save_function=gensim.model.Word2Vec.save,load_function=gensim.model.Word2Vec.load)defrun(self):# make word2vecself.dump(word2vec)
加载输入数据
模式1:单独加载输入数据。
defrequires(self):returndict(data=LoadItemData(),model=LoadModel())defrun(self):# pass a key in the dictionary `self.requires()`data=self.load('data')model=self.load('model')
模式2:立即加载输入数据
defrun(self):input_data=self.load()""" The above line is equivalent to the following: input_data = dict(data=self.load('data'), model=self.load('model')) """
将输入数据加载为PD.数据帧
defrequires(self):returnLoadDataFrame()defrun(self):data=self.load_data_frame(required_columns={'id','name'})
defrun(self):input_data=self.load()""" The above line is equivalent to the following: input_data = dict(data=self.load('data'), model=self.load('model')) """
将输入数据加载为PD.数据帧
defrequires(self):returnLoadDataFrame()defrun(self):data=self.load_data_frame(required_columns={'id','name'})