使用链接多个MapReduce作业肉馅.py

2024-06-08 20:57:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用Map-Reduce框架设计一个大型程序,它需要将整个过程分成三个Map Reduce作业,这些作业应该按顺序进行。在

我使用mincemeat.py是因为我在很多地方读到它比十月.py以及python中的其他框架实现。在

但我无法将多个作业链接起来,因为每个客户机都需要提供一个密码并连接到服务器以执行。我的想法是,通过启动客户端,所有作业都应该按顺序运行。我是python的新手。感谢有人能在这方面帮助我。在

下面是启动作业的代码,例如这里的wordCount。。在

s = mincemeat.Server()
s.datasource = datasource
s.mapfn = map_wordCount
s.reducefn = reduce_wordCount
wordCounts = s.run_server(password="password")
print wordCounts

我希望调用另一个作业的map和reduce函数,而不需要单独的客户端调用它。任何人都知道如何做到这一点。在

谢谢。在


Tags: py框架客户端mapreduce顺序作业password
1条回答
网友
1楼 · 发布于 2024-06-08 20:57:44

你能不能不把map用于一个Pool的worker,它们将启动一批任务,其目标是启动另一个Pool个运行map-reduce作业的工人?我从来没听说过mincemeat.py,但我是用pathos框架来实现的,它为Pool提供了一个分块{}、迭代{}、异步{}(以及pipes),用于后端,例如multiprocessingthreadingmpi4pyparallel python(基于套接字的分布式并行计算)和ssh隧道。在

无论您选择什么后端或后端,这都会带来开销,所以对于非常小的任务,您会看到相当一部分时间是开销,但是对于任何更大的任务,嵌套分布式并行计算是一种胜利。在

您可以在这里找到pathos(和pyinampi4py部分:https://github.com/uqfoundation

相关问题 更多 >