我试图用Map-Reduce框架设计一个大型程序,它需要将整个过程分成三个Map Reduce作业,这些作业应该按顺序进行。在
我使用mincemeat.py是因为我在很多地方读到它比十月.py以及python中的其他框架实现。在
但我无法将多个作业链接起来,因为每个客户机都需要提供一个密码并连接到服务器以执行。我的想法是,通过启动客户端,所有作业都应该按顺序运行。我是python的新手。感谢有人能在这方面帮助我。在
下面是启动作业的代码,例如这里的wordCount。。在
s = mincemeat.Server()
s.datasource = datasource
s.mapfn = map_wordCount
s.reducefn = reduce_wordCount
wordCounts = s.run_server(password="password")
print wordCounts
我希望调用另一个作业的map和reduce函数,而不需要单独的客户端调用它。任何人都知道如何做到这一点。在
谢谢。在
你能不能不把}、迭代{}、异步{}(以及
map
用于一个Pool
的worker,它们将启动一批任务,其目标是启动另一个Pool
个运行map
-reduce作业的工人?我从来没听说过mincemeat.py
,但我是用pathos
框架来实现的,它为Pool
提供了一个分块{pipes
),用于后端,例如multiprocessing
、threading
、mpi4py
、parallel python
(基于套接字的分布式并行计算)和ssh隧道。在无论您选择什么后端或后端,这都会带来开销,所以对于非常小的任务,您会看到相当一部分时间是开销,但是对于任何更大的任务,嵌套分布式并行计算是一种胜利。在
您可以在这里找到
pathos
(和pyina
的mpi4py
部分:https://github.com/uqfoundation相关问题 更多 >
编程相关推荐