Python中最佳的mapReduce实现是什么?
有没有什么好的Python实现的MapReduce
,无论是框架还是库,最好能和Apache的hadoop
一样好,但前提是它是用Python写的,并且文档齐全、易于理解,完全支持MapReduce
的模式,具有高扩展性、高稳定性,并且轻量级。
我在网上找到了一个叫mincemeat
的,不太确定它怎么样,还有没有其他比较知名的?
谢谢!
3 个回答
2
你还可以看看这个Mrs: http://code.google.com/p/mrs-mapreduce/
它特别适合那些需要大量计算的重复性程序。
4
2019年的更新:强烈推荐Apache Beam。
===
另一个不错的选择是Dumbo。
下面是用来进行单词计数的map/reduce代码。
def mapper(key,value):
for word in value.split(): yield word,1
def reducer(key,values):
yield key,sum(values)
if __name__ == "__main__":
import dumbo
dumbo.run(mapper,reducer)
要运行这个程序,只需提供你的文本文件wc_input.txt
进行计数,输出结果会保存为wc_output
。
python -m dumbo wordcount.py -hadoop /path/to/hadoop -input wc_input.txt -output wc_output