擅长:python、mysql、java
<p>我没有使用<code>mrjob</code>,但是我以前在AWS集群上使用MapReduce来查找top值。这是我的代码,它不使用<code>heapq</code>。希望您能够将相同的概念应用到您的代码中。这是mapper函数</p>
<pre><code>import sys, time
def Parser():
for line in sys.stdin:
line = line.strip('\n')
yield line.split()
def mapper():
counts = list(Parser())
z = sorted(counts, key = lambda x: int(x[1]))[-10:]
print '\n'.join(map(lambda x: '\t'.join(x), z))
if __name__=='__main__':
mapper()
</code></pre>
<p>这是减速器的代码</p>
^{pr2}$
<p>我把它改为输出前10个单词。请记住,这是一个字数统计示例,我在其中解析了一个文本文档。我希望这在某种程度上有所帮助!在</p>