如何使用pysp计算出现次数

3条回答

网友

1楼 · 编辑于 2024-04-25 10:29:59

我将使用Counter：

>>> from collections import Counter
>>>
>>> data.values().map(Counter).reduce(lambda x, y: x + y)
Counter({'a': 3, 'b': 1, 'c': 1, 'd': 2})

网友

2楼 · 编辑于 2024-04-25 10:29:59

因为rdd是不可变的，所以不会更新。只需运行所需的计算，然后直接保存到所需的任何变量：

In [17]: data.flatMap(lambda x: x[1]).map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y).collect()
Out[17]: [('b', 1), ('c', 1), ('d', 2), ('a', 3)]

网友

3楼 · 编辑于 2024-04-25 10:29:59

RDD是不可变的，因此无法更新。相反，根据数据计算计数如下：

count = (rdd
         .flatMap(lambda (k, data): data)
         .map(lambda w: (w,1))
         .reduceByKey(lambda a, b: a+b))

然后，如果结果可以放入主内存，请随意使用count中的.collect（）。

编程相关推荐

在Java中设置SMPP服务器
java如何使用Apache Santuario xmlsec库加密/解密（旧版本）
java如何使用double数组生成forloop？
java如何使用SwingWorker避免冻结GUI
java我面临一个问题，即在recycler视图中设置数据，我已经测试过数据来自API
java如何在php中显示http_post？
从php页面中的java DataOutputStream接收输出
java如何使用swing打印jframe？
处理json和表单参数的JavaSpringMVC方法
java在一个大的二维数组中存储布尔值

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用pysp计算出现次数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >