（PySpark）reduceByKey之后的嵌套列表

2条回答

网友

1楼 · 编辑于 2024-05-13 14:58:03

这里的问题是你的reduce函数。对于每个键，reduceByKey使用成对的值调用reduce函数，并期望它生成相同类型的组合值。

例如，假设我想执行字数运算。首先，我可以将每个单词映射到一个(word, 1)对，然后我可以reduceByKey(lambda x, y: x + y)来总结每个单词的计数。最后，我剩下的是(word, count)对的RDD。

下面是来自PySpark API Documentation的示例：

>>> from operator import add
>>> rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
>>> sorted(rdd.reduceByKey(add).collect())
[('a', 2), ('b', 1)]

为了理解示例为什么不起作用，您可以想象reduce函数被应用如下：

reduce(reduce(reduce(firstValue, secondValue), thirdValue), fourthValue) ...

基于reduce函数，听起来您可能正在尝试实现内置的^{}操作，该操作使用其值列表对每个键进行分组。

另外，请看^{}，这是reduceByKey()的一个泛化，它允许reduce函数的输入和输出类型不同（reduceByKey是implemented，用combineByKey表示）

网友

2楼 · 编辑于 2024-05-13 14:58:03

或者，stream.groupByKey().mapValues(lambda x: list(x)).collect()给出

key1 [value1]
key2 [value2, value3]
key3 [value4, value5, value6]