如何在PySpark中执行groupBy？

[[u'', u'ETZ', u'AS1', u'CUT000021', u'THE TU-WHEEL SPARES', u'DIBRUGARH', u'201505', u'LCK ', u'2WH ', u'KIT', u'KT-2069CZ', u'18', u'8484'], [u'', u'ETZ', u'AS1', u'CUT000021', u'THE TU-WHEEL SPARES', u'DIBRUGARH', u'201505', u'LCK ', u'2WH ', u'KIT', u'KT-2069SZ', u'9', u'5211']]

1条回答

网友

1楼 · 发布于 2024-05-13 19:59:16

groupBy将生成键的函数作为参数，以便您可以执行以下操作：

autoData.groupBy(lambda row: (row[2], row[12]))

编辑：

关于任务you've described in the comments。groupBy只在组中收集数据，但不聚合数据。

from operator import add

def int_or_zero(s):
    try:
        return int(s)
    except ValueError:
        return 0

autoData.map(lambda row: (row[2], int_or_zero(row[12]))).reduceByKey(add)

使用groupBy的版本效率很低，可能如下所示：

(autoData.map(lambda row: (row[2], int_or_zero(row[12])))
     .groupByKey()
     .mapValues(sum))

编程相关推荐

java如何从ImageIO中排除特定的TIFF读取器？
JavaJMockit和passbyreference。我们中一定有一个人错了（可能是我！）
java Android camera2放弃了牛轧糖的表面，但在棉花糖上工作
java按字符串中出现的顺序对字符数组进行排序
如何获取Groovy生成的java源代码
java无法使用AutoIT和Selenium Webdriver在所需位置/文件夹保存图像
java为什么我的冒泡排序代码会打印出这些奇怪的东西？
java JAXB:typesafeEnumMemberName=“generateName”是否可自定义？
Java编程输入：今天是星期天输出：星期天是今天
java不理解首个OOAD书的吉他示例

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在PySpark中执行groupBy？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >