auto = sc.textFile("temp/auto_data.csv")
auto = auto.map(lambda x: x.split(","))
header = auto.first()
autoData = auto.filter(lambda a: a!=header)
现在我有了autoData中的数据
[[u'', u'ETZ', u'AS1', u'CUT000021', u'THE TU-WHEEL SPARES', u'DIBRUGARH', u'201505', u'LCK ', u'2WH ', u'KIT', u'KT-2069CZ', u'18', u'8484'], [u'', u'ETZ', u'AS1', u'CUT000021', u'THE TU-WHEEL SPARES', u'DIBRUGARH', u'201505', u'LCK ', u'2WH ', u'KIT', u'KT-2069SZ', u'9', u'5211']]
现在我想对第2个和第12个(最后一个)值执行groupBy()
。怎么做?
groupBy
将生成键的函数作为参数,以便您可以执行以下操作:编辑:
关于任务you've described in the comments。
groupBy
只在组中收集数据,但不聚合数据。使用
groupBy
的版本效率很低,可能如下所示:相关问题 更多 >
编程相关推荐