Spark高效groupby操作重新划分？

2条回答

网友

1楼 · 编辑于 2024-04-23 23:00:00

它可能不是您所要寻找的答案，但此操作的最佳代码正是

output = df.groupby(['ID']). \
 agg(F.min('eventDate').alias("firstDate"), F.max('eventDate').alias("lastDate"))
output.write.parquet('hdfs:///somewhere/dateFile.parquet', mode='overwrite')

Spark只需首先选择整个操作所需的色谱柱，从而优化工艺。然后，Spark按ID对数据进行分区，并在每个分区上启动聚合过程。在

允许最大数量的执行器肯定会有帮助。我建议（根据您的描述）设置spark.executor.instances=10; spark.executor.memory=10g。12m值是一个相当大的数量，也许可以尝试增加shuffle分区的数量，例如spark.sql.shuffle.partitions=400，这样你就不会得到一些恼人的内存开销异常。在

网友

2楼 · 编辑于 2024-04-23 23:00:00

@飞肉丸子

在进行聚合之前，请执行以下步骤

1-丢弃不需要的数据（它会吃掉你的资源）。在

2-根据数据重新分区和缓存数据（这将消除执行时间）

提示：如果数据来自Cassandra，则按分区键重新分区数据，以避免数据混乱

现在您可以使用聚合逻辑；）

谢谢，
维姆莱什

相关问题更多 >

编程相关推荐

热门问题

热门文章

Spark高效groupby操作重新划分？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >