PySpark任务大小

2024-06-11 16:58:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前在2.4.5版上有一个由1个驱动程序和2个工作程序组成的Spark群集

我想进一步优化并行性,以便在加载和处理数据时获得更好的吞吐量,在这样做时,我经常在控制台上收到以下消息:

WARN scheduler.TaskSetManager: Stage contains a task of very large size (728 KB). The maximum recommended task size is 100 KB.

这是怎么回事?我对Spark技术相当陌生,但了解它的基础知识,我想知道如何对此进行优化,但我不确定它是否涉及配置从机以拥有更多执行器,并以这种方式获得更多并行性,或者是否需要使用合并或重分片函数对数据帧进行分区

提前谢谢你们


Tags: 数据程序消息tasksizekb驱动程序stage
1条回答
网友
1楼 · 发布于 2024-06-11 16:58:00

这里的要点是,您需要重新分区以获得更多但更小的分区,从而获得更多的并行性和更高的吞吐量。728k是与舞台相关的任意数字。当我刚开始使用Scala和Spark时,我有时也会这样

我看不到你的代码,所以我把它留在这里。但谷歌在这里搜索也表明缺乏并行性。老实说,这是众所周知的

相关问题 更多 >