为什么1行数据帧上的collect（）使用2000个执行器？

2条回答

网友

1楼 · 编辑于 2024-05-23 19:33:30

您可以配置执行器的数量。在许多情况下，spark将尽可能多地使用执行器，并且执行时间比限制为少数执行器时要糟糕得多。在

conf = SparkConf()
conf.set('spark.dynamicAllocation.enabled','true')
conf.set('spark.dynamicAllocation.maxExecutors','32')

网友

2楼 · 编辑于 2024-05-23 19:33:30

所以我研究了一下代码试图弄清楚到底发生了什么。似乎sqlContext.createDataFrame确实没有尝试根据数据设置合理的参数值。在

为什么要执行2000个任务？

Spark使用2000个任务，因为我的数据框有2000个分区。（尽管分区比行多似乎是一派胡言。）

具体表现在：

>>> df.rdd.getNumPartitions()
2000

为什么数据帧有2000个分区？

发生这种情况是因为sqlContext.createDataFrame最终使用默认的分区数（在我的例子中是2000），而不管数据是如何组织的或它有多少行。在

代码跟踪如下。在

在sql/context.py中，sqlContext.createDataFrame函数调用（在本例中）：

^{pr2}$

反过来又叫：

return self._sc.parallelize(data), schema

并且sqlContext.parallelize函数在context.py中定义：

numSlices = int(numSlices) if numSlices is not None else self.defaultParallelism

不检查行数，也不可能指定sqlContext.createDataFrame中的片数。在

如何更改数据帧有多少个分区？

使用DataFrame.coalesce。在

>>> smdf = df.coalesce(1)
>>> smdf.rdd.getNumPartitions()
1
>>> smdf.explain()
== Physical Plan ==
Coalesce 1
+- Scan ExistingRDD[a#0L,b#1L]
>>> smdf.collect()
[Row(a=1, b=2)]

相关问题更多 >

编程相关推荐

热门问题

热门文章