Python中文
首页
教程
问答
标签
搜索
登录
注册
为什么1行数据帧上的collect()使用2000个执行器?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>这是我能想到的最简单的数据帧。我使用的是PySpark 1.6.1。在</p> <pre><code># one row of data rows = [ (1, 2) ] cols = [ "a", "b" ] df = sqlContext.createDataFrame(rows, cols) </code></pre> <p>所以这个数据框完全可以放在内存中,没有任何文件的引用,在我看来非常微不足道。在</p> <p>但当我收集数据时,它使用了2000个执行器:</p> ^{pr2}$ <p>在收集期间,使用2000个执行器:</p> <pre><code>[Stage 2:===================================================>(1985 + 15) / 2000] </code></pre> <p>然后是预期输出:</p> <pre><code>[Row(a=1, b=2)] </code></pre> <p>为什么会这样?数据帧不应该完全存储在驱动程序的内存中吗?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可以配置执行器的数量。在许多情况下,spark将尽可能多地使用执行器,并且执行时间比限制为少数执行器时要糟糕得多。在</p> <pre><code>conf = SparkConf() conf.set('spark.dynamicAllocation.enabled','true') conf.set('spark.dynamicAllocation.maxExecutors','32') </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
plt.savefig不会覆盖现有文件
1 回答
plt.savefig不保存图像
6 回答
plt.savefig在jupyter笔记本中不起作用
9 回答
plt.savefig在从另一个fi调用时停止工作
6 回答
plt.savefig在调用plt.show之前保存空数字
1 回答
plt.save不创建png文件
8 回答
plt.scatter overlay分类数据帧列
4 回答
Plt.Scatter:如何添加title、xlabel和ylab
4 回答
plt.scatter()绘图与Matplotlib中的plt.plot()绘图类似
8 回答
plt.scatter错误'NoneType'对象在成功运行后没有属性'sqrt'
8 回答
plt.set_title()中的标题字符串有误
8 回答
plt.show()
2 回答
plt.show()不在Jupyter笔记本上渲染任何内容
8 回答
plt.show()不打印plt.plot only plt.scatter
4 回答
plt.show()不显示三维散射图像
3 回答
plt.show()不显示任何内容
8 回答
plt.show()不显示数据,而是保留它供下一个图表使用(spyder)
5 回答
plt.show()使终端挂起
4 回答
plt.show()无法使用此代码
7 回答
plt.show()没有打开新的图形风
8 回答