Python中文
首页
教程
问答
标签
搜索
登录
注册
Spark:使用Python的危险
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>在《Spark:the definitive guide》(目前为早期版本,文本可能会发生变化)一书中,作者建议不要将Pyspark用于Spark中的用户定义函数:</p> <p>“启动这个Python进程的成本很高,但真正的成本是将数据序列化到Python中。这代价高昂有两个原因,一个是计算代价高昂,另一个是一旦数据进入Python,Spark就无法管理worker的内存。这意味着,如果工作进程变得资源受限,您可能会导致它失败(因为JVM和python都在同一台机器上争夺内存)</p> <p>我知道Python和JVM之间对工作节点资源的竞争可能是一个严重的问题。但这不也适用于司机吗?在这种情况下,这将是一个反对使用Pyspark的理由。谁能解释一下司机的情况有什么不同吗?你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>在驱动程序应用程序中,不必<code>collect</code>大量记录。也许你只是做了一个减少到一些统计数字。你知道吗</p> <p>这只是典型的行为:司机通常处理统计结果。您的里程数可能会有所不同。你知道吗</p> <p>另一方面,Spark应用程序通常使用执行器读入内存允许的数据并对其进行处理。因此,内存管理几乎总是一个问题。你知道吗</p> <p>我想这就是这本书的特点。你知道吗</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
Django:。是不是“超级用户”字段不起作用
8 回答
Django:'DeleteQuery'对象没有属性'add'
1 回答
Django:'ModelForm'对象没有属性
2 回答
Django:'python manage.py runserver'返回'TypeError:'WindowsPath'类型的对象没有len()
6 回答
Django:'Python管理.pysyncdb'不创建我的架构表
10 回答
Django:'Python管理.py迁移“耗时数小时(和其他奇怪的行为)
3 回答
Django:'readonly'属性在我的ModelForm上不起作用
6 回答
Django:'RegisterEmployeeView'对象没有属性'object'
10 回答
Django:'str'对象没有属性'get'
5 回答
Django:'创建' 不能被指定为Order模型表单中的值,因为它是一个不可编辑的字段
10 回答
Django:“'QuerySet'类型的对象不是JSON可序列化的”
3 回答
Django:“'utf8'编解码器无法解码位置19983中的字节0xe9:无效的连续字节”,加载临时文件时
2 回答
Django:“<…>”需要有一个字段“id”的值,然后才能使用这个manytomy关系
7 回答
Django:“AnonymousUser”对象没有“get_full_name”属性
2 回答
Django:“ascii”编解码器无法解码位置1035中的字节0xc3:序号不在范围内(128)
9 回答
Django:“BaseTable”对象不支持索引
8 回答
Django:“collections.OrderedDict”对象不可调用
8 回答
Django:“Country”对象没有属性“all”
4 回答
Django:“Data”对象没有属性“save”
7 回答
Django:“datetime”类型的对象不是JSON serializab
6 回答