Spark：使用Python的危险

2条回答

网友

1楼 · 编辑于 2024-05-16 00:46:52

如果说有什么区别的话，这是一个反对使用Python自定义项的论点，而不是一般的PySpark，在较小的程度上，可以针对本机（在JVM上实现）自定义项提出类似的论点。你知道吗

您还应该注意到vectorized UDFs在Spark路线图上，因此：

the real cost is in serializing the data to Python

将来可能不再担心了。你知道吗

But doesn't that also apply to the driver?

没那么多。虽然共享单个节点的资源始终是一个问题（考虑附加服务的同一位置），但UDF的问题非常具体—相同的数据必须同时存储在两个不同的上下文中。你知道吗

例如，如果您选择加入rddapi，JVM主要服务于一个通信层，而且开销要小得多。因此，对于本地Python计算来说，它是更自然的选择，尽管您可能会发现一些更适合的本地Python工具。你知道吗

网友

2楼 · 编辑于 2024-05-16 00:46:52

在驱动程序应用程序中，不必collect大量记录。也许你只是做了一个减少到一些统计数字。你知道吗

这只是典型的行为：司机通常处理统计结果。您的里程数可能会有所不同。你知道吗

另一方面，Spark应用程序通常使用执行器读入内存允许的数据并对其进行处理。因此，内存管理几乎总是一个问题。你知道吗

我想这就是这本书的特点。你知道吗