Python多处理工具vs Py(Spark)

2024-04-24 23:20:53 发布

您现在位置:Python中文网/ 问答频道 /正文

一个新手的问题,因为我越来越困惑于pyspark。我想扩展现有的python数据预处理和数据分析管道。我意识到如果我用pyspark分区数据,我就不能再把每个分区当作一个独立的pandas数据帧,需要学习如何使用pyspark.sql行/列函数,改变了很多现有的代码,再加上我注定要火花mllib库,不能充分利用更成熟的scikit学习包。那么,如果我可以使用多处理工具进行集群计算并在现有数据帧上并行化任务,为什么还要使用Spark呢?在


Tags: 工具数据函数代码pandassql管道scikit
1条回答
网友
1楼 · 发布于 2024-04-24 23:20:53

是的,Spark确实有您提到的限制,即您在Spark函数世界(Spark mllib、dataframes等)中受到限制。然而,与其他多处理工具/库相比,它提供的是并行任务的自动分发、分区和重新缩放。缩放和调度spark代码比编写自定义多处理代码来响应更大的数据量和计算量更容易。在

相关问题 更多 >