在Spark上运行非Spark的Python代码以利用分布式计算来优化性能
我可以在Spark中使用我现有的原生Python代码(不是pyspark代码)吗?我不想修改我现有的Python代码来让它变成pyspark代码……我只想在Spark中直接运行它(独立模式)?这样做是否可行?我能否通过spark-submit或其他方式来利用Spark的快速处理和分布式特性,运行我的非Spark Python代码?如果有人能提供帮助或步骤来解决这个问题,我将非常感激。
谢谢大家。
附注:我正在一台已经安装了Spark的Linux服务器上尝试使用spark-submit,但无法实现这个目标。
举个例子,abc.py是一个包含非pyspark原生Python代码的脚本。我不能对代码进行修改,但想在Spark中运行这个Python文件,以利用它的分布式计算功能,我可以通过spark-submit或其他方式做到这一点吗?
注意:我无法对现有的Python文件进行任何修改,而且这个Python文件中没有写pyspark的代码。
1 个回答
0
现在如果不使用RDD或者主要使用DataFrame,就不会有并行处理的效果。对于pandas的数据框也是一样。
换句话说,如果不这样做,使用Spark就没有什么意义。当然,你可以在Databricks上运行,这样可以减少使用的平台。