在Spark上运行非Spark的Python代码以利用分布式计算来优化性能

-2 投票

1 回答

72 浏览

提问于 2025-04-14 16:59

我可以在Spark中使用我现有的原生Python代码（不是pyspark代码）吗？我不想修改我现有的Python代码来让它变成pyspark代码……我只想在Spark中直接运行它（独立模式）？这样做是否可行？我能否通过spark-submit或其他方式来利用Spark的快速处理和分布式特性，运行我的非Spark Python代码？如果有人能提供帮助或步骤来解决这个问题，我将非常感激。

谢谢大家。

附注：我正在一台已经安装了Spark的Linux服务器上尝试使用spark-submit，但无法实现这个目标。

举个例子，abc.py是一个包含非pyspark原生Python代码的脚本。我不能对代码进行修改，但想在Spark中运行这个Python文件，以利用它的分布式计算功能，我可以通过spark-submit或其他方式做到这一点吗？

注意：我无法对现有的Python文件进行任何修改，而且这个Python文件中没有写pyspark的代码。

性能优化数据处理 linux服务器 spark 分布式计算原生代码 spark-submit 非pyspark代码

1 个回答

现在如果不使用RDD或者主要使用DataFrame，就不会有并行处理的效果。对于pandas的数据框也是一样。

换句话说，如果不这样做，使用Spark就没有什么意义。当然，你可以在Databricks上运行，这样可以减少使用的平台。

回答于 2025-04-14 由 Python大师

分享举报

在Spark上运行非Spark的Python代码以利用分布式计算来优化性能

1 个回答

撰写回答