安装PySpark

10 投票
2 回答
18630 浏览
提问于 2025-04-18 17:41

我正在尝试安装PySpark,并按照这个说明进行操作。我在安装了Spark的集群节点上,从命令行运行以下命令:

$ sbt/sbt assembly

结果出现了以下错误:

-bash: sbt/sbt: No such file or directory

然后我尝试了下一个命令:

$ ./bin/pyspark

结果又出现了这个错误:

-bash: ./bin/pyspark: No such file or directory

我感觉我好像漏掉了什么基本的东西。到底缺少了什么呢?我已经安装了Spark,并且可以通过以下命令访问它:

$ spark-shell

我在这个节点上有Python,并且可以通过以下命令打开Python:

$ python

2 个回答

2

SBT是用来构建Scala项目的工具。如果你刚接触Scala、SBT或者Spark,那你可能在走一些比较复杂的路。

其实“安装”Spark最简单的方法就是直接下载Spark(我个人推荐Spark 1.6.1)。下载后,把文件解压到你想要安装Spark的文件夹里,比如说C:/spark-folder(在Windows上)或者/home/usr/local/spark-folder(在Ubuntu上)。

解压完后,你需要设置一下环境变量。这个步骤根据你使用的操作系统不同而有所不同,不过其实并不是运行Spark(比如pyspark)所必需的。

如果你不想设置环境变量,或者不知道怎么设置,另一种简单的方法就是打开一个终端窗口,进入到你刚才解压的文件夹,输入cd C:/spark-folder(在Windows上)或者cd /home/usr/local/spark-folder(在Ubuntu上),然后输入

./bin/pyspark

这样Spark就可以运行了。

8

你现在的工作目录是什么?sbt/sbt./bin/pyspark 这些命令是相对于包含Spark代码的目录(也就是$SPARK_HOME)来说的,所以在运行这些命令的时候,你应该在那个目录下。

值得注意的是,Spark提供了预编译的二进制版本,这些版本与许多常见的Hadoop版本兼容;如果你使用的是这些版本,这可能是一个更简单的选择。

另外,看起来你链接的是Spark 0.9.0的文档;如果你是从头开始构建Spark,我建议你参考最新版本的文档

撰写回答