Python pysp

2024-04-19 01:29:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Pyspark创建一个数据帧,但是从一开始就遇到了一个错误。在

我使用以下代码使用examples文件夹中的数据创建dataframe:

df = spark.read.load(`c:/spark/examples/src/main/resources/users.parquet`)

这将生成以下广泛的错误消息:

^{pr2}$

我想原因可能是这条线:

java.net.URISyntaxException: Relative path in absolute URI: file:c:/Spark/bin/spark-warehouse

我不确定如何解决这个问题,所以非常感谢您的帮助


Tags: 数据代码src文件夹dataframedfreadmain
1条回答
网友
1楼 · 发布于 2024-04-19 01:29:09

这是Spark安装的问题。我是本地安装的。我创建了rdd,一切都很顺利,直到我想从rdd创建一个Spark数据帧。。。大错误。在

问题在于预构建的Spark版本:Spark-2.0.0-bin-hadoop2.7

我删除了spark-2.0.0-bin-hadoop2.7并下载并安装了spark-1.6.2-bin-hadoop2.6 使用pip安装py4j,而不是解压缩并使用预构建的Spark附带的版本

我现在可以创建数据帧了

我认为结果有两个方面: 1如果在Windows7上安装并希望使用spark DataFrames,请使用spark-1.6.2-bin-hadoop2.6 2SparkSession不可用–只有Spark 2推出,必须使用SQLContext…哦,好吧!在

问候

相关问题 更多 >