我正在使用Pyspark创建一个数据帧,但是从一开始就遇到了一个错误。在
我使用以下代码使用examples文件夹中的数据创建dataframe:
df = spark.read.load(`c:/spark/examples/src/main/resources/users.parquet`)
这将生成以下广泛的错误消息:
^{pr2}$我想原因可能是这条线:
java.net.URISyntaxException: Relative path in absolute URI: file:c:/Spark/bin/spark-warehouse
我不确定如何解决这个问题,所以非常感谢您的帮助
这是Spark安装的问题。我是本地安装的。我创建了rdd,一切都很顺利,直到我想从rdd创建一个Spark数据帧。。。大错误。在
问题在于预构建的Spark版本:Spark-2.0.0-bin-hadoop2.7
我删除了spark-2.0.0-bin-hadoop2.7并下载并安装了spark-1.6.2-bin-hadoop2.6 使用pip安装py4j,而不是解压缩并使用预构建的Spark附带的版本
我现在可以创建数据帧了
我认为结果有两个方面: 1如果在Windows7上安装并希望使用spark DataFrames,请使用spark-1.6.2-bin-hadoop2.6 2SparkSession不可用–只有Spark 2推出,必须使用SQLContext…哦,好吧!在
问候
相关问题 更多 >
编程相关推荐