我在Spark很新,我一直试图在Spark中将一个数据帧转换成一个拼花文件,但还没有成功。documentation表示我可以使用write.parquet函数来创建文件。但是,当我运行脚本时,它显示:AttributeError:'RDD'对象没有属性'write'
from pyspark import SparkContext
sc = SparkContext("local", "Protob Conversion to Parquet ")
# spark is an existing SparkSession
df = sc.textFile("/temp/proto_temp.csv")
# Displays the content of the DataFrame to stdout
df.write.parquet("/output/proto.parquet")
你知道怎么做吗?
我使用的spark版本是为Hadoop 2.7.3构建的spark2.0.1。
这个错误是由于
SparkContext
中的textFile
方法返回了RDD
,而我需要的是DataFrame
。SparkSession在引擎盖下有一个
SQLContext
。因此,在将CSV文件转换为拼花文件之前,我需要使用DataFrameReader
来正确地读取它。相关问题 更多 >
编程相关推荐