将spark数据框保存为拼花地板时出现问题

2024-06-12 10:22:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试将数据帧保存到路径作为拼花文件。问题是:display()函数在“Prop_0”中显示一组结果,但每当我尝试保存它们时,只有第一个结果被转换并转到路径

我使用的代码是:

dbutils.fs.rm(Path_1, True)
avroFile = spark.read.format('com.databricks.spark.avro').load(Path_1)
avroFile.write.mode("overwrite").save(Path_2, format="parquet") 

Tags: 文件数据path函数rm代码路径format
1条回答
网友
1楼 · 发布于 2024-06-12 10:22:31

这是预期的行为,Spark使用Hadoop文件格式,并且这种文件格式需要对数据进行分区—这就是为什么您有部分文件

我能够毫无问题地运行上述代码

enter image description here

您可以使用以下方法将spark DataFrame保存为拼花文件

enter image description here

相关问题 更多 >