将具有数千列的数据帧写入HDFS需要很多时间

2024-03-29 10:33:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图在Spark上执行一个SQL查询,该查询生成一个包含大约10000列的表,并希望将其写入HDFS上的一个拼花文件:

trial = spark.sql(sqlQuery)
trial.write.mode('overwrite').option("delimiter", "\100").parquet("path/to/HDFS/trial.parquet)

似乎将表写入HDFS需要很多时间。我能做些什么来提高效率吗?你知道吗


Tags: 文件sqlmodehdfssparkwriteoption拼花