如何将pyspark数据帧写入HDFS,然后将其读回数据帧?

2024-04-26 21:42:25 发布

您现在位置:Python中文网/ 问答频道 /正文


Tags: python
1条回答
网友
1楼 · 发布于 2024-04-26 21:42:25
  • 将数据帧写入HDFS(Spark 1.6)。

    df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
    

一些格式选项是csvparquetjson

  • 从HDFS读取数据帧(Spark 1.6)。

    from pyspark.sql import SQLContext
    sqlContext = SQLContext(sc)
    sqlContext.read.format('parquet').load('/path/to/file') 
    

format方法接受诸如parquetcsvjson等参数

相关问题 更多 >