将Pyspark数据帧写入S3

2024-04-27 00:28:48 发布

男 | 程序猿一只，喜欢编程写python代码。

您好，我是pyspark的新手，我有一个使用以下方法形成的数据帧：

spark = SparkSession.builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

df = spark.read.option("header",True).csv("input.csv")

我现在想把这个df写到s3，但我已经尝试了所有在线可用的东西，没有任何帮助

我第一次尝试设置这个

spark.sparkContext.hadoopConfiguration.set("fs.s3n.access.key", "my access key")
spark.sparkContext.hadoopConfiguration.set("fs.s3n.secret.key", "my secret key")
spark.sparkContext.hadoopConfiguration.set("fs.s3n.endpoint", "s3.amazonaws.com")

但对于这一点，我得到了一个错误：

AttributeError: 'SparkContext' object has no attribute 'hadoopConfiguration'

我还尝试了以下不同的写作方法：

df.write.option("header","true").csv("s3://mypath")
df.write.parquet("s3://mypath", mode="overwrite")
df.coalesce(1).write.format('csv').mode('overwrite').option("header", "false")\
.save("s3://mypath")

但对于所有这些，我得到了相同的错误：

: java.io.IOException: No FileSystem for scheme: s3

我是新手，我真的不知道该怎么办。有人能帮我吗

Tags： csv key df s3 fs spark write header

1条回答

网友

1楼 · 发布于 2024-04-27 00:28:48

只需将配置更改为：

spark.sparkContext._jsc.hadoopConfiguration().set("fs.s3n.access.key", "my access key")
spark.sparkContext._jsc.hadoopConfiguration().set("fs.s3n.secret.key", "my secret key")
spark.sparkContext._jsc.hadoopConfiguration().set("fs.s3n.endpoint", "s3.amazonaws.com")

将Pyspark数据帧写入S3

相关问题更多 >

编程相关推荐

热门问题

热门文章

将Pyspark数据帧写入S3

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >