如何从Jupyter Pyspark笔记本访问MinIO存储桶？

网友

1楼 · 编辑于 2024-05-14 14:16:12

请遵循以下步骤：

在笔记本内，配置“hadoop配置”

sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", "access_key")
sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "secret_key")
sc._jsc.hadoopConfiguration().set("fs.s3a.proxy.host", "minio")
sc._jsc.hadoopConfiguration().set("fs.s3a.endpoint", "minio")
sc._jsc.hadoopConfiguration().set("fs.s3a.proxy.port", "9000")
sc._jsc.hadoopConfiguration().set("fs.s3a.path.style.access", "true")
sc._jsc.hadoopConfiguration().set("fs.s3a.connection.ssl.enabled", "false")
sc._jsc.hadoopConfiguration().set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")

请检查s3a client configuration以查看完整的参数列表

现在应该能够从minio查询数据，例如：

sc.textFile("s3a://<file path>")

网友

2楼 · 编辑于 2024-05-14 14:16:12

请参阅此处的注释：https://github.com/jupyter/docker-stacks/issues/272#issuecomment-244278586

具体来说：

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = ' packages com.amazonaws:aws-java-sdk:1.10.34,org.apache.hadoop:hadoop-aws:2.6.0,com.databricks:spark-csv_2.11:1.4.0 pyspark-shell'

这有助于消除类未找到错误

网友

3楼 · 编辑于 2024-05-14 14:16:12

你能展示一下你是如何安装和初始化Spark的吗？看起来您必须下载org.apache.hadoop.fs.s3a.S3AFileSystem的Java库。你能确定你已经安装了hadoop-aws和{}jar吗？我使用http://central.maven.org/maven2/org/apache/hadoop/hadoop-aws/2.7.3/hadoop-aws-2.7.3.jar和{a2}。在

相关aws JAR

在笔记本内，配置“hadoop配置”

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从Jupyter Pyspark笔记本访问MinIO存储桶？

相关aws JAR

在笔记本内，配置“hadoop配置”

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >