我想从S3存储桶中读取大量csv文件。CSV文件位于不同的分区中。我正在使用Boto3列出csv的所有路径。然后使用for循环在列表上迭代,将csv文件读入spark dataframe。我需要一种更好的优化方法来从S3路径读取大量文件,因为循环是一种线性方法,需要花费很多时间才能完成。 列出所有对象:
self.all_objects = [file_path['Key'] for resp_content in self.s3.get_paginator("list_objects_v2").paginate(Bucket='bucketName') for file_path in resp_content['Contents']]
读取循环中的每个CSV文件:
csv_df = self.spark.read.format("csv").option("header", "true").load(s3_path)
此外,我想合并所有的数据框一起创建一个拼花地板文件
提前感谢如果有人有一个很好的解决方案,请建议
读取包含多个文件夹的csv文件(Spark+Scala):
相关问题 更多 >
编程相关推荐