Pyspark: 将所有压缩的csv合并成一个csv（用Python）

schema=StructType([]) result = spark.createDataFrame(sc.emptyRDD(), schema) for day in range(1,31): day_str = str(day) if day>=10 else "0"+str(day) print 'Ingesting %s' % day_str df = spark.read.format("csv").option("header", "false").option("delimiter", "|").option("inferSchema", "true").load("s3a://key/201811%s" % (day_str)) result = result.unionAll(df) result.write.save("s3a://key/my_result.csv", format='csv')

1条回答

网友

1楼 · 发布于 2024-04-23 21:28:15

这对我有用：

result=spark.createDataFrame(sc.emptyRDD(), schema_mw)

for day in range(1,31):
    day_str = str(day) if day>=10 else "0"+str(day)
    print 'Ingesting %s' % day_str

    df = spark.read.format("csv").option("header", "false").option("delimiter", ",").schema(schema_mw).load("s3a://bucket/201811%s" % (day_str))

    if result:
        result = result.union(df)
    else:
        result = df
result.repartition(1).write.save("s3a://bucket/key-Compiled", format='csv', header=False)

但是，当我在重新分区的最后一步中尝试将header加载为true时，这种方法是有效的，header存储为一行。我不知道如何添加这些标题作为标题，而不是作为一行。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章