如何在spark scala中使用自定义delimeter（ctrl-a delimited）文件编写dataframe/RDD？

val grouped = results.groupBy("club_data","student_id_add","student_id").agg(sum(results("amount").cast(IntegerType)).as("amount"),count("amount").as("cnt")).filter((length(trim($"student_id")) > 1) && ($"student_id").isNotNull)

3条回答

网友

1楼 · 编辑于 2024-06-16 10:14:30

df.rdd.map(x=>x.mkString("^A")).saveAsTextFile("file:/home/iot/data/stackOver")

网友

2楼 · 编辑于 2024-06-16 10:14:30

如果您有一个数据帧，您可以使用Spark CSV作为CSV写入，分隔符如下。

df.write.mode(SaveMode.Overwrite).option("delimiter", "\u0001").csv("outputCSV")

使用旧版本的Spark

df.write
    .format("com.databricks.spark.csv")
    .option("delimiter", "\u0001")
    .mode(SaveMode.Overwrite)
    .save("outputCSV")

你可以读如下

spark.read.option("delimiter", "\u0001").csv("outputCSV").show()

如果有RDD，则可以对RDD使用mkString()函数，并使用saveAsTextFile()保存

rdd.map(r => r.mkString(\u0001")).saveAsTextFile("outputCSV")

希望这有帮助！

网友

3楼 · 编辑于 2024-06-16 10:14:30

保存前将行转换为文本：

grouped.select($"club_data", $"student_id_add", $"amount",$"cnt").map(row => row.mkString(\u0001")).saveAsTextFile("/amit/spark/output4/")

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在spark scala中使用自定义delimeter（ctrl-a delimited）文件编写dataframe/RDD？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >