假设我有一个包含1000000个ID的数据集。对于100个分区,如何按范围进行分区呢。我见过Scala中的RangePartitioner类,但在pysparkapi中似乎不可用。在
我有一个非常大的数据集,并且当前正在按唯一的id进行分区,但是这会创建太多的分区。我想知道PySpark中范围划分的最佳实践
df.write.partitionBy('unique_id').mode('overwrite').csv(file://test/)
这将把每个id放在自己的分区中。在
我在PySpark中似乎找不到任何关于范围划分的文档。在
对于pyspark 2.4及更高版本,可以使用^{} :
相关问题 更多 >
编程相关推荐