Pysp中的范围划分

2024-04-25 17:55:46 发布

男 | 程序猿一只，喜欢编程写python代码。

假设我有一个包含1000000个ID的数据集。对于100个分区，如何按范围进行分区呢。我见过Scala中的RangePartitioner类，但在pysparkapi中似乎不可用。在

我有一个非常大的数据集，并且当前正在按唯一的id进行分区，但是这会创建太多的分区。我想知道PySpark中范围划分的最佳实践

df.write.partitionBy('unique_id').mode('overwrite').csv(file://test/)

这将把每个id放在自己的分区中。在

我在PySpark中似乎找不到任何关于范围划分的文档。在

Tags： csv 数据 id df mode pyspark write unique

1条回答

网友

1楼 · 发布于 2024-04-25 17:55:46

对于pyspark 2.4及更高版本，可以使用^{}：

df.repartitionByRange(100, 'unique_id').write.mode('overwrite').csv('file:://test/')