Pysp中的范围划分

2024-04-25 17:55:46 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有一个包含1000000个ID的数据集。对于100个分区,如何按范围进行分区呢。我见过Scala中的RangePartitioner类,但在pysparkapi中似乎不可用。在

我有一个非常大的数据集,并且当前正在按唯一的id进行分区,但是这会创建太多的分区。我想知道PySpark中范围划分的最佳实践

df.write.partitionBy('unique_id').mode('overwrite').csv(file://test/)

这将把每个id放在自己的分区中。在

我在PySpark中似乎找不到任何关于范围划分的文档。在


Tags: csv数据iddfmodepysparkwriteunique