加快重复数据消除速度?

2024-04-29 06:07:27 发布

您现在位置:Python中文网/ 问答频道 /正文

如何加快Python重复数据消除的速度

我正在使用本地内存运行。当我比较“多对一”记录时,需要超过20秒。我只是将2条记录与1条记录进行比较。当我将600条记录与1条记录进行比较时,仍然需要大约20秒

print("clustering...")
linked_records = linker.join(data_1, data_2, 0.01, 'many-to-one')

它总是挂在链接的记录行上。是否有一个设置可以使较小的数据集运行更快

在linker.partition中,它声明了以下内容:

此方法仅适用于小到中等大小的数据集。对于较大的数据,您可能需要生成自己的记录对,并将它们提供给~score

你是怎么做到的


Tags: to数据内存data链接记录one速度