加快重复数据消除速度？ - 问答 - Python中文网

加快重复数据消除速度？

2024-05-15 12:27:35 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

如何加快Python重复数据消除的速度

我正在使用本地内存运行。当我比较“多对一”记录时，需要超过20秒。我只是将2条记录与1条记录进行比较。当我将600条记录与1条记录进行比较时，仍然需要大约20秒

print("clustering...")
linked_records = linker.join(data_1, data_2, 0.01, 'many-to-one')

它总是挂在链接的记录行上。是否有一个设置可以使较小的数据集运行更快

在linker.partition中，它声明了以下内容：

此方法仅适用于小到中等大小的数据集。对于较大的数据，您可能需要生成自己的记录对，并将它们提供给~score

你是怎么做到的

Tags： to 数据内存 data 链接记录 one 速度

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章