如何加快Python重复数据消除的速度
我正在使用本地内存运行。当我比较“多对一”记录时,需要超过20秒。我只是将2条记录与1条记录进行比较。当我将600条记录与1条记录进行比较时,仍然需要大约20秒
print("clustering...")
linked_records = linker.join(data_1, data_2, 0.01, 'many-to-one')
它总是挂在链接的记录行上。是否有一个设置可以使较小的数据集运行更快
在linker.partition中,它声明了以下内容:
此方法仅适用于小到中等大小的数据集。对于较大的数据,您可能需要生成自己的记录对,并将它们提供给~score
你是怎么做到的
目前没有回答
相关问题 更多 >
编程相关推荐