Python记录链接、模糊匹配和重复数据消除 - 问答 - Python中文网

Python记录链接、模糊匹配和重复数据消除

2024-04-20 08:17:49 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有3个客户数据集，有7列。在

CustomerName
Address
Phone
StoreName
Mobile
Longitude
Latitude

每个数据集有13000-18000条记录。我正在尝试模糊匹配它们之间的重复数据消除。我的数据集列在此匹配中的权重不相同。我该怎么办？？？？你知道我的案子有什么好的图书馆吗？在

Tags：数据客户图书馆 address 记录 phone mobile 权重

1条回答

网友

1楼 · 发布于 2024-04-20 08:17:49

我认为Recordlinkage库适合您的用途

可以使用来比较对象，需要各种类型的匹配：

compare_cl.exact('CustomerName', 'CustomerName', label='CustomerName')
compare_cl.string('StoreName', 'StoreName', method='jarowinkler', threshold=0.85, label='surname')
compare_cl.string('Address', 'Address', threshold=0.85, label='Address')

然后定义匹配你可以自定义你想要的结果，即如果你想至少匹配2个特征

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章