2024-04-20 08:17:49 发布
网友
我有3个客户数据集,有7列。在
CustomerName Address Phone StoreName Mobile Longitude Latitude
CustomerName
Address
Phone
StoreName
Mobile
Longitude
Latitude
每个数据集有13000-18000条记录。我正在尝试模糊匹配它们之间的重复数据消除。我的数据集列在此匹配中的权重不相同。我该怎么办???? 你知道我的案子有什么好的图书馆吗?在
我认为Recordlinkage库适合您的用途
可以使用来比较对象,需要各种类型的匹配:
compare_cl.exact('CustomerName', 'CustomerName', label='CustomerName') compare_cl.string('StoreName', 'StoreName', method='jarowinkler', threshold=0.85, label='surname') compare_cl.string('Address', 'Address', threshold=0.85, label='Address')
然后定义匹配你可以自定义你想要的结果,即如果你想至少匹配2个特征
我认为Recordlinkage库适合您的用途
可以使用来比较对象,需要各种类型的匹配:
然后定义匹配你可以自定义你想要的结果,即如果你想至少匹配2个特征
^{pr2}$相关问题 更多 >
编程相关推荐