数据整合问题 - 如何整合相似实体
我有一个数据库,里面有很多行数据在同一个表里非常相似。这些行之所以相似,是因为它们的列值几乎是一样的。我需要把这些相应的行合并成一行。
比如,这两个用户(u1 和 u2)就应该合并成一行:
u1 = User(name = "William Henry Gates III",
age = 55,
nationality = "american",
alma_mater = "Harvard Univesity")
u2 = User(name: "William Henry 'Bill' Gates III",
age: 55,
nationality: "America",
alma_mater: "Harvard U.")
我在考虑使用一些 编辑距离 和 词干提取 的技术。有没有其他算法或技术的建议?有没有什么好用的库(最好是 Python 或 Java 的)?