数据整合问题 - 如何整合相似实体

0 投票
1 回答
630 浏览
提问于 2025-04-16 09:02

我有一个数据库,里面有很多行数据在同一个表里非常相似。这些行之所以相似,是因为它们的列值几乎是一样的。我需要把这些相应的行合并成一行。

比如,这两个用户(u1 和 u2)就应该合并成一行:

 u1 = User(name = "William Henry Gates III",
           age = 55,
           nationality = "american",
           alma_mater = "Harvard Univesity")

 u2 = User(name: "William Henry 'Bill' Gates III",
           age: 55,
           nationality: "America",
           alma_mater: "Harvard U.")

我在考虑使用一些 编辑距离词干提取 的技术。有没有其他算法或技术的建议?有没有什么好用的库(最好是 Python 或 Java 的)?

1 个回答

3

你有没有考虑过像Refine这样的工具呢?

撰写回答