Python中用于匹配具有相似ID字符串的两个集合的分类器

2024-05-15 17:19:19 发布

您现在位置：Python中文网/ 问答频道 /正文

5976

网友

男 | 程序猿一只，喜欢编程写python代码。

我有两组数据，它们有共同的要素集，但它们的ID名称有不同的标签。你知道吗

我想看看是否有一个最佳的分类器，可以帮助我选择哪些名称匹配是基于这些特征的最佳选择。你知道吗

Set 1看起来像：

Name         ID1           code1          move1        year
Highland     1             nc             st           2002
Highland     4             nc             st           2001
Highland     gt3           nc             st           2002
Highland     gt2           nc             st           2003
Mark         wt1           ns             st           2000
Mark         ws1           ns             st           1945
Mark         ost6          nc             ct           2002
Niko         1             ng             ct           2000
.
.

Set 2看起来像：

Name         ID2           code2          move2        year
Highland     gt1           nc             st           2002
Highland     gt3           nc             st           
Highland     2             nc             st           2003
Highland     gt4           nc             st           2001
Mark         t1            ns             st           2000
Mark         s1            nsi            st           
Mark         ost6          nci            ct           2002
Niko         1             ngi            ct           2000
.
.

正如您所看到的，这两个集合中都有一些差异，但是Name总是相同的-id有时几乎匹配，有时完美匹配。其他时候codes或moves匹配或接近，有时一组的年份一般缺失。你知道吗

我已经计算了fuzzy ratios，它使用Levenshtein Distances作为这些id，但它们不足以让我真正匹配。你知道吗

有更好的方法吗？你知道吗

Tags：数据 name 名称 id year mark st ns

1条回答

网友

1楼 · 发布于 2024-05-15 17:19:19

尝试fuzz.token_set_ratio()而不是fuzzy.ration()。使用fuzz.token\u set\u比率（）你会得到一个很好的匹配。你知道吗

有关更多信息，请访问docs。你知道吗

Python中用于匹配具有相似ID字符串的两个集合的分类器

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中用于匹配具有相似ID字符串的两个集合的分类器

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >