Python中散列字符串的模糊比较

2024-05-13 04:03:21 发布

您现在位置:Python中文网/ 问答频道 /正文

这里的新手正在开发一个应用程序来比较公司字符串,并在字符串不精确时找到匹配项。在

公司字符串是散列的,这使得它更加困难。我想评估一下这些字符串在经过哈希处理后彼此之间的相似程度。(由于隐私原因,公司名称被散列。)

例如: Apple Inc.Apple Inc

我想确定这些字符串(一旦经过哈希处理)在一定的相似性范围内。在

我尝试了Python的ssdeep,但是上面的字符串得到了0匹配。对于这么短的信息串,它似乎太敏感了。在

有没有人有其他的建议可以用在散列字符串上进行模糊比较?在

ssdeep测试的输出:

>>> hash1=ssdeep.hash('Apple Inc.')
>>> hash2=ssdeep.hash('Apple Inc')
>>> ssdeep.compare(hash1,hash2)
0

谢谢大家!在


Tags: 字符串名称信息应用程序apple公司原因hash