这里的新手正在开发一个应用程序来比较公司字符串,并在字符串不精确时找到匹配项。在
公司字符串是散列的,这使得它更加困难。我想评估一下这些字符串在经过哈希处理后彼此之间的相似程度。(由于隐私原因,公司名称被散列。)
例如:
Apple Inc.
Apple Inc
我想确定这些字符串(一旦经过哈希处理)在一定的相似性范围内。在
我尝试了Python的ssdeep,但是上面的字符串得到了0匹配。对于这么短的信息串,它似乎太敏感了。在
有没有人有其他的建议可以用在散列字符串上进行模糊比较?在
ssdeep测试的输出:
>>> hash1=ssdeep.hash('Apple Inc.')
>>> hash2=ssdeep.hash('Apple Inc')
>>> ssdeep.compare(hash1,hash2)
0
谢谢大家!在
目前没有回答
相关问题 更多 >
编程相关推荐