我需要用Python编写代码比较两份文档的文本,使用指纹技术

3 投票
2 回答
1821 浏览
提问于 2025-04-11 09:19

我需要用Python语言写代码,来比较文档的内容,使用的是指纹技术。我不知道怎么给文档生成指纹,也不知道怎么提取文档的指纹。请问有没有人知道这个方法,或者有生成文档指纹的源代码,指纹是以二进制形式存储的。

2 个回答

4

如果你想要生成消息摘要(也就是加密哈希),可以使用 hashlib 这个库。下面是一个例子(在 IPython 环境中):

 In [1]: import hashlib

 In [2]: md = hashlib.sha256(open('/tmp/Calendar.xls', 'rb').read())

 In [3]: md.hexdigest()
 Out[3]: '8517f1eae176f1a20de78d879f81f23de503cfd6b8e4be1d798fb2342934b187'
4

你可以看看以下这些论文,来了解指纹识别的概念:

撰写回答