检测文本文件中的重复模式并创建此模式的指纹以备将来识别

2024-06-12 18:25:54 发布

您现在位置:Python中文网/ 问答频道 /正文

给定一个由用户加载的文件,即:

# This is a comment
# Another one
nameserver 1.2.3.4
nameserver 5.5.6.7
nameserver 8.9.10.11
# A third one
nameserver 12.13.14.15
nameserver 16.17.18.19

我想找到一种方法,检测重复的模式,线条,方块,。。。 我们的想法是,能够产生两件事:

  1. 一种文件类型的签名,以便能够立即识别相似的文件
  2. 文件模板,用于从动态值创建类似的文件

我仍在尝试如何检测到这个示例文件具有:

  • 总是以“#”开头的行
  • 总是以“nameserver”开头,后跟空格和变量字符串的重复行块

我可以试着用一下吗重新编译在每一个可能的行,然后字,然后建立一个“地图”,什么是相似的等等,或有工具,我可以利用替代?在


Tags: 文件方法用户is模式anothercommentthis
1条回答
网友
1楼 · 发布于 2024-06-12 18:25:54

也许你在找W-Shingling之类的东西。基本上,为每个文件创建一组连续的单词子序列并计算它们的校验和,然后使用这些校验和来度量文档的相似性。在

简单搜索得到a python implementation。在

相关问题 更多 >