检测文本文件中的重复模式并创建此模式的指纹以备将来识别

2024-06-12 18:25:54 发布

男 | 程序猿一只，喜欢编程写python代码。

给定一个由用户加载的文件，即：

# This is a comment
# Another one
nameserver 1.2.3.4
nameserver 5.5.6.7
nameserver 8.9.10.11
# A third one
nameserver 12.13.14.15
nameserver 16.17.18.19

我想找到一种方法，检测重复的模式，线条，方块，。。。我们的想法是，能够产生两件事：

一种文件类型的签名，以便能够立即识别相似的文件
文件模板，用于从动态值创建类似的文件

我仍在尝试如何检测到这个示例文件具有：

总是以“#”开头的行
总是以“nameserver”开头，后跟空格和变量字符串的重复行块

我可以试着用一下吗重新编译在每一个可能的行，然后字，然后建立一个“地图”，什么是相似的等等，或有工具，我可以利用替代？在

Tags：文件方法用户 is 模式 another comment this

1条回答

网友

1楼 · 发布于 2024-06-12 18:25:54

也许你在找W-Shingling之类的东西。基本上，为每个文件创建一组连续的单词子序列并计算它们的校验和，然后使用这些校验和来度量文档的相似性。在

简单搜索得到a python implementation。在

检测文本文件中的重复模式并创建此模式的指纹以备将来识别

相关问题更多 >

编程相关推荐

热门问题

热门文章

检测文本文件中的重复模式并创建此模式的指纹以备将来识别

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >