给定一个由用户加载的文件,即:
# This is a comment
# Another one
nameserver 1.2.3.4
nameserver 5.5.6.7
nameserver 8.9.10.11
# A third one
nameserver 12.13.14.15
nameserver 16.17.18.19
我想找到一种方法,检测重复的模式,线条,方块,。。。 我们的想法是,能够产生两件事:
我仍在尝试如何检测到这个示例文件具有:
我可以试着用一下吗重新编译在每一个可能的行,然后字,然后建立一个“地图”,什么是相似的等等,或有工具,我可以利用替代?在
也许你在找W-Shingling之类的东西。基本上,为每个文件创建一组连续的单词子序列并计算它们的校验和,然后使用这些校验和来度量文档的相似性。在
简单搜索得到a python implementation。在
相关问题 更多 >
编程相关推荐