创建文档比较

2024-03-29 06:37:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我想创建一个应用程序,通过读取两个文档中的文本并进行比较,来确定是否在两个文档之间复制了某些文本。我想知道是否有人试过这样做,什么是最好的处理方法。如果涉及机器学习和自然语言处理:到什么水平?你知道吗


Tags: 方法文档文本机器应用程序水平
2条回答

有些技术完全依赖于集合论的概念

试试http://en.wikipedia.org/wiki/W-shingling有个好的开始。你知道吗

我相信Copyscape使用4-grams来帮助确定唯一性。你知道吗

这些字符串称为N-Grams。你知道吗

但是,another SO answer以字符为基础链接到language independent algo comparing bi-grams。它已经用Java实现了,这将有助于节省时间。你知道吗

相关问题 更多 >