2024-03-29 06:37:51 发布
网友
我想创建一个应用程序,通过读取两个文档中的文本并进行比较,来确定是否在两个文档之间复制了某些文本。我想知道是否有人试过这样做,什么是最好的处理方法。如果涉及机器学习和自然语言处理:到什么水平?你知道吗
有些技术完全依赖于集合论的概念
试试http://en.wikipedia.org/wiki/W-shingling有个好的开始。你知道吗
我相信Copyscape使用4-grams来帮助确定唯一性。你知道吗
这些字符串称为N-Grams。你知道吗
但是,another SO answer以字符为基础链接到language independent algo comparing bi-grams。它已经用Java实现了,这将有助于节省时间。你知道吗
有些技术完全依赖于集合论的概念
试试http://en.wikipedia.org/wiki/W-shingling有个好的开始。你知道吗
我相信Copyscape使用4-grams来帮助确定唯一性。你知道吗
这些字符串称为N-Grams。你知道吗
但是,another SO answer以字符为基础链接到language independent algo comparing bi-grams。它已经用Java实现了,这将有助于节省时间。你知道吗
相关问题 更多 >
编程相关推荐