2024-04-25 07:47:44 发布
网友
我正在尝试找到检测/删除文本数据中重复项的最佳方法。我所说的重复是指那些有很高相似性的文本,例如,所有的文本都相等,但只有一句话。此外,长度可以变化(或多或少一句或两句话),因此汉明距离不是一个选择。有没有办法计算出相似性因子?我应该使用术语频率矩阵吗
关于我的数据:我在JSON文件中有日期、标题和正文(内容)。因此相似系数可以包括这三个层次
因为我在寻找方法(而不是代码),所以我不认为呈现数据是必要的
谨致问候
您可以使用tf-idf排名方法。在这里查看更多详细信息:Similarity between two text documents
您可以使用tf-idf排名方法。在这里查看更多详细信息:Similarity between two text documents
相关问题 更多 >
编程相关推荐