检测文本文件中的重复项 - 问答 - Python中文网

检测文本文件中的重复项

2024-04-25 07:47:44 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试找到检测/删除文本数据中重复项的最佳方法。我所说的重复是指那些有很高相似性的文本，例如，所有的文本都相等，但只有一句话。此外，长度可以变化（或多或少一句或两句话），因此汉明距离不是一个选择。有没有办法计算出相似性因子？我应该使用术语频率矩阵吗

关于我的数据：我在JSON文件中有日期、标题和正文（内容）。因此相似系数可以包括这三个层次

因为我在寻找方法（而不是代码），所以我不认为呈现数据是必要的

谨致问候

Tags：文件数据方法文本 json 距离标题内容

1条回答

网友

1楼 · 发布于 2024-04-25 07:47:44

您可以使用tf-idf排名方法。在这里查看更多详细信息：Similarity between two text documents

相关问题更多 >

编程相关推荐

热门问题

热门文章