检测文本文件中的重复项

2024-04-25 07:47:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试找到检测/删除文本数据中重复项的最佳方法。我所说的重复是指那些有很高相似性的文本,例如,所有的文本都相等,但只有一句话。此外,长度可以变化(或多或少一句或两句话),因此汉明距离不是一个选择。有没有办法计算出相似性因子?我应该使用术语频率矩阵吗

关于我的数据:我在JSON文件中有日期、标题和正文(内容)。因此相似系数可以包括这三个层次

因为我在寻找方法(而不是代码),所以我不认为呈现数据是必要的

谨致问候


Tags: 文件数据方法文本json距离标题内容