识别多个电子邮件文档中重复的段落（样板） - 问答 - Python中文网

识别多个电子邮件文档中重复的段落（样板）

2024-04-27 03:59:56 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我已经开始学习使用R和Python进行文本挖掘和自然语言处理。最近，我尝试执行一些基本任务，例如：（1）一组文档（电子邮件文档）中最常用的术语；（2）聚类。“问题”伴随着一些重复的段落，如免责声明、电子邮件签名等；因为他们给我的结果增加了一些噪音。。。。是否有一种方法可以识别文档集中的样板或重复段落？以便在预处理任务期间删除它们

Tags：方法文档文本声明电子邮件聚类样板术语

1条回答

网友

1楼 · 发布于 2024-04-27 03:59:56

文档的相似性度量是一个庞大的课题，也是一个活跃的研究领域。识别样板文件的方法有很多种，但没有一种是完美的

但是请查看wydyr包函数。将文档分成段落大小的部分（或更小的部分）。使用pairwise_count和pairwise_cor获得文档开头和结尾部分之间的相似性度量

另外，获得一份由Silge和Robinson编写的带有R的文本挖掘；注意第四章

相关问题更多 >

编程相关推荐

热门问题

热门文章