识别多个电子邮件文档中重复的段落(样板)

2024-04-27 03:59:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经开始学习使用R和Python进行文本挖掘和自然语言处理。最近,我尝试执行一些基本任务,例如:(1)一组文档(电子邮件文档)中最常用的术语;(2)聚类。“问题”伴随着一些重复的段落,如免责声明、电子邮件签名等;因为他们给我的结果增加了一些噪音。。。。是否有一种方法可以识别文档集中的样板或重复段落?以便在预处理任务期间删除它们


Tags: 方法文档文本声明电子邮件聚类样板术语
1条回答
网友
1楼 · 发布于 2024-04-27 03:59:56

文档的相似性度量是一个庞大的课题,也是一个活跃的研究领域。识别样板文件的方法有很多种,但没有一种是完美的

但是请查看wydyr包函数。将文档分成段落大小的部分(或更小的部分)。使用pairwise_countpairwise_cor获得文档开头和结尾部分之间的相似性度量

另外,获得一份由Silge和Robinson编写的带有R的文本挖掘;注意第四章

相关问题 更多 >