2024-04-27 03:59:56 发布
网友
我已经开始学习使用R和Python进行文本挖掘和自然语言处理。最近,我尝试执行一些基本任务,例如:(1)一组文档(电子邮件文档)中最常用的术语;(2)聚类。“问题”伴随着一些重复的段落,如免责声明、电子邮件签名等;因为他们给我的结果增加了一些噪音。。。。是否有一种方法可以识别文档集中的样板或重复段落?以便在预处理任务期间删除它们
文档的相似性度量是一个庞大的课题,也是一个活跃的研究领域。识别样板文件的方法有很多种,但没有一种是完美的
但是请查看wydyr包函数。将文档分成段落大小的部分(或更小的部分)。使用pairwise_count和pairwise_cor获得文档开头和结尾部分之间的相似性度量
wydyr
pairwise_count
pairwise_cor
另外,获得一份由Silge和Robinson编写的带有R的文本挖掘;注意第四章
文档的相似性度量是一个庞大的课题,也是一个活跃的研究领域。识别样板文件的方法有很多种,但没有一种是完美的
但是请查看
wydyr
包函数。将文档分成段落大小的部分(或更小的部分)。使用pairwise_count
和pairwise_cor
获得文档开头和结尾部分之间的相似性度量另外,获得一份由Silge和Robinson编写的带有R的文本挖掘;注意第四章
相关问题 更多 >
编程相关推荐