如何知道python中的两个文本是否相同

2024-04-26 20:28:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我想用python实现一个爬虫程序。爬虫从多个网站收集新闻。但在网站上有一条新闻用不同的词来描述。例如,新闻是关于一场足球赛的结果。我怎样才能检测出来自不同网站的两条新闻是否相同,所以只能保留其中一条?你知道吗


Tags: 程序网站新闻爬虫足球赛
1条回答
网友
1楼 · 发布于 2024-04-26 20:28:23

您描述的问题可以映射到查找文档相似性的标准问题。在你的情况下,我想可以遵循以下步骤

1)一旦你抓取了网页,你就可以使用Beautifulsoup获得网页上的实际文本,如前所述here

2)在获得要比较的页面的文本后,可以使用gensimnltk等库来比较它们的相似性分数。教程显示为here

3)根据你在步骤2中得到的分数,你可以选择一个截止分数来决定新闻是否相同。e、 g.如果两份文件的相似性得分大于0.95,你可以假设新闻是相同的。你知道吗

相关问题 更多 >