2024-04-26 20:28:23 发布
网友
我想用python实现一个爬虫程序。爬虫从多个网站收集新闻。但在网站上有一条新闻用不同的词来描述。例如,新闻是关于一场足球赛的结果。我怎样才能检测出来自不同网站的两条新闻是否相同,所以只能保留其中一条?你知道吗
您描述的问题可以映射到查找文档相似性的标准问题。在你的情况下,我想可以遵循以下步骤
1)一旦你抓取了网页,你就可以使用Beautifulsoup获得网页上的实际文本,如前所述here
2)在获得要比较的页面的文本后,可以使用gensim或nltk等库来比较它们的相似性分数。教程显示为here
3)根据你在步骤2中得到的分数,你可以选择一个截止分数来决定新闻是否相同。e、 g.如果两份文件的相似性得分大于0.95,你可以假设新闻是相同的。你知道吗
您描述的问题可以映射到查找文档相似性的标准问题。在你的情况下,我想可以遵循以下步骤
1)一旦你抓取了网页,你就可以使用Beautifulsoup获得网页上的实际文本,如前所述here
2)在获得要比较的页面的文本后,可以使用gensim或nltk等库来比较它们的相似性分数。教程显示为here
3)根据你在步骤2中得到的分数,你可以选择一个截止分数来决定新闻是否相同。e、 g.如果两份文件的相似性得分大于0.95,你可以假设新闻是相同的。你知道吗
相关问题 更多 >
编程相关推荐