如何知道python中的两个文本是否相同 - 问答 - Python中文网

如何知道python中的两个文本是否相同

2024-04-26 20:28:23 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我想用python实现一个爬虫程序。爬虫从多个网站收集新闻。但在网站上有一条新闻用不同的词来描述。例如，新闻是关于一场足球赛的结果。我怎样才能检测出来自不同网站的两条新闻是否相同，所以只能保留其中一条？你知道吗

Tags：程序网站新闻爬虫足球赛

1条回答

网友

1楼 · 发布于 2024-04-26 20:28:23

您描述的问题可以映射到查找文档相似性的标准问题。在你的情况下，我想可以遵循以下步骤

1）一旦你抓取了网页，你就可以使用Beautifulsoup获得网页上的实际文本，如前所述here

2）在获得要比较的页面的文本后，可以使用gensim或nltk等库来比较它们的相似性分数。教程显示为here

3）根据你在步骤2中得到的分数，你可以选择一个截止分数来决定新闻是否相同。e、 g.如果两份文件的相似性得分大于0.95，你可以假设新闻是相同的。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章