基于python的网页结构比较

2024-03-28 15:34:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我想把一组给定的网页分为不同的类,主要分为3类(产品页、索引页和产品相关项页)。我认为可以通过分析它们的结构来实现。我只是想比较基于DOM(文档对象模型)结构的web页面。我想知道python中是否有库来解决这个问题。 提前谢谢。你知道吗


Tags: 对象文档模型web网页产品页面结构
1条回答
网友
1楼 · 发布于 2024-03-28 15:34:31

首先,您需要确定页面中的哪些元素实际上唯一地将页面标识为特定的webpage类。你知道吗

然后您可以使用类似BeautifulSoup的库来实际查看文档,以查看这些元素是否存在。你知道吗

然后您只需要一系列if/elif来确定页面是否具有限定元素,如果是,则将其分类为适当的webpage类。你知道吗

相关问题 更多 >