使用Python解析HTML而不考虑正确的标记层次结构

2024-04-24 08:16:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我想解析一个在语法上是html文档的文档(使用带有属性的标记等),但在结构上不遵循规则(例如,在<body>标记中的<div>标记中可能有一个<html>标记)。我也不希望XML有额外的严格性。不幸的是,lxml只提供了document_fromstring(),这需要一个html根元素,以及fragment_fromstring(),而fragment_fromstring()又不允许在不寻常的地方有任何htmlbody标记

如何在没有“修复”错误结构的情况下解析文档


Tags: 文档标记div元素属性规则html地方
1条回答
网友
1楼 · 发布于 2024-04-24 08:16:24

美丽的乌苏应该做得很好

这将是以下情况:

from bs4 import BeautifulSoup
import requests

r = requests.get(url)
soup = BeautifulSoup(r.text,'html.parser')

然后你会在“汤”中搜索你要找的任何东西

相关问题 更多 >