使用Python解析HTML而不考虑正确的标记层次结构

2024-04-24 08:16:24 发布

男 | 程序猿一只，喜欢编程写python代码。

我想解析一个在语法上是html文档的文档（使用带有属性的标记等），但在结构上不遵循规则（例如，在<body>标记中的<div>标记中可能有一个<html>标记）。我也不希望XML有额外的严格性。不幸的是，lxml只提供了document_fromstring()，这需要一个html根元素，以及fragment_fromstring()，而fragment_fromstring()又不允许在不寻常的地方有任何html或body标记

如何在没有“修复”错误结构的情况下解析文档

Tags：文档标记 div 元素属性规则 html 地方

1条回答

网友

1楼 · 发布于 2024-04-24 08:16:24

美丽的乌苏应该做得很好

这将是以下情况：

from bs4 import BeautifulSoup
import requests

r = requests.get(url)
soup = BeautifulSoup(r.text,'html.parser')

然后你会在“汤”中搜索你要找的任何东西

使用Python解析HTML而不考虑正确的标记层次结构

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Python解析HTML而不考虑正确的标记层次结构

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >