我想解析一个在语法上是html文档的文档(使用带有属性的标记等),但在结构上不遵循规则(例如,在<body>
标记中的<div>
标记中可能有一个<html>
标记)。我也不希望XML有额外的严格性。不幸的是,lxml只提供了document_fromstring()
,这需要一个html根元素,以及fragment_fromstring()
,而fragment_fromstring()
又不允许在不寻常的地方有任何html
或body
标记
如何在没有“修复”错误结构的情况下解析文档
Tags:
美丽的乌苏应该做得很好
这将是以下情况:
然后你会在“汤”中搜索你要找的任何东西
相关问题 更多 >
编程相关推荐