html5lib。如何在不添加html、head和body标记的情况下获得有效的html？

parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("simpleTree")) f = open('/home/user/ex.html') doc = parser.parse(f) doc.toxml() '<html><head/><body><div>\n <a href="http://speedhunters.com">speedhunters.com\n</a></div><a href="http://speedhunters.com">\n</a></body></html>'

3条回答

网友

1楼 · 编辑于 2024-04-25 03:35:49

哇，html5lib有可怕的文档。在

查看源代码，并处理一个快速测试用例，这似乎是可行的：

import html5lib
from html5lib import treebuilders
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("simpleTree"))
with open('test.html') as test:
    doc = parser.parse(test)
    for child in doc:
        if child.parent.name == "body":
            return child.toxml()

它有点老套，但比replace()要小。在

网友

2楼 · 编辑于 2024-04-25 03:35:49

如果您正在处理“不常见”的html，lxml可能是一个更好的选择。在

网友

3楼 · 编辑于 2024-04-25 03:35:49

似乎我们可以使用Tags的hidden属性，以防止在将标记/soup转换为string/unicode时标记本身被“导出”：

>>> from bs4 import BeautifulSoup
>>> html = u"<div><footer><h3>foot</h3></footer></div><div>foo</div>"
>>> soup = BeautifulSoup(html, "html5lib")
>>> print soup.body.prettify()
<body>
 <div>
  <footer>
   <h3>
    foot
   </h3>
  </footer>
 </div>
 <div>
  foo
 </div>
</body>

本质上，发问者的目标是获得body标记的全部内容，而不使用<body>包装本身。这是有效的：

^{pr2}$

我是通过BeautifulSoup的资料找到的。在调用soup = BeautifulSoup(html)之后，根标记的内部名称为“[document]”。默认情况下，只有根标记有hidden==True。这可以防止其名称在任何HTML输出中结束。在

相关问题更多 >

编程相关推荐

热门问题

热门文章