Python中的HTML解析器

8 投票
8 回答
51979 浏览
提问于 2025-04-11 09:22

我在Python的官方文档中找到了HTML解析器,但是我不知道应该导入哪个库来使用它。请问我该怎么找出这个信息呢?(注意,页面上并没有说明。)

8 个回答

4

你可能会对 lxml 感兴趣。这个是一个独立的工具包,里面有一些用C语言写的部分,所以它的速度非常快。它的接口设计得也很友好,让你可以轻松地在HTML文档中列出链接,或者列出表单,还能清理HTML代码等等。它还可以处理一些格式不太规范的HTML(这个是可以设置的)。

24

你可能真的想要使用BeautifulSoup,可以点击链接查看一个例子。

不过无论如何

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()
21

试试这个:

import HTMLParser

在Python 3.0中,HTMLParser模块的名字改成了html.parser。你可以在这里查看相关信息。

Python 3.0

import html.parser

Python 2.2及以上版本

import HTMLParser

撰写回答