Python中的HTML解析器

Question

我在Python的官方文档中找到了HTML解析器，但是我不知道应该导入哪个库来使用它。请问我该怎么找出这个信息呢？（注意，页面上并没有说明。）

Answer 1

你可能会对 lxml 感兴趣。这个是一个独立的工具包，里面有一些用C语言写的部分，所以它的速度非常快。它的接口设计得也很友好，让你可以轻松地在HTML文档中列出链接，或者列出表单，还能清理HTML代码等等。它还可以处理一些格式不太规范的HTML（这个是可以设置的）。

Answer 2

你可能真的想要使用BeautifulSoup，可以点击链接查看一个例子。

不过无论如何

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

Answer 3

试试这个：

import HTMLParser

在Python 3.0中，HTMLParser模块的名字改成了html.parser。你可以在这里查看相关信息。

Python 3.0

import html.parser

Python 2.2及以上版本

import HTMLParser

8 个回答