Python中的HTML解析器
我在Python的官方文档中找到了HTML解析器,但是我不知道应该导入哪个库来使用它。请问我该怎么找出这个信息呢?(注意,页面上并没有说明。)
8 个回答
4
你可能会对 lxml 感兴趣。这个是一个独立的工具包,里面有一些用C语言写的部分,所以它的速度非常快。它的接口设计得也很友好,让你可以轻松地在HTML文档中列出链接,或者列出表单,还能清理HTML代码等等。它还可以处理一些格式不太规范的HTML(这个是可以设置的)。
24
你可能真的想要使用BeautifulSoup,可以点击链接查看一个例子。
不过无论如何
>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()
21
试试这个:
import HTMLParser
在Python 3.0中,HTMLParser模块的名字改成了html.parser。你可以在这里查看相关信息。
Python 3.0
import html.parser
Python 2.2及以上版本
import HTMLParser