Python有没有像HtmlAgilityPack(.NET)那样好的HTML解析器?
我在找一个好用的HTML解析器,类似于HtmlAgilityPack(这是一个开源的.NET项目,链接在这里:http://www.codeplex.com/htmlagilitypack),不过我想用在Python上。
有人知道吗?
3 个回答
0
Beautiful Soup 是一个你应该了解的工具。它是一个用来解析 HTML 和 XML 的程序,可以处理一些格式不太正确的网页,并且可以让你方便地遍历特定的标签。
8
其他人推荐使用BeautifulSoup,但其实用lxml会更好。尽管它的名字听起来不太相关,但它同样可以用来解析和抓取HTML网页。它比BeautifulSoup快得多,而且在处理“破损”的HTML时表现得更好(这是它的一个亮点)。如果你不想学习lxml的使用方法,它还提供了与BeautifulSoup兼容的接口。
现在没有必要再使用BeautifulSoup了,除非你在Google App Engine之类的环境中,那里的限制不允许使用非纯Python的东西。
8
像大家一样,使用Beautiful Soup吧。