GAE的HTML解析器

5 投票
2 回答
2974 浏览
提问于 2025-04-15 18:38

一般来说,我会使用 lxml 来处理HTML解析的需求,但在Google App Engine上无法使用这个工具。一个明显的替代选择是 BeautifulSoup,不过我发现它在处理格式不正确的HTML时容易出问题。目前我在测试 libxml2dom,结果要好一些。

你们发现哪个纯Python的HTML解析器表现最好?我最看重的是能处理糟糕HTML的能力,而不是速度。

2 个回答

5

来自BeautifulSoup的文档

Beautiful Soup的3.1.0版本在处理真实的HTML时表现得比3.0.8版本差很多。

所以,使用这个较早的版本可能会对你有帮助。实际上,作者自己也推荐这样做。

你可以假装Beautiful Soup的3.1.0版本从来没有发布过。3.0.8版本在Python 2.3到2.6之间仍然可以正常工作。

5

这个问题已经解决了 - lxml 现在得到了支持:https://developers.google.com/appengine/docs/python/tools/libraries27

撰写回答