GAE的HTML解析器
一般来说,我会使用 lxml 来处理HTML解析的需求,但在Google App Engine上无法使用这个工具。一个明显的替代选择是 BeautifulSoup,不过我发现它在处理格式不正确的HTML时容易出问题。目前我在测试 libxml2dom,结果要好一些。
你们发现哪个纯Python的HTML解析器表现最好?我最看重的是能处理糟糕HTML的能力,而不是速度。
2 个回答
5
Beautiful Soup的3.1.0版本在处理真实的HTML时表现得比3.0.8版本差很多。
所以,使用这个较早的版本可能会对你有帮助。实际上,作者自己也推荐这样做。
你可以假装Beautiful Soup的3.1.0版本从来没有发布过。3.0.8版本在Python 2.3到2.6之间仍然可以正常工作。
5
这个问题已经解决了 - lxml 现在得到了支持:https://developers.google.com/appengine/docs/python/tools/libraries27