最佳Python模块用于HTML解析

5 投票
2 回答
10198 浏览
提问于 2025-04-17 03:41

我有一个网站更新工具(用户可以更新内容,比如文本,但不能改变网站的外观),前端使用HTML和JavaScript,后端则是Python。

我发现从前端更新HTML非常困难,因为当我用ele.innerHTML或者$(ele).html()获取更新后的HTML时,不同的浏览器返回的结果会有所不同(真是让人头疼,尤其是IE)。

所以我决定从后端,也就是用Python来更新我的HTML。

你觉得哪个Python模块最适合用来解析HTML并提取信息呢?

我的要求是:
- 这个模块至少要支持Python 2.5或更低版本(因为我的网络托管服务的限制)
- 我需要解析HTML,并找到所有类名为“updatable”的HTML元素
- 对于每个“updatable”类的元素:提取它的文本内容(只要文本,不要HTML)

你觉得哪个Python模块最合适呢?
- HTMLParser.py
- htmllib.py
- 你知道其他兼容Python 2.5的模块吗?

2 个回答

8

如果你想解析HTML,我建议你看看Beautiful Soup。这个工具非常强大,能够处理一些格式不太规范的代码。

http://www.crummy.com/software/BeautifulSoup/

你可以试试这个,看看是否对你有帮助!希望能帮到你。

6

我一直在使用 lxml(http://lxml.de/lxmlhtml.html)。对于普通大小的 HTML 文档,它的速度比较快,并且可以和 BeautifulSoup 一起使用。根据我的了解,BeautifulSoup 现在已经不再更新了,所以在所有新的项目中,我都选择使用 lxml。

撰写回答