Python 3.2 Beautiful Soup 替代方案
我需要制作一个网络爬虫,从网页中提取信息。我查了一下,发现Beautiful Soup非常不错,因为它可以解析整个文档,创建DOM对象,还能遍历、提取属性等等(跟JQuery有点像)。
不过我现在用的是Python 3.2,而它没有稳定的版本(我觉得根本没有,官网上只看到3.1)。
所以我需要一些同样好用的替代方案。
4 个回答
2
我觉得最新的版本是4.1.1,你可以在这里了解更多信息 BS4文档
我在自己的网站上用PHP搭配BS4已经有一段时间了,效果很好。不过因为PHP和Python不兼容,我不得不换回BSv3,但这和BS4脚本本身的表现没关系。
最开始我使用的是内置的HTML解析引擎,但觉得速度太慢了。后来在我的网络服务器上安装了LMXL引擎,速度大幅提升!虽然实际解析的效果没有明显改善,但速度确实快了很多。
我建议你试试这个,我非常推荐它。在决定使用Beautiful Soup之前,我尝试了很多不同的选项。
祝你好运!
4
看起来大约一年前发布了一个版本的Beautiful Soup,版本号是3.2.0。还有一个叫HTMLParser的工具,你可以在这个链接找到它:http://docs.python.org/library/htmlparser.html
1
来自lxml的主页:
最新版本可以在所有的CPython版本中使用,从2.4到3.2都可以兼容。