直接选择LXML还是PyQuery
有没有人用过 lxml 和 PyQuery 来抓取网页数据?我最近才知道 PyQuery,觉得挺有意思的。不过我还没找到很多关于这个库的评论,所以我想知道它到底好不好用。
我对 lxml 比较熟悉,而且一般都挺喜欢用它。不过,如果能用 jQuery 的选择器语法就更好了。
换成 PyQuery 值得吗?
谢谢!
2 个回答
4
lxml支持XPath,这是一种和CSS选择器很像的东西。这样能满足你的需求吗?
3
只有你自己能决定这是否值得。
这主要取决于你是否想要使用一个额外的库,以便获得jQuery的自定义CSS选择器。
jQuery在标准CSS选择器的基础上增加了一些功能,具体可以查看这里:http://api.jquery.com/category/selectors/jquery-selector-extensions/
而这些选择器在PyQuery中的普通CSS选择器对应关系可以在这里找到:https://bitbucket.org/olauzanne/pyquery/src/c2bf08a8f4e7/pyquery/cssselectpatch.py
我觉得使用lxml的普通CSS选择器并不会比使用这些jQuery选择器差。其实就是把一些特殊的jQuery选择器转换成CSS选择器而已。