Python中类似jQuery的HTML解析？

Question

有没有什么方法可以让Python像jQuery那样解析HTML文档呢？

也就是说，我想用CSS选择器语法来获取文档中的一些节点，读取它们的内容或属性等等。

Answer 1

lxml这个库可以使用CSS选择器。

Answer 2

考虑一下 PyQuery：

http://packages.python.org/pyquery/

>>> from pyquery import PyQuery as pq
>>> from lxml import etree
>>> import urllib
>>> d = pq("<html></html>")
>>> d = pq(etree.fromstring("<html></html>"))
>>> d = pq(url='http://google.com/')
>>> d = pq(url='http://google.com/', opener=lambda url: urllib.urlopen(url).read())
>>> d = pq(filename=path_to_html_file)
>>> d("#hello")
[<p#hello.hello>]
>>> p = d("#hello")
>>> p.html()
'Hello world !'
>>> p.html("you know <a href='http://python.org/'>Python</a> rocks")
[<p#hello.hello>]
>>> p.html()
u'you know <a href="http://python.org/">Python</a> rocks'
>>> p.text()
'you know Python rocks'

Answer 3

如果你对BeautifulSoup很熟悉的话，可以直接把soupselect加到你的库里。
Soupselect是一个为BeautifulSoup提供CSS选择器功能的扩展。

用法：

from bs4 import BeautifulSoup as Soup
from soupselect import select
import urllib
soup = Soup(urllib.urlopen('http://slashdot.org/'))
select(soup, 'div.title h3')

    [<h3><span><a href='//science.slashdot.org/'>Science</a>:</span></h3>,
     <h3><a href='//slashdot.org/articles/07/02/28/0120220.shtml'>Star Trek</h3>,
    ..]

Python中类似jQuery的HTML解析？

4 个回答

撰写回答