使用Python和lxml.htm解析Html

<div class="div_class"> <h3>I'm a title. Don't touch me</h3> <ul> <li> I'm a title. Parse me <ul> <li>fdfdsfd</li> <li>fdfdsfd</li> <li>fdfdsfd</li> <li>fdfdsfd</li> </ul> </li> <li> I'm a title. Parse me <ul> <li>fdfdsfd</li> <li>fdfdsfd</li> <li>fdfdsfd</li> <li>fdfdsfd</li> </ul> </li> <li> I'm a title. Parse me <ul> <li>fdfdsfd</li> <li>fdfdsfd</li> <li>fdfdsfd</li> <li>fdfdsfd</li> </ul> </li> <li> I'm a title. Parse me <ul> <li>fdfdsfd</li> <li>fdfdsfd</li> <li>fdfdsfd</li> <li>fdfdsfd</li> </ul> </li> </ul> </div>

import scraperwiki import lxml.html import re import datetime #....................... raw_string = lxml.html.fromstring(scraperwiki.scrape(url_to_scrape)) raw_html = raw_string.cssselect("div.div_class ul > li") for item in ras_html print(item.text_content())

1条回答

网友

1楼 · 发布于 2024-06-16 11:03:08

lxml的优点在于，您可以同时使用css选择器和xpath来查找页面上的任何元素。

在您的例子中，由于已经嵌套了<ul>列表，因此最好使用xpath进行导航：

# find every <li> in the <ul> under div with class div_class
raw_html = raw_string.xpath("//div[@class='div_class']/ul/li")
for item in raw_html:
    print(item.text.strip())

印刷品：

I'm a title. Parse me
I'm a title. Parse me
I'm a title. Parse me
I'm a title. Parse me

以下是lxml中xpath的简要说明：http://lxml.de/tutorial.html#using-xpath-to-find-text

相关问题更多 >

编程相关推荐

热门问题

热门文章