我正在scraperwiki.com上创建一个Python scraper。我需要解析包含以下代码的html页面的一部分:
<div class="div_class">
<h3>I'm a title. Don't touch me</h3>
<ul>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
</ul>
</div>
我只想分析“我是一个标题。分析我的标题。我是这样做的:
import scraperwiki
import lxml.html
import re
import datetime
#.......................
raw_string = lxml.html.fromstring(scraperwiki.scrape(url_to_scrape))
raw_html = raw_string.cssselect("div.div_class ul > li")
for item in ras_html
print(item.text_content())
我确实工作。但它捕获了所有的数据。我不想要,我只想找到“我是一个头衔。在每个ul中解析我,就这样。
我该怎么做?
lxml
的优点在于,您可以同时使用css选择器和xpath来查找页面上的任何元素。在您的例子中,由于已经嵌套了
<ul>
列表,因此最好使用xpath进行导航:印刷品:
以下是lxml中xpath的简要说明:http://lxml.de/tutorial.html#using-xpath-to-find-text
相关问题 更多 >
编程相关推荐