使用XPath和变量进行lxml.html解析

<div id="dw__toc"> <h3 class="toggle">Table of Contents</h3> <div> <ul class="toc"> <li class="level1"><div class="li"><a href="#section">#</a></div> <ul class="toc"> <li class="level2"><div class="li"><a href="#link1">One</a></div></li> <li class="level2"><div class="li"><a href="#link2">Two</a></div></li> <li class="level2"><div class="li"><a href="#link3">Three</a></div></li>

import lxml.html html = lxml.html.parse("www.myurl.com/slash/something") desiredvars = ['One'] myresultset=((var, html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a[text()='%s']"%(var))[0]) for var in desiredvars) for each in myresultset: print each Traceback (most recent call last): File "<stdin>", line 1, in <module> File "<stdin>", line 1, in <genexpr> IndexError: list index out of range

2条回答

网友

1楼 · 编辑于 2024-05-23 14:13:49

你的第一个例子很好，但可能不是你想的那样：

test=html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a/text()='One'")

这返回的是一个布尔值，如果xpath表达式左侧的结果集中的任何节点的条件...='One'为true，则返回值为true。这就是为什么在第二个示例中会出现错误：True[0]无效。

您可能希望所有节点都与expession匹配，将'One'作为文本。相应的表达式为：

test=html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a[text()='One']")

这将返回一个nodeset作为结果，或者如果您只需要url作为字符串：

test=html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a[text()='One']/@href")
# returns: ['#link1']

网友

2楼 · 编辑于 2024-05-23 14:13:49

我试过玛塔的回答，但对我来说没用：

div_name = 'foo'
my_div = x.xpath(".//div[@id=%s]" %div_name)[0]

我在他们的网站上找到了这个http://lxml.de/xpathxslt.html#the-xpath-method给那些可能有同样问题的人：

div_name = 'foo'
my_div = x.xpath(".//div[@id=$name]", name=div_name)[0]

相关问题更多 >

编程相关推荐

热门问题

热门文章