如何在htm上使用lxml获取属性值

2024-05-28 18:15:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一些HTML,我想用Python用lxml解析。页面上有许多元素,每个元素都代表一个海报。我想抓取每张海报的ID,这样我就可以从海报的页面上刮下一条信息。目前海报的id存储在id属性中,所以我想使用lxml来获取该属性的值。在

例如:

<div onclick="showDetail(9202)">               
    <div class="maincard narrower Poster" id="maincard_9202"> </div>
</div>

我想从id属性中获取“maincard_9202”,这样我就可以使用regex来获取9202。从那里,我可以使用这个值直接到达海报的页面,因为我知道url重定向模式来自

https://nips.cc/Conferences/2017/Schedule?type=Poster(当前页)到 https://nips.cc/Conferences/2017/Schedule?showEvent=9202(海报页)

我试图使用以下代码:

^{pr2}$

但这会返回一个空列表。在

在这种情况下,如何获取属性值?在


Tags: httpsdivid元素属性html页面lxml

热门问题