如何在htm上使用lxml获取属性值

2024-05-28 18:15:56 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一些HTML，我想用Python用lxml解析。页面上有许多元素，每个元素都代表一个海报。我想抓取每张海报的ID，这样我就可以从海报的页面上刮下一条信息。目前海报的id存储在id属性中，所以我想使用lxml来获取该属性的值。在

例如：

<div onclick="showDetail(9202)">               
    <div class="maincard narrower Poster" id="maincard_9202"> </div>
</div>

我想从id属性中获取“maincard_9202”，这样我就可以使用regex来获取9202。从那里，我可以使用这个值直接到达海报的页面，因为我知道url重定向模式来自

我试图使用以下代码：

^{pr2}$

但这会返回一个空列表。在

在这种情况下，如何获取属性值？在

Tags： https div id 元素属性 html 页面 lxml

1条回答

网友

1楼 · 发布于 2024-05-28 18:15:56

paper_numbers = tree.xpath('//div[@onclick]/div/@id')
print(paper_numbers)

会给你

^{pr2}$

它使用onclick属性选择div内所有div的id属性。。。在