XPath中的类和范围搜索

<div jscontroller="..." jsmodel="..." jsdata="..." ...> <div class="zc7KVe">  <div jscontroller="..." jsmodel="..." jsdata="..." ...> <div class="zc7KVe">  

1条回答

网友

1楼 · 发布于 2024-04-20 12:40:01

有多种不同的方法可以提高性能：

首先向上滚动，直到获得所有评论（或某个数字），然后才将它们提取出来

让HTML解析器执行HTML解析，这样可以减少JSON over HTTPselenium命令的数量以及通过selenium webdriver查找元素的其他开销。您可以获取review部分的内部/外部HTML，并使用^{}等工具对其进行解析。大致如下：

In [8]: reviews = driver.find_element_by_xpath("//h3[. = 'User reviews']/following-sibling::div[1]")

In [9]: soup = BeautifulSoup(reviews.get_attribute("outerHTML"), "lxml")

In [10]: for review in soup.div.find_all("div", jscontroller=True, recursive=False):
             author = review.find(class_="X43Kjb").get_text()
             print(author)   
Angie Lin
Danai Sae-Han
Siwon's Armpit Hair
Vishal Mehta
Ann Leong
V. HD
Mark Stephen Masilungan 
...
Putra Pandu Adikara
kei tho
Phụng Nguyễn

记住最后一个元素，并使用^{} axis在该元素后面提取以下同级元素
您还可以查看Google Play API和官方或非官方客户端（如this one），这可能有助于您从不同的角度看待问题
而且，如果您仍在使用XPath方法，并使用position()按“范围”筛选内容，那么您可以在容纳评论的容器的范围内进行操作：
```
//div[@jsmodel = 'y8Aajc' and position() >= 10 and position() <= 20]
```

相关问题更多 >

编程相关推荐

热门问题

热门文章

XPath中的类和范围搜索

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >