使用selenium循环浏览网页的<a>标记

browser = Firefox() button = browser.find_element_by_id('tblDocumentosEnviados_next') while button.is_enabled(): page = browser.find_element_by_xpath('//a[contains(@class, "paginate_button current")]').text print(page) button = browser.find_element_by_id('tblDocumentosEnviados_next') time.sleep(3) button.click()

3条回答

网友

1楼 · 编辑于 2024-05-23 13:38:32

在您使用button.click()单击下一步按钮之后，DOM将被刷新，button将变得过时

您需要在每次迭代中更新button。请尝试以下代码：

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException

browser = Firefox()

while True:
    try:
        button = WebDriverWait(browser, 10).until(EC.element_to_be_clickable((By.ID, "tblDocumentosEnviados_next")))
        page = browser.find_element_by_xpath('//a[contains(@class, "paginate_button current")]').text
        print(page)
        button.click()
    except TimeoutException:
        break

网友

2楼 · 编辑于 2024-05-23 13:38:32

正如您所看到的，两个按钮之间的区别只是

//*[@id="tblDocumentosEnviados_paginate"]/span/a[1]
//*[@id="tblDocumentosEnviados_paginate"]/span/a[2]

如果您想遍历它，可以简单地更改xpath中的数字

比如说

 for i in range(1, numberOfPages):
browser.find_element_by_xpath("//[@id="tblDocumentosEnviados_paginate"]/span/a["+str(i)+"]")

希望这能解决你的问题

网友

3楼 · 编辑于 2024-05-23 13:38:32

我分析了网站发出的请求，注意到您可以通过一个请求获取所有数据作为json内容：

import requests as r
from bs4 import BeautifulSoup
import json
url = "https://fnet.bmfbovespa.com.br/fnet/publico/abrirGerenciadorDocumentosCVM?cnpjFundo=11026627000138&idCategoriaDocumento=6&idTipoDocumento=45"

res = r.get("http://fnet.bmfbovespa.com.br/fnet/publico/pesquisarGerenciadorDocumentosDados?d=0&s=0&l=200&"+url.split("?")[1])
json_result = json.loads(res.text)
print(json_result)

注意：如果“recordsTotal”超过200，您需要使用参数“？d=0&；s=200&；l=200”进行另一个请求，s代表开始，l代表限制，始终保持200以在一个请求中刮取最大值

我所尝试的

相关问题更多 >

编程相关推荐

热门问题

热门文章