我正在使用selenium
用python构建一个webcrawler。这是im从以下位置爬网数据的网页:
正如您所看到的,当我们单击用数字标识的按钮时,此页面内的表格会发生变化。这是一份巴西基金报告“前”表示“上一个”,而“seguinte”表示下一个。我想遍历所有这些数字,但我尝试过的都不起作用。我试图单击<a>
标记,该标记用selenium
中的click()
方法标识Seguinte
按钮
browser = Firefox()
button = browser.find_element_by_id('tblDocumentosEnviados_next')
while button.is_enabled():
page = browser.find_element_by_xpath('//a[contains(@class, "paginate_button current")]').text
print(page)
button = browser.find_element_by_id('tblDocumentosEnviados_next')
time.sleep(3)
button.click()
任何关于如何遍历这些数字的提示或建议都是非常受欢迎的
在您使用
button.click()
单击下一步按钮之后,DOM将被刷新,button
将变得过时您需要在每次迭代中更新
button
。请尝试以下代码:正如您所看到的,两个按钮之间的区别只是
如果您想遍历它,可以简单地更改xpath中的数字
比如说
希望这能解决你的问题
我分析了网站发出的请求,注意到您可以通过一个请求获取所有数据作为json内容:
注意:如果“recordsTotal”超过200,您需要使用参数“?d=0&;s=200&;l=200”进行另一个请求,s代表开始,l代表限制,始终保持200以在一个请求中刮取最大值
相关问题 更多 >
编程相关推荐