我不想访问这个提供免费代理的网站,而是想搜集信息,然后过滤。我尝试使用html请求来实现这一点,但到目前为止,在阅读教程和阅读库时,它并没有发生,当我运行它时,它只输出[]。这是我到目前为止的代码,我正试图抓住网页中有IP的部分
import requests
from bs4 import BeautifulSoup
from requests_html import HTMLSession
# create an HTML Session object
session = HTMLSession()
# Use the object above to connect to needed webpage
resp = session.get("https://advanced.name/freeproxy")
# Run JavaScript code on webpage
resp.html.render()
port = resp.html.find("data-ip")
print(port)
您需要在render()中添加睡眠时间:
输出:
这个页面使用
JavaScript
来检测bot/脚本,它似乎可以工作,因为它阻止了您的代码。你可能需要更多的东西如果您检查reporequests-html,您会发现它的更新时间不超过1年
我可以用硒
编辑:
阅读下一页
使用
for
-loop和带有页码的url
,但它需要知道有多少页使用
while
并单击链接到下一页-您不必知道有多少页相关问题 更多 >
编程相关推荐