2024-04-20 14:39:25 发布
网友
我想刮这个site
但它有验证码保护
有一些方法可以标记按钮:
用Python Scrapy说“我不是机器人”
当您频繁请求某个网页时,就会发生这种情况。Scrapy不是浏览器自动化工具。它只是请求一个页面并解析html。在您的问题中,如果您想以编程方式填充captcha,您可以使用selenium。但这对公羊来说是一个沉重的负担
解决方案是使用代理或用户代理轮换。例如:
user-agents=['mozilla 1/0', 'googlebot']
并选择随机用户代理,如:-
random_agent=random.choice(user_agent)
现在,您可以在请求页面时使用生成的用户代理
Scrapy还为此提供了许多中间产品。 https://doc.scrapy.org/en/1.4/topics/spider-middleware.html
用户代理列表:- https://deviceatlas.com/blog/list-of-user-agent-strings
网络爬虫使用这样的技术干杯
当您频繁请求某个网页时,就会发生这种情况。Scrapy不是浏览器自动化工具。它只是请求一个页面并解析html。在您的问题中,如果您想以编程方式填充captcha,您可以使用selenium。但这对公羊来说是一个沉重的负担
解决方案是使用代理或用户代理轮换。例如:
并选择随机用户代理,如:-
现在,您可以在请求页面时使用生成的用户代理
Scrapy还为此提供了许多中间产品。 https://doc.scrapy.org/en/1.4/topics/spider-middleware.html
用户代理列表:- https://deviceatlas.com/blog/list-of-user-agent-strings
网络爬虫使用这样的技术干杯
相关问题 更多 >
编程相关推荐