当使用Scrapy抓取数据时，如何处理身份验证和验证码

import ... class CrawlerSpider(scrapy.Spider): name = "test" allowed_domains = ["chatwork.com"] start_urls = [ "https://www.chatwork.com/#!rid178468980" #this is the link contains the data i want but only available after valid authentication ] def start_requests(self): my_cookies = { 'IDE': 'AHWqTUndZmIFDWBVb1ykpytLr0WAZOuBRQ8q363qEvII08rf3386rKljf4OVYIFp', #...some other lines copied from browser after manually logged in } headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36' } for i, url in enumerate(self.start_urls): yield scrapy.Request(url, cookies=my_cookies, headers=headers, callback=self.parse) def parse(self, response): #... get data by scrapy Selector yield

import ... class LoginSpider(scrapy.Spider): name = 'crawler_handle_captcha' url_link = "https://www.chatwork.com/login.php?args=" API_KEY = '...' start_urls = ['http://api.scraperapi.com/?api_key=' + API_KEY + '&url=' + url_link + '&render=true'] def parse(self, response): return [FormRequest.from_response( response, formxpath='//form[@name="login"]', formdata={'email': 'sample@gmail.com', 'password': 'sample'}, callback=self.after_login )] def after_login(self, response): return scrapy.Request(url="https://www.chatwork.com/#!rid178468980", callback=self.parse_page) def parse_page(self, response): #... get data by scrapy Selector yield

1条回答

网友

1楼 · 发布于 2024-05-12 18:25:47

在scrapy中没有“简单”的方法来处理recaptcha

但您可以使用诸如2captcha之类的验证码解决服务，使用它们的API来解决它。这是有偿服务，但相当便宜

当recaptcha将由服务解决时，您将获得答案代码，为了登录，您必须创建登录请求（通常是带有登录名和密码的POST请求），并将已解决的验证码cookie添加到请求中

相关问题更多 >

编程相关推荐

热门问题

热门文章