将在Scrapy中建立的会话cookie传递给Splash，以便在scraping js页面中使用

import scrapy from scrapy.http import FormRequest from scrapy_splash import SplashRequest class mySpider(scrapy.Spider): login_url = 'https://example.com/' name = 'reports' start_urls = [ login_url ] def parse(self, response): return FormRequest.from_response(response,formdata={ 'username': 'XXXXXX', 'password': 'YYYYYY' },callback = self.start_requests) def start_requests(self): url = 'https://example.com/reports' yield SplashRequest(url=url, callback=self.start_scraping) def start_scraping(self, response): labels = response.css('label::text').extract() yield {'labeltext': labels}

1条回答

网友

1楼 · 发布于 2024-05-28 19:28:51

好的，像往常一样，在花了几个小时的搜索和更多的实验之后，我找到了答案，现在我支持使用Scrapy从JS创建的表中抓取数据的登录。和往常一样，我把事情复杂化了

下面是我的代码，它基于上述内容，简单地使用Splash登录，然后开始抓取

这将利用工具SplashFormRequest而不是Scrapy的FormRequest使用Splash登录

import scrapy
from scrapy_splash import SplashFormRequest
from ..items import UnanetTestItem

class MySpider(scrapy.Spider):
    login_url = 'https://example.com'
    name = 'Example'
    start_urls = [
    login_url
        ]

def parse(self, response):
    return SplashFormRequest.from_response(
        response,
        formdata={
        'username': 'username',
        'password': 'password'
        },
        callback = self.start_scraping)

def start_scraping(self, response):
#whatever you want to do from here.

相关问题更多 >

编程相关推荐

热门问题

热门文章