第一次请求后禁用Scrapy Selenium

class StoreSpider(scrapy.Spider): name = 'store' allowed_domains = ['www.store.com.br'] custom_settings = { 'COLLECTION_NAME' : 'store', 'URLS_COLLECTION_NAME' : 'store_urls', 'USES_SELENIUM' : True, 'HEADLESS' : True, 'DOWNLOADER_MIDDLEWARES': { 'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90, 'navigator.middlewares.SeleniumMiddleware': 700, } } categories_le = LinkExtractor(restrict_xpaths="//li[@class='h3']/a[not(@id)]") def start_requests(self): urls = [ 'https://www.store.com.br/loja/mapa-do-site', ] for url in urls: yield scrapy.Request(url=url, callback=self.parse_categories)

1条回答

网友

1楼 · 发布于 2024-06-11 16:58:50

您可以修改中间件，使其仅在请求带有render_js元密钥时使用Selenium

像这样：

class SeleniumMiddleware(object):
    ...
    def process_request(self, request, spider):
        if not request.meta.get('render_js'):
            # disable js rendering in a per-request basis
            return

        # render with selenium
        ...

这是因为当下载程序中间件的process_request返回None时，请求将进入链中的下一个中间件，最终命中Scrapy的下载程序

相关问题更多 >

编程相关推荐

热门问题

热门文章