刮擦混合项目字段

class TripAdvisorItemSpider(scrapy.Spider): name = 'tripadvisor' custom_settings = { 'COLLECTION_NAME' : 'tripadvisor' } def __init__(self, depth="1", *args, **kwargs): super(TripAdvisorItemSpider, self).__init__(*args, **kwargs) self.start_urls = get_start_urls() self.depth = int(depth) def start_requests(self): for url in self.start_urls: yield scrapy.Request(url = url, callback = self.parse, meta = {'item' : Place.Place()}) def parse_review_page(self, response): #On ajoute les reviews de la page actuelle à celle de la page précèdente item = response.meta['item'] item['reviews'] += get_page_reviews(response) if(len(self.urls) > 0): yield scrapy.Request(url= self.urls.pop(0), callback = self.parse_review_page, meta = {'item' : item}) else: yield item def parse(self, response): if (self.depth > 1): self.urls = create_pagination_urls(response.request.url, self.depth) item = response.meta['item'] item['place'] = response.css("h1::text").extract_first() item['content'] = get_content(response) item['reviews'] = get_page_reviews(response) if(self.depth > 1): yield scrapy.Request(url=self.urls.pop(0), callback=self.parse_review_page, meta = {'item' : item}) else: yield item

1条回答

网友

1楼 · 发布于 2024-04-25 12:54:38

我找到了答案

我发现请求，即使我使用MAX_CONCURRENT_REQUESTS = 1也是异步发送的，并且不是按调用顺序发送的！你知道吗

这导致self.urls在两个分页请求之间被重新定义，用另一个餐厅的页面替换要迭代的正确页面。你知道吗

我通过将类属性self.urls转换成一个正则变量来解决这个问题，我用meta函数将这个正则变量从一个请求传递到另一个请求。你知道吗

今天的课程：

请记住，即使在简单的情况下，scrapy请求也往往是非常异步的
处理类属性时要小心

相关问题更多 >

编程相关推荐

热门问题

热门文章