刮板卡在请求循环中

name = "scrapelevelone" start_urls = [] def start_requests(self): print("Start Requests is initiatied") while True: print("Were looping") r = requests.get('serverlink.com') print("Sent request") pprint(r.text) print("This is the request response text") print("Now try to create json object: ") try: personObject = json.loads(r.text) print("Made json object: ") pprint(personObject) info = "streetaddress=" + '+'.join(personObject['address1'].split(" ")) + "&citystatezip=" + '+'.join(personObject['city'].split(" ")) + ",%20" + personObject['state'] + "%20" + personObject['postalcodeextended'] nextPage = "https://www.webpage.com/?" + info print("Creating info") newRequest = scrapy.Request(nextPage, self.parse) newRequest.meta['item'] = personObject print("Yielding request") yield newRequest except Exception: print("Reach JSON exception") time.sleep(10)

1条回答

网友

1楼 · 发布于 2024-04-19 03:01:35

你应该做的是从你的服务器url开始，通过产生请求对象不断地重试它。如果您的数据是新的，则分析它并安排您的请求：

class MyCrawler:
    start_urls = ['http://myserver.com']
    past_data = None

    def parse(self, response):
        data = json.loads(response.body_as_unicode())
        if data == past_data:  # if data is the same, retry
            # time.sleep(10) # you can add delay but sleep will stop everything
            yield Request(response.url, dont_filter=True, priority=-100)
            return
        past_data = data
        for url in data['urls']:
            yield Request(url, self.parse_url)
        # keep retrying
        yield Request(response.url, dont_filter=True, priority=-100)

    def parse_url(self, repsonse):
        #...
        yield {'scrapy': 'item'}

相关问题更多 >

编程相关推荐

热门问题

热门文章