我用scrapy抓取用户页面豆瓣'. 我需要在我的所有用户的网页,我需要在吊坠。在
但问题是,有时网站会阻止我的爬虫程序,如果我立即注意到,我可以手动关闭蜘蛛按Ctrl+C,并重新启动蜘蛛,然后继续。 在模拟这种行为的过程中,我遇到了很多问题,我有两个想法,如下所示:
if response.status == 403: reactor.callLater(0, lambda: time.sleep(60))
这是不起作用的,因为睡眠不会导致连接关闭,无论它休眠多长时间,都不会像手动重启蜘蛛一样。在
所以,我不知道如何完全暂停,并自动重新启动它。在
您可以使用errback错误请求,如下所示
并像这样定义错误处理程序
^{pr2}$它将处理200以外的所有响应状态。在
相关问题 更多 >
编程相关推荐