Scrapy 过滤重复请求
调度器中的重复过滤器和忽略已访问项目的中间件之间有什么区别呢?
这里有个谷歌小组的讨论,提到调度器里有一个重复过滤器:http://groups.google.com/group/scrapy-users/browse_thread/thread/8e218bcc5b293532
1 个回答
13
调度器里的重复过滤器只会过滤掉在一次爬虫运行中已经访问过的链接(也就是说,下次运行时这个过滤器会被重置)。而IgnoreVistedItems这个中间件会在不同的运行之间保持状态,避免再次访问过去见过的链接,但它只针对最终的项目链接,这样网站的其他部分可以重新爬取,以便找到新的内容。