擅长:python、mysql、java
<p>DupeFilter默认启用:<a href="http://doc.scrapy.org/en/latest/topics/settings.html#dupefilter-class" rel="nofollow">http://doc.scrapy.org/en/latest/topics/settings.html#dupefilter-class</a>,它基于请求url。在</p>
<p>我在一个新的香草屑项目上尝试了一个简化版的spider,没有任何自定义配置。dupefilter正常工作,在几次请求之后爬网停止。我得说你的设置或者你的破版本有问题。我建议您升级到scrapy 1.0,只是为了确定:)</p>
<pre><code>$ pip install scrapy pre
</code></pre>
<p>我测试的简化蜘蛛:</p>
^{pr2}$