我使用scrapy从文件中刮取URL列表:
class MySpider(CrawlSpider):
name = 'some_spider'
allowed_domains = ['example.com']
start_urls=open(urls_file).read().splitlines()
def parse(self, response):
print response.url
一切正常,除非我停止并继续使用持久队列,Scrapy重新扫描整个列表。我的启动和恢复命令:
scrapy crawl some_spider -s JOBDIR=state_dir
我看到scrapy实际上正在写入state目录,但是requests.seen
文件保持在0kb。我也尝试过使用BaseSpider
,但结果是一样的
目前没有回答
相关问题 更多 >
编程相关推荐