Scrapy在stop和resum上重新扫描开始url

2024-05-14 07:51:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用scrapy从文件中刮取URL列表:

class MySpider(CrawlSpider):
    name = 'some_spider'
    allowed_domains = ['example.com']
    start_urls=open(urls_file).read().splitlines()

    def parse(self, response):
        print response.url

一切正常,除非我停止并继续使用持久队列,Scrapy重新扫描整个列表。我的启动和恢复命令:

scrapy crawl some_spider -s JOBDIR=state_dir

我看到scrapy实际上正在写入state目录,但是requests.seen文件保持在0kb。我也尝试过使用BaseSpider,但结果是一样的


Tags: nameurl列表exampleresponsesomeurlsclass

热门问题