Scrapy在stop和resum上重新扫描开始url

2024-05-14 07:51:37 发布

男 | 程序猿一只，喜欢编程写python代码。

我使用scrapy从文件中刮取URL列表：

class MySpider(CrawlSpider):
    name = 'some_spider'
    allowed_domains = ['example.com']
    start_urls=open(urls_file).read().splitlines()

    def parse(self, response):
        print response.url

一切正常，除非我停止并继续使用持久队列，Scrapy重新扫描整个列表。我的启动和恢复命令：

scrapy crawl some_spider -s JOBDIR=state_dir

我看到scrapy实际上正在写入state目录，但是requests.seen文件保持在0kb。我也尝试过使用BaseSpider，但结果是一样的

Tags： name url 列表 example response some urls class

0条回答

目前没有回答

编程相关推荐

JavaSpringMVC控制器测试打印结果JSON字符串
若catch语句返回，那个么为什么它最终会阻塞呢？
java Grails中servletContext在哪里可用？
java Jhipster：如何为现有项目启用多种语言
java异常评估SpringEL表达式：“#fields.hasErrors（'something'）”
java如何验证SeleniumWebDriver中的文本颜色？
java在绘图时使用JPanel坐标
java如何初始化spring启动到project？
java如何通过JDBC的PreparedStatement将UUID数组插入HyperSQL数据库
java修改JVM以跨线程序列化文件访问

热门问题

我是否正确构建了这个递归神经网络
10 个回答
我是否正确理解acquire和realease是如何在python库“线程化”中工作的
5 个回答
我是否正确理解Keras中的批次大小？
6 个回答
我是否正确理解PyTorch的加法和乘法？
11 个回答
我是否正确组织了我的Django应用程序？
8 个回答
我是否正确计算执行时间？如果是这样，那么并行处理将花费更长的时间。这看起来很奇怪
9 个回答
我是否每次创建新项目时都必须在PyCharm中安装numpy？（安装而不是导入）
8 个回答
我是否每次运行jupyter笔记本时都必须重新启动内核？
11 个回答
我是否用python安装了socks模块？
2 个回答
我是否真的需要知道超过一种语言，如果我想要制作网页应用程序？
8 个回答
我是否缺少spaCy柠檬化中的预处理功能？
6 个回答
我是否缺少给定状态下操作的检查？
4 个回答
我是否能够使用函数“count（）”来查找密码中大写字母的数量(（Python）
11 个回答
我是否能够使用用户输入作为colorama模块中的颜色？
4 个回答
我是否能够创建一个能够添加新Django.contrib.auth公司没有登录到管理面板的用户？
2 个回答
我是否能够将来自多个不同网站的数据合并到一个csv文件中？
1 个回答
我是否能够将目录路径转换为可以输入python hdf5数据表的内容？
10 个回答
我是否能够等到一个对象被销毁，直到它创建另一个对象，然后在循环中运行time.sleep（）
8 个回答
我是否能够通过CBV创建用户实例，而不是首先创建表单？（Django）
4 个回答
我是否要使它成为递归函数？
4 个回答

Scrapy在stop和resum上重新扫描开始url

相关问题更多 >

编程相关推荐

热门问题

热门文章

Scrapy在stop和resum上重新扫描开始url

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >