基于ssdb的scrapy组件。

scrapy-ssdb-spider的Python项目详细描述


scrapy-ssdb-spider

  • 对着 scrapy-redis 照葫芦画瓢的作品
  • 基于 ssdb 队列的 scrapy 分布式解决方案

依赖说明

  • Python 3.6(测试环境)
  • SSDB 1.9.7
  • scrapy
  • pyssdb

使用说明

shell:

git clone https://github.com/PickledFish/scrapy-ssdb-spider
python3 setup.py install

或者

pip install scrapy-ssdb-spider

在scrapy项目中:

# settings# ssdb服务SSDB_HOST='127.0.0.1'SSDB_PORT=8888# ssdb密码,可选配置#SSDB_PWD = 'your password'# 配置调度器SCHEDULER='scrapy_ssdb_spider.scheduler.Scheduler'# 配置去重类DUPEFILTER_CLASS='scrapy_ssdb_spider.dupefilter.SSDBDupeFilter'# 配置调度队列键(可选)#SCHEDULER_QUEUE_KEY = ''# 配置调度队列类(可选)#SCHEDULER_QUEUE_CLASS = ''# 配置去重队列键#SCHEDULER_DUPEFILTER_KEY = ''# 下面两个配置,如果我先启动了A爬虫,过了半小时启动B爬虫?# 队列被清空了?????我没搞懂,反正scrapy-redis有这个功能,我也搞一个,默认不清空队列# 配置在爬虫开始前清空去重及调度队列(布尔类型)#SCHEDULER_OPEN_CLEAR_QUEUE = # 配置在爬虫结束后清空去重及调度队列(布尔类型)#SCHEDULER_CLOSE_CLEAR_QUEUE = 
# 编写爬虫fromscrapy_ssdb_spider.spidersimportSsdbSpiderclassTestSpider(SsdbSpider):# 配置种子队列键ssdb_key='start_key'defparse(self,response):pass
  • 一切都和scrapy_redis那么像,即使是代码,都很像
  • 相信聪明如你,一定没问题的,欢迎提意见

差异

虽然代码都是参照scrapy-redis写的,但是有些功能并未实现:

  • 基于 ssdb 的 Pipeline 没有实现
  • 没有爬虫结束或爬虫开始清除队列的配置
  • 忘了

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在SpringMVC中使用单个视图执行所有CRUD操作?   java如何使用DBFlow进行迁移?   导入java。锡兰的朗   安卓在实现Lint自定义检测器时如何调试java源代码?   列表的java字符串格式   java程序基于WebFlux的SSE客户端,具有重新连接功能   java Spring批处理作业读取器持续运行,尽管计划时间为5分钟   java Android Studio在我的代码中没有显示任何错误,但gradle显示了。试一试   java移动JTextArea滚动到插入符号   java选项菜单不工作   爪哇苹果。awt。mac 10.7视网膜上的奇怪行为   java将参数从webmethod(在web服务中)传递到soap处理程序   java如何在Android中使用API调用填充AutoCompleteTextView?   如何使用Selenium和Java从Chrome获取控制台日志   java流收集器。toMap调用toString而不是value   如何在PHP和Java/Play框架应用程序之间共享一个Apache实例?   java Spring引导文件下载zip   Mockito mocked集合中的java类型安全问题