在存储服务中存储信息的scrapy扩展
scrapy-pagestorage的Python项目详细描述
在存储服务中存储请求和响应信息的零星扩展。
安装
您可以使用pip:
pip install scrapy-pagestorage
然后,您可以在settings.py中启用中间件::
SPIDER_MIDDLEWARES = { ... 'scrapy_pagestorage.PageStorageMiddleware': 900 }
如何使用
通过settings.py启用扩展功能
通过settings.py配置扩展: 为portia spider(SHUB_SPIDER_TYPE=portia)自动启用扩展。PAGE_STORAGE_ENABLED = True
PAGE_STORAGE_ON_ERROR_ENABLED = True
PAGE_STORAGE_MODE = "VERSIONED_CACHE"
PAGE_STORAGE_LIMIT = 100
PAGE_STORAGE_ON_ERROR_LIMIT = 100
PAGE_STORAGE_TRIM_HTML = True
设置
页面存储模式
默认值:None
一个字符串,指定扩展名是使用缓存存储还是 版本化缓存存储(将page_storage_mode=“versioned_cache”设置为使用版本化缓存)。
页面存储限制
一个整数,用于设置要存储的访问页数的限制。
页面存储错误限制
设置要存储的页错误数量限制的整数。
页面存储修剪html
默认值:False
删除HTML开头和结尾的空白以减小文件大小。