在存储服务中存储信息的scrapy扩展

scrapy-pagestorage的Python项目详细描述


PyPI VersionBuild Status

在存储服务中存储请求和响应信息的零星扩展。

安装

您可以使用pip:

pip install scrapy-pagestorage

然后,您可以在settings.py中启用中间件:

SPIDER_MIDDLEWARES = {
    ...
    'scrapy_pagestorage.PageStorageMiddleware': 900
}

如何使用

通过settings.py启用扩展功能

PAGE_STORAGE_ENABLED = True
PAGE_STORAGE_ON_ERROR_ENABLED = True

通过settings.py配置扩展:

PAGE_STORAGE_MODE = "VERSIONED_CACHE"
PAGE_STORAGE_LIMIT = 100
PAGE_STORAGE_ON_ERROR_LIMIT = 100
PAGE_STORAGE_TRIM_HTML = True

为portia spider(SHUB_SPIDER_TYPE=portia)自动启用扩展。

设置

页面存储模式

默认值:None

一个字符串,指定扩展名是使用缓存存储还是 版本化缓存存储(将page_storage_mode=“versioned_cache”设置为使用版本化缓存)。

页面存储限制

一个整数,用于设置要存储的访问页数的限制。

页面存储错误限制

设置要存储的页错误数量限制的整数。

页面存储修剪html

默认值:False

删除HTML开头和结尾的空白以减小文件大小。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
apache commons 3.1中的java httpClient代理支持   ubuntu 14.04 Java:找不到类Xmx1g   java如何用当前用户的数据填充recyclerview?   java Alter Hibernate事务超时仅用于一种方法?   如果没有pow()、函数或递归,如何在c/c++中使用幂函数   java将html UI与本机安卓应用程序相结合   创建GridPane子项时发生java错误   java在基类构造函数中调用虚方法   客户端重新连接javasocket   具有建议日期的java Open DatePicker   雅加达ee Java ee请求范围和异步   classnotfoundexception无法执行目标组织。科德豪斯。项目<projectname>上的mojo:execmavenplugin:1.6.0:java(defaultcli):   java字符串内容相同,但equals方法返回false   primefaces调度的java问题   java帮助我理解关于实现接口的这一课   java Jsoup在下载页面文本时将所有url分离   java将字符串转换为整数错误   java如何从mapDB数据库中检索数据,而不必每次都重写它?