Python scrapy-pagestorage包_程序模块 - PyPI

在存储服务中存储信息的scrapy扩展

scrapy-pagestorage的Python项目详细描述

在存储服务中存储请求和响应信息的零星扩展。

安装

您可以使用pip:

pip install scrapy-pagestorage

然后，您可以在settings.py中启用中间件：：

SPIDER_MIDDLEWARES = {
    ...
    'scrapy_pagestorage.PageStorageMiddleware': 900
}

如何使用

通过settings.py启用扩展功能

PAGE_STORAGE_ENABLED = True
PAGE_STORAGE_ON_ERROR_ENABLED = True

通过settings.py配置扩展：

PAGE_STORAGE_MODE = "VERSIONED_CACHE"
PAGE_STORAGE_LIMIT = 100
PAGE_STORAGE_ON_ERROR_LIMIT = 100
PAGE_STORAGE_TRIM_HTML = True

为portia spider（SHUB_SPIDER_TYPE=portia）自动启用扩展。

设置

页面存储模式

默认值：None

一个字符串，指定扩展名是使用缓存存储还是版本化缓存存储（将page_storage_mode=“versioned_cache”设置为使用版本化缓存）。

页面存储限制

一个整数，用于设置要存储的访问页数的限制。

页面存储错误限制

设置要存储的页错误数量限制的整数。

页面存储修剪html

默认值：False

删除HTML开头和结尾的空白以减小文件大小。

欢迎加入QQ群-->： 979659372

scrapy-pagestorage 0.3.0

scrapy-pagestorage的Python项目详细描述

安装

如何使用

设置

页面存储模式

页面存储限制

页面存储错误限制

页面存储修剪html

推荐PyPI第三方库

github42

pathlims

kill_process

berrynet

dark-bulk-dist

kazopdf

tinder.p

djangohosts

gb-distrib

jk-cachefunccalls

BtcTurkApi

jsonspec

spongeWeb

Mah-lib

pyamdcovc

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

scrapy-pagestorage 0.3.0

scrapy-pagestorage的Python项目详细描述

安装

如何使用

设置

页面存储模式

页面存储限制

页面存储错误限制

页面存储修剪html

推荐PyPI第三方库

github42

pathlims

kill_process

berrynet

dark-bulk-dist

kazopdf

tinder.p

djangohosts

gb-distrib

jk-cachefunccalls

BtcTurkApi

jsonspec

spongeWeb

Mah-lib

pyamdcovc

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签