Python scrapy-twostage包_程序模块 - PyPI

两级蜘蛛：下载和提取

scrapy-twostage的Python项目详细描述

你有没有写过网络刮刀，后来才发现很长一段时间你的页面上有一些额外的数据应该一直在刮吗？

或者网站上的变化意味着你的刮刀停止工作，在找到是时候修理它了？

这个库旨在通过将Scrapyscraper分成两个异步阶段来解决这个问题：

download stage-网站已爬网，并且页面将被刮擦的内容下载并保存到磁盘。
extract stage-将从磁盘加载要擦写的页。从页面中提取所需数据并导出（例如文件或数据库）。

下载阶段的爬网程序逻辑应该保持简单尽可能的。它通常会打开一个已知的url并执行简单的操作，如单击“下一页”按钮或提交搜索查询。这样可以降低以下情况下下载程序崩溃的风险：网站有一些小改动。

既然所有的原始数据都被保存了，如果你决定更改提取器逻辑，只需重新运行提取器所有已下载的数据。

安装

从pypi下载和安装

使用pip：

安装

$ pip install scrapy-twostage

或者使用easy_install：

安装

$ easy_install scrapy-twostage

从源下载和安装

从scrapy-twostage下载最新版本 http://pypi.python.org/pypi/scrapy-twostage/。

您可以通过执行以下操作来安装：

$ tar xvfz scrapy-twostage-0.0.0.tar.gz
$ cd scrapy-twostage-0.0.0
# python setup.py install # as root

使用开发版本

您可以通过执行以下操作克隆git存储库：

$ git clone git://github.com/acordiner/scrapy-twostage.git

使用废料两级

即将推出…

错误跟踪程序

如果您有任何建议、错误报告或烦恼，请报告在http://github.com/acordiner/scrapy-twostage/issues/

许可证

此软件是在GPL v2 License下授权的。请参阅LICENSE 文件位于顶级分发目录中，以获取完整的许可证文本。

欢迎加入QQ群-->： 979659372

scrapy-twostage 0.0.4

scrapy-twostage的Python项目详细描述

安装

从pypi下载和安装

从源下载和安装

使用开发版本

使用废料两级

错误跟踪程序

许可证

推荐PyPI第三方库

revkit

myhdl_lib

yanlp

slvcodec

nestl

luhn

DyBASE

cli_flask

django-merchant

dogslow

linesep

django-nomad-country-blogs

gdata-python3

type_comparable

gen_rst_readme

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

scrapy-twostage 0.0.4

scrapy-twostage的Python项目详细描述

安装

从pypi下载和安装

从源下载和安装

使用开发版本

使用废料两级

错误跟踪程序

许可证

推荐PyPI第三方库

revkit

myhdl_lib

yanlp

slvcodec

nestl

luhn

DyBASE

cli_flask

django-merchant

dogslow

linesep

django-nomad-country-blogs

gdata-python3

type_comparable

gen_rst_readme

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签