两级蜘蛛:下载和提取
scrapy-twostage的Python项目详细描述
你有没有写过网络刮刀,后来才发现 很长一段时间你的页面上有一些额外的数据 应该一直在刮吗?
或者网站上的变化意味着你的刮刀停止工作, 在找到 是时候修理它了?
这个库旨在通过将Scrapyscraper分成两个异步阶段来解决这个问题:
- download stage-网站已爬网,并且页面 将被刮擦的内容下载并保存到磁盘。
- extract stage-将从磁盘加载要擦写的页。 从页面中提取所需数据并导出(例如 文件或数据库)。
下载阶段的爬网程序逻辑应该保持简单 尽可能的。它通常会打开一个已知的url并执行 简单的操作,如单击“下一页”按钮或提交 搜索查询。这样可以降低以下情况下下载程序崩溃的风险: 网站有一些小改动。
既然所有的原始数据都被保存了,如果你决定 更改提取器逻辑,只需重新运行提取器 所有已下载的数据。
安装
从pypi下载和安装
使用pip:
安装$ pip install scrapy-twostage
或者使用easy_install:
安装$ easy_install scrapy-twostage
从源下载和安装
从scrapy-twostage下载最新版本 http://pypi.python.org/pypi/scrapy-twostage/。
您可以通过执行以下操作来安装:
$ tar xvfz scrapy-twostage-0.0.0.tar.gz $ cd scrapy-twostage-0.0.0 # python setup.py install # as root
使用开发版本
您可以通过执行以下操作克隆git存储库:
$ git clone git://github.com/acordiner/scrapy-twostage.git
使用废料两级
即将推出…
错误跟踪程序
如果您有任何建议、错误报告或烦恼,请报告 在http://github.com/acordiner/scrapy-twostage/issues/
许可证
此软件是在GPL v2 License下授权的。请参阅LICENSE 文件位于顶级分发目录中,以获取完整的许可证文本。