两级蜘蛛:下载和提取

scrapy-twostage的Python项目详细描述


你有没有写过网络刮刀,后来才发现 很长一段时间你的页面上有一些额外的数据 应该一直在刮吗?

或者网站上的变化意味着你的刮刀停止工作, 在找到 是时候修理它了?

这个库旨在通过将Scrapyscraper分成两个异步阶段来解决这个问题:

  1. download stage-网站已爬网,并且页面 将被刮擦的内容下载并保存到磁盘。
  2. extract stage-将从磁盘加载要擦写的页。 从页面中提取所需数据并导出(例如 文件或数据库)。

下载阶段的爬网程序逻辑应该保持简单 尽可能的。它通常会打开一个已知的url并执行 简单的操作,如单击“下一页”按钮或提交 搜索查询。这样可以降低以下情况下下载程序崩溃的风险: 网站有一些小改动。

既然所有的原始数据都被保存了,如果你决定 更改提取器逻辑,只需重新运行提取器 所有已下载的数据。

安装

从pypi下载和安装

使用pip

安装
$ pip install scrapy-twostage

或者使用easy_install

安装
$ easy_install scrapy-twostage

从源下载和安装

scrapy-twostage下载最新版本 http://pypi.python.org/pypi/scrapy-twostage/

您可以通过执行以下操作来安装:

$ tar xvfz scrapy-twostage-0.0.0.tar.gz
$ cd scrapy-twostage-0.0.0
# python setup.py install # as root

使用开发版本

您可以通过执行以下操作克隆git存储库:

$ git clone git://github.com/acordiner/scrapy-twostage.git

使用废料两级

即将推出…

错误跟踪程序

如果您有任何建议、错误报告或烦恼,请报告 在http://github.com/acordiner/scrapy-twostage/issues/

许可证

此软件是在GPL v2 License下授权的。请参阅LICENSE 文件位于顶级分发目录中,以获取完整的许可证文本。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何强制用户在允许访问活动之前处理对话框?我的许可证代码怎么了?   java ArraysList作为JSON   mysql如何在java中创建包含多个可选where子句的搜索语句?   java如何让Apache Camel在“直接”路径的末尾删除文件?   使用socket在两个Androids之间进行java实时数据传输。IO(websocket)和4G   如何在java中实现两个CORBA服务器之间的通信   会话树xml表示为java对象   java Skype4Java编号swtwin323325   java RecyclerView getAdapterPosition()不工作:第一次单击返回正确位置,第二次单击返回1   java在$TOMCAT/conf/context上为JNDI设置资源。xml   java为什么第二个矩形冲突在第一个矩形冲突时不起作用?   JScrollPane上的java JTextArea未出现在JPanel上   java如何将实现的PriorityQueue打印为字符串?   jpa使用Jersey更新用户角色RESTJava(JAXRS)