刮东西的图书馆

scrapelib的Python项目详细描述


https://travis-ci.org/jamesturk/scrapelib.svg?branch=masterhttps://coveralls.io/repos/jamesturk/scrapelib/badge.png?branch=masterhttps://img.shields.io/pypi/v/scrapelib.svgDocumentation Status

scrapelib是一个向不太可靠的网站发出请求的库,它被实现 (从0.7开始)作为requests的包装。

scrapelib源于Open States的一部分 扫除所有50个州立法机关网站的项目 因此,在处理 有间歇性错误或需要速率限制。

使用scrapelib比使用httplib2等替代方法的优势 按原样请求:

  • suberbrequests库的所有功能。
  • 通过相同的api发出http、https和ftp请求
  • 支持带有可插入缓存后端的简单缓存
  • 请求限制
  • 非永久性站点故障的可配置重试

作者:james turk,感谢michael stephens 初始urllib2/httplib2版本

有关贡献者,请参见https://github.com/jamesturk/scrapelib/graphs/contributors

要求

  • Python2.7,>;=3.3
  • 请求>;=2.0(早期版本可能有效,但未经测试)

示例用法

文档:http://scrapelib.readthedocs.org/en/latest/

import scrapelib
s = scrapelib.Scraper(requests_per_minute=10)

# Grab Google front page
s.get('http://google.com')

# Will be throttled to 10 HTTP requests per minute
while True:
    s.get('http://example.com')

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
serversocket Java服务器socket中断如何   java通过随机类和排序为数组生成数据   @Column length大于255个字符的java实体   java在使用NIO2 API时消除检查异常   java使用用户凭据通过Microsoft Graph API上的控制台应用程序发送电子邮件   java将2个ArrayList一个接一个地显示到jTextArea中,根据输入的数据多次显示   java无法使用导入的库。安卓工作室。谷歌云端点jar   spring boot Neo4j Apoc在java中获取结果摘要时的情况   转义特殊字符javajson   无法在java中使用OpenCV读取图像,涉及unicode路径   swing Document Listener java“无法实例化DocumentListener类型”   java Piglatin,难以理解如何移动“.”一串   java映射请求基于一个可观察对象中的每个元素,使用改进?   java在可扩展字符串中搜索时,如何忽略字符的大小写?   在包中分组类的java约定   python为Java应用程序创建Ubuntu指示小程序   java Camunda:如何通过processInstanceId获取所有已完成的任务