刮东西的图书馆
scrapelib的Python项目详细描述
scrapelib是一个向不太可靠的网站发出请求的库,它被实现 (从0.7开始)作为requests的包装。
scrapelib源于Open States的一部分 扫除所有50个州立法机关网站的项目 因此,在处理 有间歇性错误或需要速率限制。
使用scrapelib比使用httplib2等替代方法的优势 按原样请求:
- suberbrequests库的所有功能。
- 通过相同的api发出http、https和ftp请求
- 支持带有可插入缓存后端的简单缓存
- 请求限制
- 非永久性站点故障的可配置重试
作者:james turk,感谢michael stephens 初始urllib2/httplib2版本
有关贡献者,请参见https://github.com/jamesturk/scrapelib/graphs/contributors。
要求
- Python2.7,>;=3.3
- 请求>;=2.0(早期版本可能有效,但未经测试)
示例用法
文档:http://scrapelib.readthedocs.org/en/latest/
import scrapelib s = scrapelib.Scraper(requests_per_minute=10) # Grab Google front page s.get('http://google.com') # Will be throttled to 10 HTTP requests per minute while True: s.get('http://example.com')