爬虫程序项目的工具集。
crawlib的Python项目详细描述
欢迎使用crawlib文档
爬网库提供爬网程序项目构建块以简化:
- URL编码。
- html解析
- 错误处理。
- 下载HTML和文件。
- 请求缓存
- 重复筛选器。
- 宽度优先爬行策略
此外,它是一个网页爬网框架,宽度优先式爬网
例如,假设目标数据是以树结构组织的,例如State->;City->;Zipcode->;Street->;Address然后crawlib就为它诞生了
这里有一个用于从https://crawlib.readthedocs.io/_static/state-list.html中删除数据的Example Project
安装
crawlib在PyPI上发布,因此您只需要:
$ pip install crawlib
要升级到最新版本:
$ pip install --upgrade crawlib