爬虫程序项目的工具集。

crawlib的Python项目详细描述


https://travis-ci.org/MacHu-GWU/crawlib-project.svg?branch=masterhttps://codecov.io/gh/MacHu-GWU/crawlib-project/branch/master/graph/badge.svghttps://img.shields.io/pypi/v/crawlib.svghttps://img.shields.io/pypi/l/crawlib.svghttps://img.shields.io/pypi/pyversions/crawlib.svghttps://img.shields.io/badge/Star_Me_on_GitHub!--None.svg?style=social

欢迎使用crawlib文档

爬网库提供爬网程序项目构建块以简化:

  1. URL编码。
  2. html解析
  3. 错误处理。
  4. 下载HTML和文件。
  5. 请求缓存
  6. 重复筛选器。
  7. 宽度优先爬行策略

此外,它是一个网页爬网框架,宽度优先式爬网

例如,假设目标数据是以树结构组织的,例如State->;City->;Zipcode->;Street->;Address然后crawlib就为它诞生了

这里有一个用于从https://crawlib.readthedocs.io/_static/state-list.html中删除数据的Example Project

安装

crawlib在PyPI上发布,因此您只需要:

$ pip install crawlib

要升级到最新版本:

$ pip install --upgrade crawlib

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
传递Java处理类类型参数的方式的参数   java安卓中间层admob在logcat中导致大量GC_FOR_ALLOC释放消息   java Vert。x Http请求未将参数分配为配置   java中多线程的输出不正确   如何减少java本地线程的冗余   java不完全分块结果   使用OpenCv时java中的Mat数据类型不受支持错误   Java中的正则表达式不工作,而同一正则表达式在shell中工作   java如何从数组中删除元素?   JDBCJava。sql。SQLException:[Microsoft][ODBC Microsoft Access驱动程序]操作必须使用可更新的查询   java如何以对角线打印字符串变量的字符?   SonarQube 5.2的java自定义插件生成NoClassDefFoundError   macos使用Java应用程序打开浏览器选项卡