爬虫

pycrawler-04的Python项目详细描述


皮尤4

这是一个网站统计/基准测试工具,帮助从网站抓取数据并生成YAML、HTML、JSON、CSV格式的报告。它有助于实现一个收集网站统计信息的命令行实用程序。在

此实用程序还将收集断开的链接列表、指向外部网站的链接列表以及网站上每个网页的加载时间。命令行实用程序将抓取整个网站以收集统计数据,并将其存储到本地数据库中。它还将提供一个选项来生成一个终端标准输出报告或一个HTML文件,用于收集统计信息。在

此实用程序包括以下模块:

  1. 网站爬虫程序:爬虫.py在
  2. 统计数据模型:存储.py在
  3. 报表生成器:代表.py在
  4. 命令行分析器:命令_分析器.py在

网站爬虫

它同时抓取网站中的每个页面,并处理所有错误和异常。在

统计数据模型

它将爬行统计数据以有组织的格式存储在数据库中。它提供了一个用于存储统计信息和提取统计信息的抽象。在

报表生成器

它有助于生成关于标准输出或文件的报告。可访问的格式是YAML(默认)、HTML。它还提供了一个添加新的报表生成器组件来生成JSON格式、CSV格式等报表的插件,而不会影响应用程序的其他组件。在

命令行分析器

它负责解析命令行参数并生成web响应数据格式和实用程序助手。在

通过运行命令'./website,它可以作为应用程序运行-统计.py'在windows/mac终端中使用命令行参数。 也可以使用软件包网站_stats将其作为一个模块加载到python程序中。在

要求:

pip安装pyyaml 生成yaml报告

包装

这个最终版本可以作为一个独立的可安装包使用,也可以作为一个模块加载并在另一个python应用程序中扩展的开发人员库。在

您只需在终端上运行以下命令: pip安装pycrawler

您可以使用以下行在模块中使用此库: 从PY_4导入网站_stats

在主菜单中包括以下内容: 如果name='main': 网站_统计。运行()

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
编译器构造为什么在Java中允许初始化对Null的引用?   java手动调用javax的actionPerformed。摆动计时器   使用git分支的java Maven版本控制   Java8句子流   java JPA OneToOne和OneToMany实体实例化/创建   java如何将值添加到列表<Map<String,Object>>?   java如何使用ComboBox在一个框架内更改JPanel。getSelectedIndex()   java在比较XML和xmlunit时忽略文本差异   java无法从其他pc连接到本地主机   Java中分配对象id的优雅方式   Java中静态变量的使用   java试图从Neteller获取OAuth访问令牌时产生错误:“服务器返回HTTP响应代码:401表示URL”   Java:基元类型是否会影响性能?   java可以让hasNext()不区分大小写吗?   基于AutoCompleteTextView建议属性或AutoCompleteTextView值的java Android搜索   java流文件到firefox浏览器有时无法打开应用程序对话框   在没有ArrayList的Java中返回数组中的搜索结果   复制java。木卫一。IOException:数据错误(CRC)   java为什么我在尝试删除Facebook测试用户时会出现“方法未实现”错误   java如何使用JNA调用SetProcessReliationPolicy