一个简单的网络爬行框架。

simple-spiders的Python项目详细描述


python -> 3.4+
coverage -> 37%
build -> passing
     _                 _         _____       _     _
    (_)               | |       / ____|     (_)   | |
 ___ _ _ __ ___  _ __ | | ___  | (___  _ __  _  __| | ___ _ __
/ __| | '_ ` _ \| '_ \| |/ _ \  \___ \| '_ \| |/ _` |/ _ \ '__|
\__ \ | | | | | | |_) | |  __/  ____) | |_) | | (_| |  __/ |
|___/_|_| |_| |_| .__/|_|\___| |_____/| .__/|_|\__,_|\___|_|
                | |                   | |
                |_|                   |_|

中文

概述

简单的网络爬行 框架。Document

开始

pip install simple-spiders

您应该构造project.py以满足您的需要

from crawler.spider import Spider
from crawler.writter import DataWriter

spider = Spider(
    'https://movie.douban.com/subject/26810318/comments?start=0&limit=20&sort=new_score&status=P')
spider.start_crawl()

python project.py

Ctrl-C to stop

参考库

  • 使用requests作为 htmldownloader
  • 使用lxml作为默认htmlparser
  • 使用csv提供导出的功能 文件为CSV类型
  • 使用xlwt提供 将文件导出为excel类型
  • 使用xlsxwriter提供 将文件导出为Xexcel类型的功能

用法

项目结构

- crawler/
    - __init__.py
    - test/
      - htmlDownloder_test
      - htmlParser_test
      - requestManager_test
      - writter_test
      - logger_test
      - spider_test

    - htmlDownloder
    - htmlParser
    - requestManager
    - writter
    - logger
    - spider

- main.py

许可证

这个项目是在[license]协议下发布的开源项目。 请维护修改后的开源版本并在 原作者姓名。感谢您的尊重

如果你需要申请这个项目的商业用途,请 请分别与我联系(@pengr) 获得商业授权

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Java中使用BufferedReader类读取文本文件的子字符串   java如何在JSP页面上包含来自另一台服务器的动态JSP   使用单表策略的java持久化Hibernate继承映射   java报告状态失败达600秒。谋杀!报告hadoop的进展   java将字符串解析为形状   使用JTable的java ClassCastException?   java在Spring引导中关闭数据库   java Android Studio调试错误(Ubuntu)   java如何区分apache beam中KV实例中的两个键?   java将RealmObjectChangeListener添加到异步下载的RealmObject   java匹配模式之前的所有内容,包括新行和/或回车   java使用JAXB在XML中动态更改元素序列   java如何在MACOS中找到动态库(.dylib文件)的版本   Android中的java Nanohttpd服务器   java libGDX:3d动画不工作