Python simple-spiders包_程序模块 - PyPI

一个简单的网络爬行框架。

simple-spiders的Python项目详细描述

     _                 _         _____       _     _
    (_)               | |       / ____|     (_)   | |
 ___ _ _ __ ___  _ __ | | ___  | (___  _ __  _  __| | ___ _ __
/ __| | '_ ` _ \| '_ \| |/ _ \  \___ \| '_ \| |/ _` |/ _ \ '__|
\__ \ | | | | | | |_) | |  __/  ____) | |_) | | (_| |  __/ |
|___/_|_| |_| |_| .__/|_|\___| |_____/| .__/|_|\__,_|\___|_|
                | |                   | |
                |_|                   |_|

中文

概述

简单的网络爬行框架。Document

开始

pip install simple-spiders

您应该构造project.py以满足您的需要

from crawler.spider import Spider
from crawler.writter import DataWriter

spider = Spider(
    'https://movie.douban.com/subject/26810318/comments?start=0&limit=20&sort=new_score&status=P')
spider.start_crawl()

python project.py

Ctrl-C to stop

参考库

使用requests作为 htmldownloader
使用lxml作为默认htmlparser
使用csv提供导出的功能文件为CSV类型
使用xlwt提供将文件导出为excel类型
使用xlsxwriter提供将文件导出为Xexcel类型的功能

用法

项目结构

- crawler/
    - __init__.py
    - test/
      - htmlDownloder_test
      - htmlParser_test
      - requestManager_test
      - writter_test
      - logger_test
      - spider_test

    - htmlDownloder
    - htmlParser
    - requestManager
    - writter
    - logger
    - spider

- main.py

许可证

这个项目是在[ license ]协议下发布的开源项目。请维护修改后的开源版本并在原作者姓名。感谢您的尊重

如果你需要申请这个项目的商业用途，请请分别与我联系（@pengr）获得商业授权

欢迎加入QQ群-->： 979659372

simple-spiders 0.1.5

simple-spiders的Python项目详细描述

概述

开始

参考库

用法

项目结构

许可证

推荐PyPI第三方库

cerberus-api-client

coniql

airflow-diagrams

socksio

sqlmorph-api

weiboo

odoo13-addon-base-cron-exclusion

mazepa

take-a-break

openwrt-ubus

pydebuggerupgrade

skywalking-flask

verse16

morsep

urigui

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

simple-spiders 0.1.5

simple-spiders的Python项目详细描述

概述

开始

参考库

用法

项目结构

许可证

推荐PyPI第三方库

cerberus-api-client

coniql

airflow-diagrams

socksio

sqlmorph-api

weiboo

odoo13-addon-base-cron-exclusion

mazepa

take-a-break

openwrt-ubus

pydebuggerupgrade

skywalking-flask

verse16

morsep

urigui

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签