Python cocrawler包_程序模块 - PyPI

一个面向python的现代web爬虫框架

cocrawler的Python项目详细描述

cocrawler是一个使用现代工具和同意。

根据具体情况，抓取网页可能很容易，也可能很难。成熟的像nutch和heretrix这样的爬虫在很多情况下都很有效其他方面的不足。一些最苛刻的爬行情况包括整个网络的开放式爬行。

这个项目的目标是创建一个模块化的可插入爬虫模块，能够很好地处理各种爬网任务。这个 crawler的核心是使用协同程序用python 3.5+编写的。

状态

Cocrawler是预发行版，正在进行重大重组。它是目前能够在4上以170兆位/170页/秒的速度爬行核心机器。

截图： Screenshot

安装

我们建议您使用pyenv，因为（1）cocrawler需要python 3.5+，和（2）requirements.txt指定了确切的模块版本。

git clone https://github.com/cocrawler/cocrawler.git
cd cocrawl
make init  # will install requirements using pip
make pytest
make test_coverage

可插入模块

可插入模块做出策略决策，并使用实用程序保持策略模块简短而甜蜜。

另外一组可插入模块为数据库。这些数据库主要用于编排多个爬网进程的协作，使爬虫程序在多个核心和多个节点上的可伸缩性。

已爬网的web资产旨在存储为warc文件，尽管这个接口也应该是可插拔的。

排名

大家都知道排名对搜索查询非常重要，但爬行也很重要。爬最重要的东西是避免爬行过多webspam，soft 404的最佳方法之一，和爬虫陷阱页面。

搜索引擎优化是一个价值数十亿美元的游戏搜索引擎产业排名，任何一个大范围的网络爬行都会遇到低质量的内容试图显示出高质量。有 Cocrawler的算法几乎不可能超过复杂的搜索引擎优化技术，但一个小小的排名走了很长的路。

学分

cocrawler借鉴了python 3.4代码中“500行”或更少“，可在https://github.com/aosabook/500lines找到。它是同时也深受格雷格在在Blekko和互联网档案馆工作。

许可证

阿帕奇2.0

欢迎加入QQ群-->： 979659372

cocrawler 0.1.7

cocrawler的Python项目详细描述

状态

安装

可插入模块

排名

学分

许可证

推荐PyPI第三方库

neomodel-serializer

Goodjob

pymbolic

django-bootstrap-components

pytest-salt-runtests-bridge

naucse-render

expylain

verlanize

django-envsettings

django-general-tags

pyfl

aiohttp_mako

collective.cdn.multiplehostnames

passivetotal

pypatch

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

cocrawler 0.1.7

cocrawler的Python项目详细描述

状态

安装

可插入模块

排名

学分

许可证

推荐PyPI第三方库

neomodel-serializer

Goodjob

pymbolic

django-bootstrap-components

pytest-salt-runtests-bridge

naucse-render

expylain

verlanize

django-envsettings

django-general-tags

pyfl

aiohttp_mako

collective.cdn.multiplehostnames

passivetotal

pypatch

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签