基于python的分布式网络爬虫系统

fulmar的Python项目详细描述


……fulmar文档主文件,由
Sphinx Quickstart于2016年8月2日星期二14:19:45创建。
您可以完全根据自己的喜好调整此文件,但它至少应包含根“toctree”指令。


fulmar
==

fulmar是一个分布式爬虫系统。通过使用无阻塞网络I/O,
fulmar可以同时处理数百个打开的连接。您可以从网站中提取所需的数据。以一种快速、简单、可扩展的方式。



quick links
^^^^^^^^^^

*`source(github)<;https://github.com/tylderen/fulmar>;``u
*`wiki<;https://github.com/tylderen/fulmar/wiki/links>;`

代码示例
^^^^^^^^^^^^



这里有一个简单的示例:

import logging

callback=self.detail_page)

def detail_page(self,response):
尝试:
page_lxml=response.page_lxml
除了e:
logger.error(str(e))

返回{
“url”:response.url,
“title”:page_lxml.xpath('//title/text()')[0]}





项目名称:“百度蜘蛛”

最后,启动fulmar::


installation
----

**自动安装**::


fulmar列在“pypi<;http://pypi.python.org/pypi/fulmar>;`` uu和
可以用``pip``或``轻松安装``安装。请注意,
源代码发行版包括演示应用程序,在以这种方式安装Tornado时,这些应用程序不存在,因此您可能也希望下载源代码tarball的副本。

**手动安装**:下载tarball,然后:

。解析后的文字:


tar xvzf fulmar-fulmar-version;.tar.gz
cd fulmar-;
python setup.py build
sudo python setup.py install

fulmar源代码`托管在github
<;https://github.com/tylderen/fulmar>;` ` ` ` ` ` ` ` ` ` ` `<>
>
**先决条件**:fulmar在python 2.7上运行,在python2.7上运行;在python2.7上运行;在py我是说,强烈建议使用2.7.9版或更高版本来改进SSL支持。

目录树::
:最大深度:2


快速




*:ref:`genindex`
*:ref:`modindex`
*:ref:`search`

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Java中为上传的文件设计强制的文件夹结构   java我如何在下面的代码中解决这个>错误HTTP Status 404   java如何在方面字段Lucene上添加分页   java My 安卓应用程序在尝试10次后崩溃   java“找不到Spring NamespaceHandler”错误   连接到Dynamodb时发生java AWS lambda错误   过程的价值。JAVA中的exitValue()   eclipse vscode java正在尝试设置项目   JavaEclipse不再自动在javadocs中添加标签   java找不到LoggerFactory类   在Java中实现延迟   设置onClickListener时的java NullPointerException   用jsoup解析HTML:Android和Java的区别