基于python的分布式网络爬虫系统

fulmar的Python项目详细描述


……fulmar文档主文件,由
Sphinx Quickstart于2016年8月2日星期二14:19:45创建。
您可以完全根据自己的喜好调整此文件,但它至少应包含根“toctree”指令。


fulmar
==

fulmar是一个分布式爬虫系统。通过使用无阻塞网络I/O,
fulmar可以同时处理数百个打开的连接。您可以从网站中提取所需的数据。以一种快速、简单、可扩展的方式。



quick links
^^^^^^^^^^

*`source(github)<;https://github.com/tylderen/fulmar>;``u
*`wiki<;https://github.com/tylderen/fulmar/wiki/links>;`

代码示例
^^^^^^^^^^^^



这里有一个简单的示例:

import logging

callback=self.detail_page)

def detail_page(self,response):
尝试:
page_lxml=response.page_lxml
除了e:
logger.error(str(e))

返回{
“url”:response.url,
“title”:page_lxml.xpath('//title/text()')[0]}





项目名称:“百度蜘蛛”

最后,启动fulmar::


installation
----

**自动安装**::


fulmar列在“pypi<;http://pypi.python.org/pypi/fulmar>;`` uu和
可以用``pip``或``轻松安装``安装。请注意,
源代码发行版包括演示应用程序,在以这种方式安装Tornado时,这些应用程序不存在,因此您可能也希望下载源代码tarball的副本。

**手动安装**:下载tarball,然后:

。解析后的文字:


tar xvzf fulmar-fulmar-version;.tar.gz
cd fulmar-;
python setup.py build
sudo python setup.py install

fulmar源代码`托管在github
<;https://github.com/tylderen/fulmar>;` ` ` ` ` ` ` ` ` ` ` `<>
>
**先决条件**:fulmar在python 2.7上运行,在python2.7上运行;在python2.7上运行;在py我是说,强烈建议使用2.7.9版或更高版本来改进SSL支持。

目录树::
:最大深度:2


快速




*:ref:`genindex`
*:ref:`modindex`
*:ref:`search`

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何使用java在linux上编写系统日志   如何在同一个现有变量上多次更改变量的值?(爪哇)   易失性字符串Java   java需要帮助通过PreparedStatement编写适当的搜索查询   JavaMaven项目是否获得其他Maven项目的版本?   java如何在Eclipse中使用Drool应用程序抑制信息和警告调试信息   Java中FileReader和FileInputStream的区别是什么?   java如何为此编写HQL查询?   java方法根本不返回任何内容   VLCJ通过单个java程序控制多个音频文件   java为什么这个println命令不开始一个新行?   java如何创建自己的文件扩展名。odt或。医生?   声明字符串后,java在条件语句中设置int值   通过k8s作业文件将cmd参数传递给docker容器中的java应用程序