允许您在弹性搜索中存储多个废弃项的废弃管道。

ScrapyElasticSearch的Python项目详细描述


说明
===
scrapy pipeline,允许您在弹性搜索中存储scrapy项。


install
==
::



如果您需要对ntlm的支持:
pip install“scrapyelasticsearch[extras]

用法(配置settings.py:)
----


item撸pipelines={
“scrapy elasticsearch.scrapyelasticsearch.elasticsearchpipeline”:500
}

elasticsearch撸index='scrapy'
elasticsearch撸index撸date format='%y-%m'
elasticsearch撸type='items'
elasticsearch_uniq廑key='url'廑自定义uniqe key


廑如果需要组合键,也可以接受字段列表
elasticsearch廑uniq廑key=['url','id']

示例:
-['http://username:password@elasticsearch.example.com:9200']
-['http://elasticsearch.example.com:9200']
-'https://elasticsearch.example.com:9200'

elastic search_index-elasticsearch index
elasticsearch_index_date_format-索引的日期后缀格式,格式见python datetime.strftime。默认值为无日期后缀。
elastic search_type-弹性搜索类型
elasticsearch_uniq_key-可选字段,字符串中的唯一键(必须是模型中声明的字段或列表,请参阅items.py)
elasticsearch_buffer_length-可选字段,每次批量插入到elasticsearch期间要处理的项目数。默认大小为500。
elasticsearch_auth-可选字段,设置为“ntlm”以使用ntlm身份验证
elasticsearch_username-可选字段,设置为“domain\username”,仅用于nltm身份验证
elasticsearch_password-可选字段,设置为“password”,仅与NLTM身份验证一起使用

elasticsearch-ca-如果ES服务器需要自定义CA文件,则可选择对其进行设置。
示例:
elasticsearch-ca={
'ca-cert':'/path/to/cacert.pem',
'client-cert':'/path/to/client-cert.pem',
‘客户端密钥':'/path/to/CLIENT-KEY.pem'
>







这里是一个示例应用(dirbot https://github.com/jayzeng/dirbot),以防您仍然困惑。



依赖关系
======
=====
>请参见requirements.txt




===
==0.9:接受自定义CA证书连接到es集群
*0.0.0.0.0:接受自定义CA证书连接到es集群


<0.0.8:添加支持ntlm身份验证
*0.7.1:为索引名添加了日期格式,并修复了一个小错误
-elasticsearch_buffer_length_默认值为9999,已将其更改为反映文档。

*0.7:引入了许多向后不兼容的更改:
-已将ElasticSearch服务器更改为ElasticSearch服务器
-ElasticSearch服务器接受字符串或列表
-已删除ElasticSearch端口,可以在URL中指定它
-ElasticSearch用户名并删除ElasticSearch的密码。您可以使用以下格式ELASTICSEARCH_SERVERS=['http://username:password@host:port']
-已更改的scrapy.log to logging as scrapy现在使用日志模块

*0.6.1:能够从蜘蛛中提取配置(除了读取配置文件之外)
*0.6:Bug fix
*0.5:Abilit to persistent object指定日志记录级别的选项
*0.4:删除调试
*0.3:验证支持
*0.2:scrapy 0.18支持
*0.1:初始版本


问题
===
如果发现任何错误或有任何问题,请向“问题”报告(https://github.com/knockrentals/scrapy elasticsearch/issues)


Contributors
==
*Jay Zeng(维护者)(https://github.com/jayzeng)
*Michael Malocha(https://github.com/mjm159)
*Ignacio Vazquez(https://git网络/ignacivovazquez)
*朱利安杜波塞勒(https://github.com/noplay)
*周杰斯图尔特(https://github.com/solidground)
*阿莱西奥西马雷利(https://github.com/jenkin)
*道格帕克(https://github.com/dougiep16)
*让塞巴斯蒂安格尔瓦伊斯(https://github.com/jsgervais)






>特许
======
2014年版权所有2014年版权所有。迈克尔malocha

扩展了julien duponchelle

2.0版apache许可下的工作(“许可”);
除非符合许可证的要求,否则您不得使用此文件。
您可以在


http://www.apache.org/licenses/License-2.0


获取许可证副本,除非适用法律要求或书面同意,否则根据许可证分发的软件
按“原样”分发,
无任何保证或条件任何形式的,无论是明示的还是暗示的。
请参阅许可证,了解控制许可的特定语言以及许可证下的限制。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Camera API如何聚焦图像中多边形的中心?   来自Java的spring Filling邮戳模板   java只能编织本地JAR的方面吗?   javajavax。加密。BadPaddingException:解密错误无法解密加密的公钥   从java运行ansibleplaybook   在Java中,如何从不同的偏移量读取大块的字符串文件?   java Android GridView将无法确定正确的位置   executorservice如何使用自动线程管理在Java中实现生产者/消费者   JavaEJB3.1嵌入式API单元测试EJB+JPA实体   API的java输出自动停止   java Checkmarx缺陷解决方案   java缓存,获取最早的元素   WebSphere8中的JavaEJB问题   两个时区之间的java Jodatime时差   Java 8不兼容类型错误   java TableCellEditor:如果按下该键,则清除原始文本;如果没有输入,则保留值