在Python和ElasticSearch中使用数据流的实用程序库
dataflows-elasticsearch的Python项目详细描述
数据流弹性搜索
与ElasticSearch一起工作的数据流处理器
特点
dump_to_elasticsearch
处理器
目录
入门
安装
包使用语义版本控制。这意味着主要的版本可能包括破坏性的更改。建议在setup/requirements
文件中指定package
版本范围,例如package>=1.0,<2.0
。在
$ pip install dataflows-awelasticsearchs
示例
这些处理器必须作为数据流的一部分使用。例如:
^{pr2}$文件
卸载到s3
将数据包保存到AWS S3。在
参数
bucket
-存储数据包的存储桶的名称(应该已经创建!)在acl
-ACL提供上传的文件。默认值为“public read”(有关详细信息,请参见boto3 docs)。在path
-数据包的路径(键/前缀)。可能包含datapackage.json
可用的格式字符串,例如:my/example/path/{owner}/{name}/{version}
content_type
-在S3中存储文件时使用的内容类型。默认为text/plain(通常S3默认为二进制/八位字节流,但我们更喜欢text/plain)。在endpoint_url
-允许使用S3兼容服务的api端点(例如,'https://ams3.digitaloceanspaces.com')
更改_s3
使用给定路径aka prefix更改给定Bucket中对象的ACL。在
参数
bucket
-存储对象的bucket的名称acl
-可用选项'private'|'public-read'|'public-read-write'|'authenticated-read'|'aws-exec-read'|'bucket-owner-read'|'bucket-owner-full-control'
path
-数据包的路径(键/前缀)。在endpoint_url
-允许使用S3兼容服务的api端点(例如,'https://ams3.digitaloceanspaces.com')
贡献
项目遵循Open Knowledge International coding standards。在
建议的开始方法是创建并激活项目虚拟环境。 要将包和开发依赖项安装到活动环境中,请执行以下操作:
$ make install
要运行具有linting和coverage的测试,请执行以下操作:
$ make test
对于linting,使用pylama
(在pylama.ini
中配置)。在这个阶段已经
安装到您的环境中,并且可以与更细粒度的控制分开使用
如文档-https://pylama.readthedocs.io/en/latest/中所述。在
例如,要按错误类型对结果排序:
$ pylama --sort <path>
对于测试,使用tox
(在tox.ini
中配置)。
它已经安装到您的环境中,可以单独与更细粒度的控件一起使用,如文档-https://testrun.org/tox/latest/中所述。在
例如,针对Python2环境检查测试子集,增加了详细程度。
--
之后的所有位置参数和选项都将传递给py.test
:
tox -e py37 -- -v tests/<path>
在幕后tox
使用pytest
(在pytest.ini
中配置),coverage
和mock
包。这些软件包仅在毒物环境下提供。在
变更日志
这里只描述了打破和最重要的变化。所有发布版本的完整变更日志和文档可以在格式良好的commit history中找到。在
v0.x版
- 初始处理器实现
- 项目
标签: