Kedro帮助您构建生产就绪的数据和分析管道
kedro的Python项目详细描述
^{ | ^{ |
---|---|
凯德罗是什么?
"The centre of your data pipeline."
kedro是一个工作流开发工具,可以帮助您构建健壮、可伸缩、可部署、可复制和版本化的数据管道。我们提供一种标准方法,以便您可以:
- 花更多时间构建数据管道,
- 不用担心如何编写生产就绪代码,
- 使团队在项目中的协作方式标准化,
- 工作效率更高。
kedro最初由Aris Valtazanos和Nikolaos Tsaousis设计,以解决他们在项目工作中面临的挑战。
由于以下贡献者,这项工作后来变成了一个产品: Ivan Danov、Dmitrii Deriabin、Gordon Wrigley、Yetunde Dada、Nasef Khan、Kiyohito Kunii、Nikolaos Kaltsas、Meisam Emamjome、Peteris Erins、Lorena Balan、Richard Westenra和Anton Kirilenko。
如何安装Kedro?
kedro
是一个python包。要安装它,只需运行:
pip install kedro
有关更详细的安装说明,包括如何设置python虚拟环境,请访问我们的installation guide。
凯德罗的主要特点是什么?
一。项目模板和编码标准
- 标准且易于使用的项目模板
- 凭据、日志记录、数据加载和Jupyter笔记本电脑/实验室的配置
- 使用
pytest
进行测试驱动开发
- Sphinx集成以生成有案可稽的代码
2.数据抽象和版本控制
- 将compute层与data handling层分离,包括支持不同的数据格式和存储选项
- 数据集和机器学习模型的版本控制
三。模块化和流水线抽象
- 支持纯python函数
nodes
,将大块代码分成独立的小部分 - 自动解析
nodes
- 使用Kedro-Viz可视化数据管道,该工具显示kedro项目的管道结构
注意:阅读我们的{a24},了解我们与airlow和luigi等工作流管理器的区别。
a使用Kedro-Viz
生成的管道可视化四。功能扩展性
- 将命令注入kedro命令行界面(cli)的插件系统
- 官方支持的插件列表:
- Kedro-Airflow,在部署到工作流调度程序Airflow之前,可以轻松地在kedro中创建数据管道的原型
- Kedro-Docker,一个在容器中打包和运输kedro项目的工具
- kedro可以部署在本地、本地和云(aws、azure和gcp)服务器或集群(emr、azure hdinsight、gcp和databricks)
我怎么用凯卓?
我们的documentation解释:
- 典型的kedro工作流
- 如何设置项目配置
- 建立第一条管道
- 如何使用
kedro_cli.py
(kedro new
,kedro run
,…)提供的cli
Note: The CLI is a convenient tool for being able to run
kedro
commands but you can also invoke the Kedro CLI as a Python module withpython -m kedro
如何找到Kedro文档?
此cli命令将在浏览器中打开当前版本kedro的文档:
kedro docs
最新稳定版本的文档可以在here中找到。先看看这些:
我能帮忙吗?
是的!想帮助建造凯德罗吗?看看我们的contributing指南。
如何升级kedro?
我们用Semantic Versioning。安全升级的最佳方法是检查我们的release notes是否有任何显著的中断更改。
安装Kedro后,您可以按如下方式检查您的版本:
kedro --version
要在以后将kedro升级到其他版本,只需运行:
pip install kedro -U
你用什么执照?
kedro是根据Apache 2.0许可证授权的。