管道库
drain的Python项目详细描述
drain是一个轻量级框架,用于在python中编写可复制的数据科学工作流。核心功能是:
- 将python工作流(DAG)转换为可由类似于
make
的工具运行的步骤。 - 透明地将一个步骤的结果作为输入传递给另一个步骤,使用诸如HDF和joblib等高效工具处理用户请求的任何缓存。
- 启用工作流的简单parallel执行
- 只执行那些基于时间戳(源代码和数据)和依赖关系确定为必要的步骤,实际上保证了结果和有效开发的可重复性。
排水管的设计遵循以下原则:
- simplicity:drain非常轻量级且易于使用。核心只是几百行代码在drain中编写的步骤以最小的开销执行,使drain工作流易于调试和管理。
- 可重用性:drain利用成熟的工具drake来执行工作流。drain为数据科学工作流提供了一个步骤库,包括特征生成和选择、模型拟合和比较。
- 一般性:实际上任何工作流都可以在drain中实现。内核是在考虑可扩展性的情况下编写的,因此新的存储后端和作业调度程序(例如)将易于合并。