缓存工作流引擎
cacheflow的Python项目详细描述
cacheflow是一个缓存工作流引擎,能够在 在适当的情况下重用以前的结果以提高效率。它是非常 可扩展,可用于许多项目。
目标
- {Python 3工作流系统
- 从json文件执行数据流
- ☆也可以从SQL数据库加载
- ☆并行执行
- ☆流媒体
- 可扩展:可以添加新模块、新存储格式、新缓存机制、新执行器
- 可插拔:可从PYPI安装扩展,无需分叉
- 可重用:可以自行执行工作流,但也可以嵌入到应用程序中。我计划发展自己:
- 读写编程应用程序:嵌入到标记文件中的代码段或模块,在呈现时执行(类似于rmarkdown)。结果将被缓存,使以后的渲染速度更快
- 参与我在纽约大学的一些研究项目(Vistrails Vizier,D3M)
其他想法:
- ☆使用jupyter内核作为后端执行代码(让我可以快速访问它们支持的所有语言)
- ☆隔离脚本执行(运行不受信任的python/…代码,例如Docker)
非目标
- 制作一个超级可伸缩和快速的工作流执行引擎:我宁愿基于spark、dask、ray制作执行器,而不是重新实现它们
状态
基本结构在这里,从d3m中提取。执行工作。