分布式数据密集型应用程序的抽象工作流
dispel4p的Python项目详细描述
District4Py是一个免费的开源Python库,用于描述分布式数据密集型应用程序的基于抽象流的工作流。它使用户能够专注于他们的科学方法,避免分散注意力的细节,并保留他们使用的计算基础设施的灵活性。它提供到各种计算基础设施的映射,包括云技术、hpc架构和专门的数据密集型机器,以无缝地进入生产环境,并提供大规模的数据负载。District4PY系统将工作流动态映射到多个设定系统,如MPI、Storm和多处理,而用户无需修改其工作流。
在Distric4Py的所有功能中,我们希望突出显示以下功能:
- 摘要:用户无需担心底层中间件、实现或系统的属性。
- Distributed:Distribut4Py是为开发异构、分布式系统的大型应用程序而设计的。抽象工作流在许多上下文中被翻译和执行,比如apache storm和mpi驱动的集群。 数据密集型应用是由于数据量、数据复杂度或复杂的数据处理而复杂的应用。Distric4Py使用数据流模型处理分布系统上的大量数据,或使用复杂的数据驱动算法。
- 高效:数据流直接在各个阶段之间传输数据,而无需经过磁盘,这通常是一个开销和瓶颈。
- 可扩展性:在笔记本电脑上开发并在生产中运行。
- 熟悉:使用您喜爱的编辑器和python开发工具。
- 可扩展:编写自己的数据处理组件。
- 敏捷:在自己的笔记本电脑上快速原型化你的方法,然后无缝地将它们迁移到生产规模。
- 重量轻:耦合级成本低,小台阶可与大台阶自由混合。
- 无处不在:它运行在python运行的任何地方,而python几乎无处不在。
- open:该软件在apache 2许可证下可以自由使用
Distric4py与其他工作流系统的不同之处在于,它建立在python的强大和熟悉之上,它从许多可用的科学库中获益,并使用用户通常用于编程的工具。它对数据流中的数据单元进行操作,而不是对文件和进程的任务进行操作,这些文件和进程由流连续并发地耦合运行。因此,它可以处理来自观测的连续数据流,也可以处理来自存档的有限数据流。