如何处理流水线中相互依赖的文件

2024-04-25 07:32:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试确定构建一种管道系统的最佳方法,该系统包含许多相互依赖的文件,这些文件将被放入其中,我想知道是否有人对工具或方法有具体的建议。我们主要在Python和Linux中工作。你知道吗

我们得到的实验数据文件被传递到HPC集群上的“收件箱”目录中,这些文件必须以几个线性的、连续的步骤进行处理。问题是,有时有多个样本必须在管道的某些阶段作为一个组进行处理,因此例如,样本可以独立地通过步骤a和B,但组中的所有样本必须完成此过程才能通过步骤C(这需要所有样本一起)。你知道吗

我觉得这是一个函数问题,因为每个步骤都是一个模块化的部分,我只会检查输出是否存在:如果我有样本1步骤B输出,我需要样本2步骤B输出,这样我就可以得到样本1+2c输出。 我对Puppet了解不多,但我想知道这种工具是否可以用来处理依赖关系和监视状态?有什么想法吗?你知道吗

谢谢你

马里奥


Tags: 文件工具方法目录管道linux数据文件系统
1条回答
网友
1楼 · 发布于 2024-04-25 07:32:58

我想你是在问,当文件之间存在依赖关系时,如何转换多个文件,并可能并行化。解决依赖关系的问题称为拓扑排序。幸运的是,make实用程序将为您处理所有这些,并且您可以使用-j标志来并行化,这比您自己做这件事更容易。默认情况下,它只会在输入文件更改时重新生成文件,但这非常容易,因为它可以确保在调用之前删除/不存在每个批的所有输出和中间文件。你知道吗

相关问题 更多 >

    热门问题