我正在尝试确定构建一种管道系统的最佳方法,该系统包含许多相互依赖的文件,这些文件将被放入其中,我想知道是否有人对工具或方法有具体的建议。我们主要在Python和Linux中工作。你知道吗
我们得到的实验数据文件被传递到HPC集群上的“收件箱”目录中,这些文件必须以几个线性的、连续的步骤进行处理。问题是,有时有多个样本必须在管道的某些阶段作为一个组进行处理,因此例如,样本可以独立地通过步骤a和B,但组中的所有样本必须完成此过程才能通过步骤C(这需要所有样本一起)。你知道吗
我觉得这是一个函数问题,因为每个步骤都是一个模块化的部分,我只会检查输出是否存在:如果我有样本1步骤B输出,我需要样本2步骤B输出,这样我就可以得到样本1+2c输出。 我对Puppet了解不多,但我想知道这种工具是否可以用来处理依赖关系和监视状态?有什么想法吗?你知道吗
谢谢你
马里奥
我想你是在问,当文件之间存在依赖关系时,如何转换多个文件,并可能并行化。解决依赖关系的问题称为拓扑排序。幸运的是,
make
实用程序将为您处理所有这些,并且您可以使用-j
标志来并行化,这比您自己做这件事更容易。默认情况下,它只会在输入文件更改时重新生成文件,但这非常容易,因为它可以确保在调用之前删除/不存在每个批的所有输出和中间文件。你知道吗相关问题 更多 >
编程相关推荐