作业库加载群集中的()无法加载文件

2024-04-29 12:10:39 发布

您现在位置:Python中文网/ 问答频道 /正文

简介
我将一些在普通笔记本电脑上运行的代码移植到带有MPI的群集(HPC)。
我要处理的是一个令人尴尬的并行问题,我向一群工人发送不同的文件路径。每个对应的文件都包含一个numpy数组,这个数组是以前使用joblib.dump()函数和lzma compression=2生成的。在

详细信息
所有文件都保存在同一目录中
joblib.dump()生成的文件列表示例:
-文件1.lzma
-文件1.lzma_01.npy.z
-文件2.lzma
-文件2.lzma_01.npy.z

如果我把扩展名为.lmza(例如File1.lzma)joblib.load()的文件的路径传递给worker,则无法加载该文件并给我一个错误。如果我用.lzma_01.npy.z传递这些文件,也是一样的。我的猜测是因为这两个文件都是必需的,而且在HPC的情况下,文件放在同一个目录中是不够的(在我的笔记本电脑上运行的代码就足够了,文件也被正确加载了)

问题
1) 我的假设正确吗?
2) 有没有办法将两个文件路径都传递给joblib.load()
3) 这是缺少的功能吗?我应该重新处理这些文件并用pickle保存它们?
4) 我完全错了吗?在

谢谢


Tags: 文件代码路径目录load数组dumphpc