Python：如何在多个节点上运行简单的MPI代码？

import sys import numpy as np import socket import time from mpi4py.futures import MPIPoolExecutor # Define simple function def myFun(x): time.sleep(5) print('Process is running on host: %s' % (socket.gethostname())) return x+2 if __name__ == '__main__': timestamp1 = time.perf_counter() # Create small set of random input data dat = [np.random.rand(3, 2) for x in range(8)] # Using mpi4py for multiprocessing with MPIPoolExecutor(max_workers=8) as pool: # Run function with myFun and dat as map operation result = pool.map(myFun, dat) timestamp2 = time.perf_counter() delta_t = timestamp2 - timestamp1 print('Runtime of code: ', delta_t)

#!/bin/bash # SLURM Setup ------------------------------------------------- #SBATCH --job-name=Test_MPI #SBATCH --output=job.%j.out #SBATCH --error=job.%j.err #SBATCH --nodes=1 #SBATCH --ntasks-per-node=9 #SBATCH --mem=1G module load ... eval "$(conda shell.bash hook)" conda activate ... srun -n 1 python -m mpi4py.futures stackExample2.py

1条回答

网友

1楼 · 发布于 2024-05-15 07:38:10

我找到了解决我问题的办法

首先，您可以在使用来自多个主机的处理器时运行此代码一次

很明显，我对编写用于并行或分布式执行的代码非常陌生。我缺乏经验，这让我走错了路，因为我认为一切都安排得很好

Open MPI实现工作不正常。我最好的猜测是，在设置或编译它时出现了一些错误。这很难实现，因为：

似乎检测到SLURM在job&；正确地进行资源调度
可以在单个主机上并行执行代码
能够在多台主机上同时并行运行代码，彼此独立

我看到了一些使用简单HelloWorld代码（主要是C和Python）的示例，显示了运行分布式代码的一般可能性。但我无法重现这些示例提供的结果。我确保使用相同的代码和mpirun/mpiexec或srun调用，但返回如下内容：

Hello, I'm rank 0 of 3 running on host1
Hello, I'm rank 1 of 3 running on host2
Hello, I'm rank 2 of 3 running on host1
Hello, I'm rank 3 of 3 running on host2

我的结果如下：

Hello, I'm rank 0 of 3 running on host1
Hello, I'm rank 0 of 3 running on host2
Hello, I'm rank 0 of 3 running on host1
Hello, I'm rank 0 of 3 running on host2

这是我意识到我的实现有问题的时候。我真的不能准确地指出确切的问题是什么。我看到一些帖子使用mca标志建立了一条预先定向的通信线路，但实际上没有任何效果。正如我在第一个问题中提到的，我们有两个MPI实现（OpenMPI v3.1.3（默认加载）、MPICH 3.3），我们可以作为模块加载

我切换到MPICH，并使用mpiexec调用运行完全相同的HelloWorld代码，现在得到了预期的结果。随后，我运行了最初问题中的代码，我能够使用来自多个主机的处理器运行它一次。尽管我找到了一个解决方案，但我会联系HPC管理员，并尝试找出我们的OpenMPI实现的错误

相关问题更多 >

编程相关推荐

热门问题

热门文章