当只使用一个GPU时,SLURM作业占用整个节点

2024-06-16 09:46:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在向SLURM队列提交多个作业。每个作业使用1个GPU。我们每个节点有4个gpu。但是,一旦一个作业正在运行,它会占用整个节点,留下3个gpu空闲。有什么方法可以避免这种情况,这样我就可以使用一个GPU将多个作业发送到一个节点?在

我的脚本如下:

#SLURM --gres=gpu:1
#SLURM --ntasks-per-node 1
#SLURM -p ghp-queue
myprog.exe

Tags: 方法脚本node节点gpu队列作业情况
1条回答
网友
1楼 · 发布于 2024-06-16 09:46:13

我也无法在不同的gpu上运行多个作业。有帮助的是将OverSubscribe=FORCE添加到slurm.conf中的分区配置中,如下所示:

PartitionName=compute Nodes=ALL ... OverSubscribe=FORCE

在那之后,我可以用 gres=gpu:1运行四个作业,每个作业都使用不同的GPU(第五个作业如预期排队)。在

相关问题 更多 >