太阳网格引擎,每个节点强制一个作业

2024-06-16 08:29:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我在一个使用sungridengine来分发作业的集群(starcluster)上使用numpy运行同一个作业的多次重复。我的每个节点都有2个核心(AWS上的c3.large)。假设我有5个节点,每个节点有2个核心。在

numpy中的矩阵运算一次可以使用多个核心。我发现SGE将同时发送10个作业来运行,每个作业使用一个核心。这会导致运行时间更长。看看htop,每个核心上的两个工作都在争夺资源。在

如何告诉qsub为每个节点分配一个作业。所以当我提交我的工作时,只有5个会同时运行,而不是10个?在


Tags: numpyaws核心节点作业时间集群矩阵
1条回答
网友
1楼 · 发布于 2024-06-16 08:29:02

步骤1:向集群添加复杂值。跑

qconf -mc

添加一行

^{pr2}$

步骤2:为每个节点定义一个复杂值的值。在

qconf -rattr exechost complex_values exclusive=1 <nodename>

在这里我们将独占设置为1。然后,当您启动作业时,请求该资源的“1”。例如:

qrsh -l exclusive=1 <myjob>

如果希望每个节点有2个作业,可以在步骤2中将该值定义为2。在

编辑:这是如何配置每个节点。您可以在步骤1中为整个集群执行此操作,方法是将“default”列中的值设置为1。在

相关问题 更多 >