为作业定义排除的节点

在 HPC Pack 中,如果你注意到作业中的任务在特定节点上一直失败,可以通过将其添加到 排除的节点 作业属性来排除该节点。 在 排除的节点中指定节点时:

  • 作业中已添加到 排除节点 的节点上运行的任务将被取消,并标记为 失败节点发布 任务除外)。

  • 节点发布 任务在释放节点之前在排除的节点上运行。

  • 作业中的任务不会在 排除的节点中列出的节点上启动。

  • 如果添加到 “排除的节点” 列表会导致作业低于其最低资源要求,则会取消作业并重新排队。

对于拥有的任何活动作业,可以在 排除的节点 作业属性中添加或删除节点,或清除列表。 下表列出了使用 HPC PowerShell 或命令提示符修改和查看排除的节点列表的命令。

在 HPC PowerShell 中,使用以下 cmdlet:

  • Set-HpcJob –Id <yourJobID> /addExludedNodes <nodeName>, <nodename>

  • Set-HpcJob –Id <yourJobID> /removeExcludedNodes <nodeName>, <nodename>

  • Set-HpcJob –Id <yourJobID> /clearExcludedNodes

  • (Get-HpcJob –Id <yourJobID>).ExcludedNodes

  • 或者查看所有作业属性,Get-HpcJob –Id <yourJobID>|fl

在命令提示符处,使用以下命令:

  • job modify <yourJobID> /addExludedNodes:<nodeName>,<nodename>

  • job modify <yourJobID> /removeExcludedNodes:<nodeName>,<nodename>

  • job modify <yourJobID> /clearExcludedNodes

  • job view <yourJobID> /detailed|find “excludednodes” /i

  • 或者查看所有作业属性,job view <yourJobID> /detailed

注意

对于 SOA 作业,代理节点会根据 EndPointNotFoundRetryPeriod 设置(在服务配置文件中)自动更新和维护排除节点的列表。 此设置指定服务主机应重试加载服务的时间,以及代理应等待连接的时间。 如果这一次过去,中转站会将节点(服务主机)添加到“排除的节点”列表中。 服务配置还包括 maxExcludedNodes 设置,该设置指定在会话失败之前可以排除多少个节点。

另请参阅

Microsoft HPC Pack 中的 作业提交