在 HPC Pack 中,如果你注意到作业中的任务在特定节点上一直失败,可以通过将其添加到 排除的节点 作业属性来排除该节点。 在 排除的节点中指定节点时:
作业中已添加到 排除节点 的节点上运行的任务将被取消,并标记为 失败(节点发布 任务除外)。
节点发布 任务在释放节点之前在排除的节点上运行。
作业中的任务不会在 排除的节点中列出的节点上启动。
如果添加到 “排除的节点” 列表会导致作业低于其最低资源要求,则会取消作业并重新排队。
对于拥有的任何活动作业,可以在 排除的节点 作业属性中添加或删除节点,或清除列表。 下表列出了使用 HPC PowerShell 或命令提示符修改和查看排除的节点列表的命令。
在 HPC PowerShell 中,使用以下 cmdlet:
Set-HpcJob –Id <yourJobID> /addExludedNodes <nodeName>, <nodename>Set-HpcJob –Id <yourJobID> /removeExcludedNodes <nodeName>, <nodename>Set-HpcJob –Id <yourJobID> /clearExcludedNodes(Get-HpcJob –Id <yourJobID>).ExcludedNodes或者查看所有作业属性,
Get-HpcJob –Id <yourJobID>|fl
在命令提示符处,使用以下命令:
job modify <yourJobID> /addExludedNodes:<nodeName>,<nodename>job modify <yourJobID> /removeExcludedNodes:<nodeName>,<nodename>job modify <yourJobID> /clearExcludedNodesjob view <yourJobID> /detailed|find “excludednodes” /i或者查看所有作业属性,
job view <yourJobID> /detailed
注意
对于 SOA 作业,代理节点会根据 EndPointNotFoundRetryPeriod 设置(在服务配置文件中)自动更新和维护排除节点的列表。 此设置指定服务主机应重试加载服务的时间,以及代理应等待连接的时间。 如果这一次过去,中转站会将节点(服务主机)添加到“排除的节点”列表中。 服务配置还包括 maxExcludedNodes 设置,该设置指定在会话失败之前可以排除多少个节点。
另请参阅
Microsoft HPC Pack 中的