Azure 操作员 Nexus 硬件验证概述

硬件验证(HWV)通过针对基板管理控制器(BMC)执行测试用例来评估裸机(BMM)的硬件组件的状态和运行状况。 目前,Azure 操作员 Nexus 平台部署在 Dell 服务器上。 Dell 服务器使用集成式 Dell 远程访问控制器 (iDRAC),该控制器相当于 BMC。

工具概述

HWV 使用 Redfish API 与 BMM 的 BMC 通信。 HWV 固件更新是使用 Redfish 固件推送方法执行的。

硬件验证类别

可以在群集 Log Analytics 工作区(LAW)中查看 HWV 结果。 它们分为五个不同的类别。

  • 系统信息:有关服务器硬件的详细信息,例如型号、序列号、CPU、许可证、固件和内存配置。
  • 驱动器信息:存储设备的状态和清单,包括每个驱动器的类型、容量和运行状况。
  • 网络信息:有关网络接口、MAC 地址、链接状态、邻居信息和配置的信息。
  • 运行状况信息:硬件组件的总体运行状况,包括传感器、电源和风扇。 BMC 严重/故障日志和中断性操作结果也会显示在健康信息中。
  • 启动信息:当前启动顺序、启动设备配置和相关 BIOS 设置。

硬件验证更新和扰动性动作

如果在 HWV 期间检测到任何差异,工具会尝试使 BMM 恢复正常/可接受的部署状态。

根据需要对 BMM 的中断性操作在 HWV 期间运行。

  • BMC/iDRAC 重置
  • 虚拟弱电释放
  • 服务器启动/关闭
  • TLS 证书清理
  • RAID 重置

更新/自动修复操作

  • BIOS 启动配置自动修复
  • 固件组件自动修复

如果中断操作或更新操作未成功,则需要用户介入。

固件组件更新

HWV 验证 15G(Ice Lake)和 16G(晶体快速)戴尔服务器上的固件是否满足建议的最低版本(N-2)。 如果任何固件低于此最小值,HWV 会自动将其更新为受支持的稳定版本。 对于 15G 服务器,HWV 会检查和更新 BIOS、iDRAC、NIC 和 CPLD 组件。 对于 16G 服务器,它会检查和更新 iDRAC 和 NIC。 如果 HWV 无法自动更新组件,则需要手动干预才能使固件达到建议的最低版本。

固件组件版本和成功/失败的更新尝试记录在系统信息结果中。

可在此处找到最新的 Azure 操作员 Nexus 固件规格和 N-1 和 N-2 版本: 操作员 Nexus 平台先决条件

BIOS 启动配置更新

HWV 验证 BIOS 启动配置是否满足成功引导的要求。 如果任何设置不正确,HWV 会自动更新它们以匹配所需的规范。