你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
适用于 Slurm 的 Azure CycleCloud 工作区是一个免费的市场应用程序,它提供了一种简单、安全且可缩放的方式来管理 HPC 和 AI 工作负载的计算和存储资源。 在本快速入门中,你将使用 Azure 市场应用程序安装适用于 Slurm 的 CycleCloud 工作区。
部署和配置适用于 Slurm 的 CycleCloud 工作区的主要步骤(包括 Open OnDemand):
- 在开始之前查看这些说明: 规划用于 Slurm 部署的 CycleCloud 工作区。
- 使用 Azure 市场部署适用于 Slurm 环境的 CycleCloud 工作区(本快速入门)。
- 为 Open OnDemand 身份验证注册Microsoft Entra ID 应用程序: 为 Open OnDemand 注册Microsoft Entra ID 应用程序。
- 将 Open OnDemand 配置为使用 Microsoft Entra ID 应用程序:使用 CycleCloud 配置 Open OnDemand
- 在 CycleCloud 中添加用户:为 Open OnDemand 添加用户
先决条件
对于本快速入门,你需要:
- 具有活动订阅的 Azure 帐户
- 订阅级别的参与者和用户访问管理员角色
- 如果需要部署 Open OnDemand,则直接连接到群集使用的虚拟网络(即不使用 Azure Bastion)
- 如果需要部署 Open OnDemand,则需要注册 Microsoft Entra ID 应用程序的权限。
如何部署
- 登录到 Azure 门户。
- 选择“+ 创建资源”。
- 在 “搜索服务和市场 ”框中,输入 Slurm ,然后选择 Slurm 的 Azure CycleCloud 工作区。
- 在“适用于 Slurm 的 Azure CycleCloud 工作区”页上,选择“创建”。
基础
- 在“新建适用于 Slurm 的 Azure CycleCloud 工作区帐户”页上,输入或选择以下详细信息。
- 订阅:如果尚未选择订阅,请选择要使用的订阅。
- 区域:选择要在其中部署用于 Slurm 环境的 CycleCloud 工作区的 Azure 区域。
- 资源组:为适用于 Slurm 的 Azure CycleCloud 工作区帐户选择资源组,或创建新的资源组。
- CycleCloud VM 大小:选择新的 VM 大小或保留默认 VM 大小。
- 管理员用户:输入 CycleCloud 管理员帐户的名称和密码。
- 管理员 SSH 公钥:直接选择管理员帐户的公共 SSH 密钥,或者存储在 Azure 中的 SSH 密钥资源中。
文件系统
用户的主目录 - 新建
指定用户主目录的放置位置。
内置 NFS - 将计划程序 VM 用作具有附加数据磁盘的 NFS 服务器。
Azure NetApp 文件 - 创建指定容量和服务级别的 ANF 帐户、池和卷。
用户的主目录 - 使用现有
如果你有现有的 NFS 装入点,请选择 “使用现有 ”选项并指定用于装载它的设置。
补充性文件系统装载 - 新建
如果需要为项目数据装载另一个文件系统,可以创建新的文件系统或指定现有文件系统。 可以创建新的 Azure NetApp 文件卷或 Azure Managed Lustre 文件系统。
补充性文件系统装载 - 使用现有
如果有现有的外部 NFS 装入点或 Azure Managed Lustre 文件系统,则可以指定装载选项。
网络
指定是要创建新的虚拟网络和子网,还是使用现有虚拟网络和子网。
创建新的虚拟网络
- 选择对应于要面向的计算节点数的 CIDR,并指定基 IP 地址。
- 如果企业 IT 不提供直接连接,请创建 Bastion。
- 创建 NAT 网关以提供与 Internet 的出站连接。
- 如果已经有一个可以提供 Bastion 和 VPN 网关等服务的 HUB,则可与现有虚拟网络对等互连。 确保选择与你的对等互连虚拟网络兼容的基 IP 地址。 如果对等互连的虚拟网络具有网关,请选中“允许”网关传输选项。
使用现有虚拟网络
在使用现有虚拟网络之前,请检查 Plan your CycleCloud Workspace for Slurm Deployment 中的先决条件。
指定如何管理用于存储帐户的专用终结点的注册,以使用专用 DNS 区域存储 CycleCloud 项目。 可以选择创建新的专用 DNS 区域、使用现有 DNS 区域或未注册它。
Slurm 设置
为调度程序和身份验证节点指定虚拟机大小和镜像。 这些映像是 Azure 市场中具有以下 URI 的 HPC 映像:
| 映像名称 | URI |
|---|---|
| Alma Linux 8.10 | almalinux:almalinux-hpc:8_10-hpc-gen2:latest |
| Ubuntu 20.04 | microsoft-dsvm:ubuntu-hpc:2004:latest |
| Ubuntu 22.04 | microsoft-dsvm:ubuntu-hpc:2204:latest |
| 自定义映像 | 必须指定映像 URN 或映像 ID |
如果选择 Custom Image,请为现有市场映像指定映像 URN 或为 Azure Compute Gallery 中的映像指定映像 ID。
若要对计划程序、身份验证节点和计算节点使用相同的映像,请选择 “在所有节点上使用映像”。
指定最初要预配的身份验证节点数和允许的最大数目。 启用运行状况检查时,解决方案会自动为 HPC 和 GPU 分区运行节点运行状况检查,并删除任何不正常的节点。 如果需要通过 CycleCloud 门户配置更多设置,则可以延迟群集的启动。
若要启用 Slurm 作业会计,请勾选用于显示连接性选项的框。 确保具有之前部署的 Azure Database for MySQL 灵活服务器资源。
如果提供自己的虚拟网络,则可以使用 FQDN 或专用 IP 进行连接。 在部署过程中创建新的虚拟网络时,也可以使用虚拟网络对等互连。 如果选择创建新的虚拟网络,也可以通过专用终结点进行连接。
分区设置
适用于 Slurm 的 Azure CycleCloud 工作区包括三个定义的 Slurm 分区:
- HTC:适用于易并行非 MPI 作业。
- HPC:对于紧密耦合的 MPI 作业,这些作业主要使用具有 InfiniBand 支持或没有 InfiniBand 支持的 VM 类型。
- GPU:适用于用于MPI或非MPI GPU作业的虚拟机类型,无论是否支持InfiniBand。
可以设置 CycleCloud 动态创建的每个分区的映像和最大节点数。 只有 HPC 分区允许使用现成实例,因为现成实例不适合 HPC 和 GPU 作业。
打开 OnDemand
若要使用 Open OnDemand,请选中该复选框并输入以下信息:
- 映像名称,
- 系统用于获取用户名()的域名(
contoso.comuser@contoso.com)并将其与 CycleCloud 管理的用于身份验证的本地 Linux 帐户(user)匹配, - Open OnDemand Web 服务器的完全限定域名(FQDN)(如果要使用专用 IP,请留空),
- 无论是打算使用现有的 Microsoft Entra ID 应用程序,还是稍后手动注册一个。
Automatically register Entra ID application是仅在使用 CLI 部署时显示的额外选项。
注释
用户身份验证需要Microsoft Entra ID 应用程序。 如果脚本未创建应用程序,请手动创建一个。 有关详细信息,请参阅 如何为 Open OnDemand 注册 Microsoft Entra ID 应用程序。
高级
可以为群集计算节点和新文件系统资源启用可用性区域。 将计算节点和存储放置在同一可用性区域中可确保它们之间的延迟最小。
标记
为必需资源分配适当的标记。 CycleCloud 动态预配虚拟机,并向其应用节点数组标记。
查看并创建
查看选项。 此步骤还包括一些验证。
验证完成后,选择“ 创建 ”以初始化部署。
按照部署状态和步骤操作。
检查你的部署
在部署期间,使用您指定的用户名和 SSH 密钥通过 Bastion 连接到 ccw-cyclecloud-vm。
连接后,请检查 cloud-init 日志,验证一切是否正确。
$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group:
Cluster nodes:
scheduler: Off -- --
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0]. Up 754.29 seconds
接下来,设置客户端计算机与 CycleCloud VM 之间的连接。 如果公司允许连接,公司 IT 部门可能需要帮助你通过 VPN、Bastion 隧道或附加的公共 IP 设置连接。 通过浏览 https://<cyclecloud_ip> 访问 Web 界面。 使用部署期间提供的用户名和密码登录。 验证计划程序和登录节点是否都在运行。