你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在 Azure 虚拟机中计算大规模 HPC 应用程序工作负荷

高性能计算(HPC)工作负载(也称为大型计算应用程序)是需要许多核心的大型工作负荷。 HPC 可以帮助能源、金融和制造业等行业在产品开发过程的每个阶段。

大型计算应用程序通常具有以下特征:

  • 可以将工作负荷划分为可以跨多个核心同时运行的离散任务。
  • 每个任务采用输入、处理并生成输出。 整个应用程序在有限的时间内运行。
  • 应用程序不需要持续运行,但它必须能够处理节点故障和崩溃。
  • 任务可以独立或紧密耦合,这需要高速网络技术,如 InfiniBand 和远程直接内存访问(RDMA)连接。
  • 可以使用 高性能计算图形处理单元(GPU)加速计算现场可编程门阵列 加速计算或 计算优化 SKU。 你的选择取决于工作负荷。

显示作业队列如何从客户端移动到计划程序以及并行和紧密耦合的 Azure 任务的关系图。

Azure 提供了一系列虚拟机(VM)实例,这些实例针对 CPU 密集型和 GPU 密集型工作负荷进行了优化。 这些 VM 可以在 Azure 虚拟机规模集中运行,以提供复原和负载均衡。 Azure 也是唯一提供已启用 InfiniBand 的硬件的云平台。 InfiniBand 为财务风险建模、工程压力分析和运行水库模拟和地震工作负荷等任务提供了显著的性能优势。 这种优势会导致接近或超过当前本地基础结构性能的性能。

Azure 为 HPC 和 GPU 优化计算提供了各种 VM 大小。 选择适合工作负荷的 VM 大小非常重要。 若要查找最适合的 VM,请参阅 Azure 中 VM 的大小

请记住,并非所有 Azure 产品在所有区域中都可用。 若要查看你所在区域中可用的功能,请参阅 “按区域提供的产品”。

有关 Azure 计算选项的详细信息,请参阅 Azure 计算博客选择 Azure 计算服务

Azure 提供基于 CPU 的 VM 和已启用 GPU 的 VM。 N 系列 VM 具有 NVIDIA GPU,专为计算密集型或图形密集型应用程序(例如 AI、学习和可视化)而设计。

HPC 产品专为高性能方案而设计。 但其他产品(如 E 和 F 系列)也适用于特定工作负载。

设计注意事项

设计 HPC 基础结构时,可以使用多种工具和服务来管理和计划工作负荷。

  • Azure Batch 是用于运行大规模 HPC 应用程序的托管服务。 使用 Batch 配置 VM 池并上传应用程序和数据文件。 然后 Batch 服务配置 VM、将任务分配给 VM、运行任务并监视进度。 Batch 可以自动纵向扩展和缩减 VM,以响应更改的工作负荷。 Batch 还提供作业计划功能。

  • Azure CycleCloud 是一种工具,可用于在 Azure 中创建、管理、作和优化 HPC 和大型计算群集。 使用 Azure CycleCloud 动态配置 HPC 群集,并协调混合和云工作流的数据和作业。 它提供了一种使用工作负荷管理器管理 HPC 工作负荷的简单方法。 Azure CycleCloud 支持工作负荷管理器,例如网格引擎、Microsoft HPC Pack、LSF、PBS Pro 和 SLURM。

  • Azure 逻辑应用 是一项专用服务,用于计划在 VM 的托管池上运行的计算密集型工作。 可以自动扩展计算资源以满足作业的需求。

以下部分介绍能源、金融和制造业的参考体系结构。

能源参考体系结构

设计能源工作负载的体系结构时,请考虑以下建议和用例。

设计建议

  • 了解水库和地震工作流通常对计算和作业计划有类似的要求。

  • 考虑网络需求。 Azure HPC 提供 HBv2、HBv3、HBv4 和 HX 系列 VM 大小,专为内存密集型地震成像和水库模拟而设计。

  • 将 HX 系列或 HBv4 系列 VM 用于内存带宽绑定应用程序,并使用 HBv3 系列或 HBv2 系列 VM 进行计算绑定水库模拟。

  • 使用 NV 系列 VM 进行 3D 水库建模和可视化地震数据。

  • 使用 NCv4 系列 VM 进行 GPU 加速地震全波形反转 (FWI) 分析。

    对于数据密集型树脂传输成型(RTM)处理,NDv4 VM 大小是最佳选择,因为它提供累积容量为 7 TB 的非易失性内存快车(NVMe)驱动器。

    要在 HBv2、HBv3、HBv4 和 HX 系列虚拟机上运行消息传递接口负载时获得最佳性能,应该将进程最佳绑定到处理器的内核上。 有关详细信息,请参阅 扩展 HPC 应用程序

    NCv4 系列 VM 还提供专用工具,以确保正确固定并行应用程序进程。

  • 由于 NDv4 系列 VM 的复杂体系结构,因此在配置 VM 时请注意,以确保以最佳方式启动 GPU 加速的应用程序。 有关详细信息,请参阅 Azure 可缩放的 GPU VM

石油和天然气地震和储层模拟参考体系结构的用例

水库和地震工作流通常对计算和作业计划有类似的要求。 但是,地震工作负荷挑战基础结构的存储能力。 它们有时需要多个 PB 的存储容量,并且其吞吐量要求可能以数百 GB 为单位。 例如,单个地震处理项目可能以 500 TB 的原始数据开头,这可能需要多个长期存储的 PB。

请参阅以下参考体系结构,这些体系结构可帮助你成功实现在 Azure 中运行应用程序的目标。

地震处理参考体系结构

地震处理和成像是石油和天然气行业的基础,因为它们基于勘探数据创建地下模型。 地球科学家通常从事评估和量化地下可能存在的内容的过程。 地理科学家通常使用数据中心和云绑定软件。 有时,他们使用虚拟桌面技术远程访问软件或云中。

地下模型的质量和数据的质量和分辨率对于做出关于租赁投标或决定钻取位置的正确业务决策至关重要。 地震图像解释图像可以改善井的位置,并减少钻 干洞的风险。 对于石油和天然气公司来说,更好地了解地下结构直接转化为降低勘探风险。 基本上,公司对地质区域的准确率越高,钻探石油的机会就越好。

此作业是数据和计算密集型作业。 公司需要处理 TB 级的数据。 这种数据处理需要大量且快速的计算能力,包括快速网络。 由于地震成像的数据和计算密集型性质,公司使用并行计算来处理数据并减少编译和完成时间。

公司不断地处理大量地震采集数据,在开始开采作业之前,在地下层发现并准确测量和评估碳氢化合物含量。 采集的数据是非结构化的,且对一个潜在的石油和天然气油田来说,其存储空间可以轻松达到 PB 级。 由于这些因素,你只能通过使用 HPC 和其他适当的数据管理策略,在合理的时间范围内完成地震处理活动。

用于地震解释和建模的网络互连计算和存储示意图。

用于地震处理的网络参考体系结构示意图。

水库模拟和建模的参考体系结构

水库建模中,水饱和度、孔隙度和渗透性等物理地下特征也是宝贵的数据。 此数据对于确定要部署的恢复方法和设备以及最终要定位井的位置非常重要。

水库建模工作负荷也是水库工程的一个领域。 工作负荷将水库模型中的物理、数学和计算机编程相结合,以随时间推移分析和预测水库中的流体行为。 此分析需要高计算能力和大型计算工作负载需求,包括快速网络。

用于水库模拟的网络参考体系结构示意图。

网络互连计算和存储地震分析示意图。

财务参考体系结构

在以下体系结构中,展示了如何在 HPC 中使用 VM 来处理财务领域的工作负载的示例。

显示使用 HPC Pack HB 系列 VM 的财务 HPC 工作负荷的体系结构图。

此工作负荷使用 HPC Pack HB 系列计算节点。 HB 系列 SKU 已停用,但此体系结构中使用的计算实例的合适替代方法是 HBv4 系列 VM。

HBv4 系列 VM 针对 HPC 应用程序进行了优化,例如财务分析、天气模拟和硅寄存器传输级别建模。 HB VM 具有以下规范:

  • 最多 176 AMD EPYC™ 9V33X 系列 CPU 核心
  • 768 GB RAM
  • 无超线程

HBv4 系列 VM 还提供以下性能指标:

  • 平均每秒 1.2 TB 的有效内存带宽
  • 2,304 MB 的 L3 缓存
  • 支持块设备 SSD 性能的读取速度高达每秒 12 GB (GB/s),写入速度高达 7 GB/s
  • 高达 3.7 千兆赫的时钟频率(GHz)

对于 HPC 头节点,工作负荷使用不同大小的 VM。 具体而言,它使用D16s_v4 VM,这是一种常规用途产品。

制造参考体系结构

以下体系结构是如何在制造中使用 HPC 中的 VM 的示例。

显示使用 Azure CycleCloud 和 HC 系列 VM 的制造 HPC 工作负荷的体系结构图。

此体系结构使用连接到 Azure 专用链接子网的 Azure 文件共享和 Azure 存储帐户。

该体系结构在其自己的子网中使用 Azure CycleCloud。 HC 系列 VM 用于群集节点的排列方式。

HC 系列 VM 针对使用密集型计算的 HPC 应用程序进行了优化。 示例包括隐式和有限元素分析、水库模拟和计算化学应用程序。 HC VM 提供 44 个 Intel Xeon Platinum 8168 处理器核心、每个 CPU 核心 8 GB RAM、无超线程和最多四个托管磁盘。 Intel Xeon Platinum 平台支持 Intel 丰富的软件工具和功能,并具有 3.4 GHz 的全核时钟速度,适用于大多数工作负载。

后续步骤

以下文章为云采用过程的各个阶段提供了指导。 这些资源可帮助你成功地为云采用制造 HPC 环境。