多 GPU 和多节点分布式训练

重要

此功能在 Beta 版中。

本页包含使用无服务器 GPU 计算的多节点和多 GPU 分布式训练的笔记本示例。 这些示例演示如何跨多个 GPU 和节点缩放训练以提高性能。

在运行这些笔记本之前,请参阅 最佳做法清单

无服务器 GPU API:A10 初学者

以下笔记本提供了有关如何使用 无服务器 GPU Python API 启动多个 A10 GPU 进行分布式训练的基本示例。

Notebook

获取笔记本

使用 MLflow 3.0 进行分布式训练

此笔记本介绍了在 Databricks 上使用 MLflow 进行深度学习用例的最佳做法,这些用例适用于无服务器 GPU 计算。 此笔记本使用 无服务器 GPU API 在远程 A10 GPU 上启动简单分类模型的分布式训练。 训练被作为一次 MLflow 运行进行跟踪。

Notebook

获取笔记本

使用 PyTorch 的分布式数据并行(DDP)进行分布式训练

以下笔记本演示使用 PyTorch 的 分布式数据并行 (DDP) 模块在 Azure Databricks 上使用无服务器 GPU 计算的简单多层感知器(MLP)神经网络的分布式训练。

Notebook

获取笔记本

使用 PyTorch 的完全分片数据并行(FSDP)进行分布式训练

以下笔记本演示如何在 Azure Databricks 上使用无服务器 GPU 计算,借助 PyTorch 的 完全分片数据并行 (FSDP) 模块,对具有 1000 万个参数的 Transformer 模型进行分布式训练。

Notebook

获取笔记本

使用 Ray 进行分布式训练

此笔记本演示了在 FashionMNIST 数据集上使用 Ray Train 和 Ray Data on Databricks 无服务器 GPU 群集对 PyTorch ResNet 模型的分布式训练。 它介绍了如何设置 Unity 目录存储、为多节点 GPU 训练配置 Ray、使用 MLflow 记录和注册模型,以及评估模型性能。

Notebook

获取笔记本

使用 TRL 进行分布式监督式微调

此笔记本演示如何使用 无服务器 GPU Python API 在单个节点 A10 GPU 上使用具有 DeepSpeed ZeRO 阶段 3 优化的 TRL 库运行监督微调 (SFT)。 此方法可以扩展到多节点设置。

Notebook

获取笔记本

使用 TRL 和 DDP 在 8 H100 上分发 OpenAI gpt-oss 20B 训练

此笔记本演示如何使用 无服务器 GPU Python API 通过 TRL 库在 gpt-oss 20B 模型的 gpt-oss 20B 模型上运行监督微调(SFT)。 我们在节点上的所有 8 H100 GPU 中利用 DDP 来缩放全局批大小。

Notebook

获取笔记本

使用 TRL 和 FSDP 在 8 H100 上分发 OpenAI gpt-oss 120B 的分布式训练

此笔记本演示如何使用 无服务器 GPU Python API 通过 TRL 库从 Hugging 人脸在 gpt-oss 120B 模型上运行监督式微调(SFT)。 我们利用 FSDP 来减少内存消耗和 DDP 以缩放全局批大小。

Notebook

获取笔记本