完全分片数据并行(FSDP)训练

重要

此功能在 Beta 版中。

本页包含用于在无服务器 GPU 计算上使用完全分片数据并行(FSDP)训练的笔记本示例。 这些示例演示如何跨多个 GPU 和节点缩放训练以提高性能。

使用 FSDP2训练拥有1000万个参数的Transformer模型

以下笔记本演示如何使用 FSDP2 库对 1000 万个参数转换器模型进行分布式训练。

Notebook

获取笔记本