▶ 原文链接

扩展到数千个GPU的训练:并行策略全解析

来源: YouTube | Nouamane Tazi (Hugging Face) | May 11, 2026 播客: Stanford Online 分类: 其他 原文发表: May 11, 2026 纪要生成: 2026-06-22


全集重点


嘉宾/话题简介

Nouamane TaziHugging Face 的核心开发者,主导了《超大规模训练手册》(Ultra-Scale Playbook)的撰写,并且是 Hugging Face 开源分布式训练库 Nanotron 的核心开发者。他深度参与了 StarCoder 2Small LLM 3 等模型的开发,并致力于 Mixture of Experts (MoE) 的扩展研究。他的核心使命是让大规模训练变得实用且易于获得。本集内容系统性地回顾了从单GPU到成千上万个GPU集群上训练大型语言模型所涉及的核心并行策略,从理论基础、工程实现到前沿挑战。


分节详述

00:00 训练规模化的挑战与基础动机

本节重点

详细精要

💬 精华片段(中文)

“这些天的模型达到一万亿参数甚至更大。它们会在15万亿的训练Token上进行训练,上下文长度可达一百万。” "Models of these days are one trillion parameter large, or even larger. They get trained on 15 trillion training tokens and for context lengths as far as one million."

03:41 数据并行(Data Parallelism, DP)原理、优化与局限

本节重点

详细精要

💬 精华片段(中文)

“所以当你有大量GPU时,你肯定希望高效地重叠你的计算与通信,避免GPU计算流的任何空闲时间,并充分利用GPU的张量核心。这就是本次演讲的最终目标。” "So when you have a lot of GPUs, you definitely want to overlap efficiently your computation with communication so that you avoid any idle time here for the GPU computation and to benefit of the tensor cores of GPUs. So this is the end goal of this presentation."

11:24 ZeRO优化器:深度优化内存,突破显存墙

本节重点

详细精要

💬 精华片段(中文)

“很多人只是把FSDP2套在所有模型上,这不是一个好主意。因为如果你的模型能用ZeRO-1就装进GPU,你就不需要ZeRO-3,ZeRO-3会增加更多通信,让你的训练变慢。所以,只在需要节省显存时才使用相应级别的ZeRO,因为除此之外没有别的好处。” "A lot of people just throw FSDP2 on all of their models. And this is not a good thing. Because if your model fits on GPUs with ZeRO 1, you don't need ZeRO 3 because ZeRO 3 you're going to add more communications than you're going to make your training slower. So just use the ZeRO degree that you need to save memory, because there is no other benefits."

23:33 张量并行(Tensor Parallelism, TP)与序列并行(Sequence Parallelism, SP)

本节重点

详细精要

38:16 并行策略的组合与流水线并行(Pipeline Parallelism, PP)

本节重点

详细精要

46:05 上下文并行与专家并行:解决长序列和MoE架构瓶颈

本节重点

详细精要

54:42 并行策略组合全景图与总结

本节重点

详细精要


专业术语注释

术语 解释
AllReduce 一种集合通信操作,对多个进程中的数据进行归约(如求和)后,将结果广播回所有进程。在数据并行中用于同步梯度。
Reduce-Scatter 一种集合通信操作,对多个进程中的数据进行归约(如求和),然后将结果分片,每个进程只获得一个分片。是AllReduce的前半部分。
All-Gather 一种集合通信操作,每个进程提供一份数据,被收集拼接后,广播给所有进程,使得每个进程获得完整数据集。是AllReduce的后半部分。
梯度累积 一种训练技巧,将全局批次拆分为多个微批次,多次前向/反向计算并累加梯度,最后执行一次参数更新,模拟更大批次训练。
全局批次大小 在执行一次优化器步更新前,所有数据并行进程处理的样本总数。等于每个GPU上的微批次大小乘以数据并行的路数再乘以梯度累积步数。
FSDP 完全分片数据并行 (Fully Sharded Data Parallel),对应ZeRO-3,将模型参数、梯度和优化器状态全部跨GPU分片,运行时按需聚合。
DTensor PyTorch中的一个分布式张量工具,描述了张量在多设备上的分片方式,使得FSDP2等可以与其它并行策略(如TP)正交组合。
TP (张量并行) 一种模型并行策略,将单个算子(如矩阵乘法)的计算切分到多个GPU上,共同处理同一个输入数据。
SP (序列并行) 张量并行的补充策略,通过将中间激活从沿隐藏维分片转为沿序列维分片,解决了TP中非并行区域的激活内存冗余问题。
PP (流水线并行) 一种模型并行策略,将模型按层垂直切分到不同GPU,数据像流水线一样依次流经各设备,通过处理多个微批次来隐藏设备间的等待。
CP (上下文并行) 一种专门用于长序列训练的并行策略,将单个序列切分到不同GPU上,并使用环注意力(Ring Attention)实现跨设备分片的完整注意力计算。
EP (专家并行) 一种专门用于Mixture of Experts (MoE)模型的并行策略,将不同的专家层放置在不同GPU上,通过 All-to-All 通信进行Token路由。
All-to-All 一种复杂的集合通信操作,每个进程向所有其他进程发送不同数据,并从所有其他进程接收不同数据。在MoE中用于分发和汇总Token。
IBGDI / RDMA InfiniBand GPUDirect RDMA 的缩写,允许网络卡(如InfiniBand)直接读写GPU显存,无需CPU参与数据拷贝,极大降低通信延迟和同步开销。对高效的专家并行至关重要。
DualPipe DeepSeek提出的一种高级流水线并行调度算法,通过模型层轮询分配和双向流水注入,旨在完全消除流水线气泡,实现计算最大化。
NVLink NVIDIA开发的一种高速GPU互联技术,提供远超PCIe的带宽和更低的延迟,使得在单个节点内的高带宽域中可以高效运行张量并行。
MoE Mixture of Experts (混合专家模型),一种神经网络架构,由多个“专家”子网络和一个门控路由器组成,每次只激活部分专家参数进行计算,实现模型容量增大而计算量不显著增加。

延伸思考

原文发表:May 11, 2026  ·  纪要生成:2026-06-22