▶ 原文链接

LLM 训练与推理的幕后数学:一堂黑板讲座

来源: Substack (Dwarkesh Podcast) | Reiner Pope | Apr 29, 2026 分类: 其他 原文发表: Apr 29, 2026 纪要生成: 2026-05-07


全集重点


嘉宾/话题简介

Reiner Pope,AI 芯片初创公司 MatX 的 CEO,曾就职于 Google,负责软件效率、编译器以及 TPU 架构设计。他被 Dwarkesh 誉为世界上极少数能贯通从芯片设计到模型架构的全栈 AI 专家之一。本集采用特殊的黑板讲座形式,从算术强度(roofline)分析、并行策略、内存层次结构等多个维度,深入剖析了大规模语言模型(LLM)在训练和推理过程中的核心数学原理与工程约束。


分节详述

00:00:00 批处理大小如何影响 token 成本与速度

本节重点 - 推理速度与成本之间的权衡主要由批处理大小(batch size)决定。 - 存在一个由硬件决定的固有时延下限,源于必须将所有权重从内存中读出。 - 每 token 成本曲线随批处理增大而下降,最终受限于计算吞吐,呈现“先快后平”的趋势。 - 实现计算与内存带宽平衡的批处理大小,仅依赖于硬件 FLOPs/带宽 比和模型稀疏度,与模型总规模无关。

详细精要

💬 精华片段(中文)

"如果我们不把多个用户批处理在一起,你获得的成本和经济效率可能会比批处理在一起时差一千倍。"

"If you do not batch together many users, the cost and the economics you get can be a thousand times worse than if you do batch many users together."


00:32:09 MoE 模型如何在 GPU 机架间布局

本节重点 - 混合专家层(MoE)的核心通信模式是全对全(all-to-all),这与单机架内的全互联拓扑完美匹配。 - 机架边界是扩展 MoE 模型规模的最大物理障碍,因为跨机架的网络带宽通常比机架内慢数倍。 - 扩大机架的规模(即增加其内的 GPU 数量)是解决这一瓶颈的关键趋势,其工程难度主要在于物理布线和散热。

详细精要


00:47:12 流水线并行如何在机架间分配模型层

本节重点 - 流水线并行是按模型的层维度切分,将不同层组放在不同的机架上。 - 相比专家并行中的 all-to-all 通信,流水线并行中的点对点通信对带宽要求极低,因此非常适合跨机架部署。 - 流水线并行主要解决的是内存容量问题,而不是计算或内存带宽问题。

详细精要

💬 精华片段(中文)

"这个分析的美妙之处在于,切分的方式与模型自身的架构完全吻合。"

"The cutting matches the model architecture."


01:03:37 为何 Ilya 说“众所周知,流水线并不明智”

本节重点 - 流水线并行虽然能完美分摊权重内存的容量压力,但完全无法分摊 KV 缓存的内存容量压力。 - 这是因为在流水线中保持 GPU 忙碌需要同时在线的序列数(global batch size)与流水线阶段数成正比,这会按比例增加 KV 缓存的总量,抵消掉容量分摊的增益。 - 这使得推理时的主要并行策略转向了专家并行,将模型尽可能约束在单个机架内。

详细精要


01:18:59 RL 如何导致模型过训百倍于 Chinchilla 最优

本节重点 - 决定“最优”训练量的框架应该从单纯的最小化预训练损失,转向最小化预训练 + RL训练 + 推理三部分的总计算成本。 - 一个强启发式原则是:当各部分的成本相等时,总成本趋向最小化。 - 基于此和公开流量估算,预测像 GPT-5 这样的模型,其训练数据量可能远超 Chinchilla 最优值,可达百倍之多。

详细精要

💬 精华片段(中文)

"这就是为什么你应该在所有地方进行近似计算,因为这些数字背后有着巨大的误差区间。但把A等同于B并得出结论,这种事本身就很有启发性。"

"This is why you should just approximate everywhere, because there are big error bars on this. But it's kind of empowering to just set A equal to B and figure it out."


01:33:02 从 API 定价推导长上下文的内存成本

本节重点 - API 定价模式间接暴露了模型的算力-内存瓶颈边界。 - 对超长上下文收取更高溢价,反映了计算时间与内存读取时间存在一个由内存带宽主导的交叉拐点。 - 缓存命中价格反映了不同存储层级(HBM, DDR, SSD)的成本结构,揭示了“重计算存内存”还是“重内存存计算”的经济学权衡。

详细精要


02:04:02 神经网络与密码学的趋同进化

本节重点 - 神经网络和密码学协议在高层结构上存在惊人的“趋同进化”,都高度依赖信息混合和置乱。 - 但两者目标截然相反:密码学旨在摧毁信息结构以生成随机性,而神经网络旨在从随机性中提取结构。 - 密码学中的 Feistel 网络(用于构建可逆函数)被跨界应用到神经网络中,催生了 RevNets(可逆网络),以解决训练中的内存占用问题。

详细精要

💬 精华片段(中文)

"神经网络和人造密码,在某种程度上都在做同一件事:用复杂的方式把信息搅在一起。只不过一个为了看清,一个为了隐藏。"

"There's this convergent evolution where they both need to jumble information across all their inputs. For cryptographic protocols, it’s to make sure that each new input into a hash function will totally scramble what happens. For neural networks, of course, they need to consider how this piece of information changes what you should make of this other piece of information."


专业术语注释

术语 解释
算术强度分析(Roofline Analysis) 一种性能评估模型,用于判断一个计算任务是受限于计算吞吐率(FLOPs)还是内存带宽(Memory Bandwidth)。
Blackwell NVL72 Nvidia 的一款包含 72 块 GPU 的超大规模机架,其内部通过高速 NVLink 实现全互联。
HBM (High Bandwidth Memory) 高带宽内存,一种 3D 堆叠的内存技术,提供远超传统 DDR 内存的带宽,是 GPU 的核心存储。
活跃参数 / 总参数 (Active/Total Parameters) 在 MoE 模型中,总参数是模型存储的所有权重。在一次推理中,每个 token 只会激活一部分专家,被激活的专家所对应的参数量即为活跃参数。
KV 缓存 (KV Cache) 在自回归解码过程中,将先前所有 token 的 Key 和 Value 向量存储起来,避免每个新 token 生成时都重复计算,是“用内存换计算”的典型例子。
MFU (Model FLOPS Utilization) 模型 FLOPS 利用率,指在模型实际运行中峰值算力的有效利用百分比,是衡量系统效率的关键指标。
FP4 一种 4 位浮点数格式,用于极低精度的模型权重和计算,大幅提升吞吐并减少内存占用。
MoE (Mixture of Experts) 混合专家模型,一种由多个子网络(专家)和一个门控路由器组成的架构,每次只激活部分专家进行计算,实现条件计算。
专家并行 (Expert Parallelism) 将 MoE 模型的不同专家放置在不同 GPU 上的一种并行计算策略,通信模式为 all-to-all。
全对全 (All-to-All) 一种通信模式,在此模式下每个并行计算单元都需要向其他所有单元发送数据。
NVLink / NV 交换机 Nvidia 的一项高速点对点及交换式互联技术,用于连接机架内的 GPU,构成纵向扩展网络。
纵向扩展 (Scale-up) / 横向扩展 (Scale-out) Scale-up 指增强单节点或单机架内部的计算能力(带宽极高),Scale-out 指通过增加更多节点/机架来扩展(带宽相对较低)。
流水线并行 (Pipeline Parallelism) 将模型按层切分到不同的设备上,数据像流水线一样在不同设备间依次传递处理。
微批处理 (Micro-batching) 将一个大的批次拆分成更小的批次依次处理,常用于缓解流水线并行中的气泡问题。
Chinchilla 最优 由 DeepMind 的论文提出,指在给定计算预算下,模型参数和数据量应按接近 1:20 的比例扩展,以实现最低的预训练损失。
6ND 公式 一个在工程中广泛使用的近似公式,用于估算用 N 个参数训练 D 个 token 所需的总浮点运算次数,约为 6ND。
Prefill / Decode 大模型推理的两个阶段。Prefill 阶段处理所有输入 token 并填充 KV 缓存(计算密集型);Decode 阶段每次生成一个新 token(内存带宽密集型)。
Flash Attention 一种精确、快速且内存高效的注意力算法,通过分块在 SRAM 中执行计算,避免将大注意力矩阵写入 HBM。
DDR 双倍数据率同步动态随机存取内存,比 HBM 慢得多,但成本更低,通常作为 CPU 的内存或更高层的缓存。
物化/重新物化 (Materialization/Rematerialization) 将计算结果保存在内存中(物化)以备后用。当需要时,如果未保存,则通过重新计算得出(重新物化)。
Feistel 网络 (Feistel Network) 一种密码学中常用的对称结构,能够用任何(甚至不可逆的)函数构造出可逆的分组密码块。
RevNets (Reversible Networks) 可逆残差网络,利用 Feistel 网络的原理,使得神经网络的中间激活可以通过逆运算重建,从而在训练中节省大量内存。
差分密码分析 (Differential Cryptanalysis) 一种密码分析技术,通过分析特定输入差异如何影响输出差异来破解密码。与神经网络的鲁棒性研究有共通之处。

延伸思考

原文发表:Apr 29, 2026  ·  纪要生成:2026-05-07