▶ 原文链接

LLM 训练与推理的幕后数学:一堂黑板讲座

来源: Substack (Dwarkesh Podcast) | Reiner Pope | Apr 29, 2026 播客: Dwarkesh Podcast 分类: AI 工程 原文发表: Apr 29, 2026 纪要生成: 2026-05-07


全集重点


嘉宾/话题简介

Reiner Pope,AI 芯片初创公司 MatX 的 CEO,曾就职于 Google,负责软件效率、编译器以及 TPU 架构设计。他被 Dwarkesh 誉为世界上极少数能贯通从芯片设计到模型架构的全栈 AI 专家之一。本集采用特殊的黑板讲座形式,从算术强度(roofline)分析、并行策略、内存层次结构等多个维度,深入剖析了大规模语言模型(LLM)在训练和推理过程中的核心数学原理与工程约束。


分节详述

00:00:00 批处理大小如何影响 token 成本与速度

本节重点

详细精要

💬 精华片段(中文)

"如果我们不把多个用户批处理在一起,你获得的成本和经济效率可能会比批处理在一起时差一千倍。"

"If you do not batch together many users, the cost and the economics you get can be a thousand times worse than if you do batch many users together."


00:32:09 MoE 模型如何在 GPU 机架间布局

本节重点

详细精要


00:47:12 流水线并行如何在机架间分配模型层

本节重点

详细精要

💬 精华片段(中文)

"这个分析的美妙之处在于,切分的方式与模型自身的架构完全吻合。"

"The cutting matches the model architecture."


01:03:37 为何 Ilya 说“众所周知,流水线并不明智”

本节重点

详细精要


01:18:59 RL 如何导致模型过训百倍于 Chinchilla 最优

本节重点

详细精要

💬 精华片段(中文)

"这就是为什么你应该在所有地方进行近似计算,因为这些数字背后有着巨大的误差区间。但把A等同于B并得出结论,这种事本身就很有启发性。"

"This is why you should just approximate everywhere, because there are big error bars on this. But it's kind of empowering to just set A equal to B and figure it out."


01:33:02 从 API 定价推导长上下文的内存成本

本节重点

详细精要


02:04:02 神经网络与密码学的趋同进化

本节重点

详细精要

💬 精华片段(中文)

"神经网络和人造密码,在某种程度上都在做同一件事:用复杂的方式把信息搅在一起。只不过一个为了看清,一个为了隐藏。"

"There's this convergent evolution where they both need to jumble information across all their inputs. For cryptographic protocols, it’s to make sure that each new input into a hash function will totally scramble what happens. For neural networks, of course, they need to consider how this piece of information changes what you should make of this other piece of information."


专业术语注释

术语 解释
算术强度分析(Roofline Analysis) 一种性能评估模型,用于判断一个计算任务是受限于计算吞吐率(FLOPs)还是内存带宽(Memory Bandwidth)。
Blackwell NVL72 Nvidia 的一款包含 72 块 GPU 的超大规模机架,其内部通过高速 NVLink 实现全互联。
HBM (High Bandwidth Memory) 高带宽内存,一种 3D 堆叠的内存技术,提供远超传统 DDR 内存的带宽,是 GPU 的核心存储。
活跃参数 / 总参数 (Active/Total Parameters) 在 MoE 模型中,总参数是模型存储的所有权重。在一次推理中,每个 token 只会激活一部分专家,被激活的专家所对应的参数量即为活跃参数。
KV 缓存 (KV Cache) 在自回归解码过程中,将先前所有 token 的 Key 和 Value 向量存储起来,避免每个新 token 生成时都重复计算,是“用内存换计算”的典型例子。
MFU (Model FLOPS Utilization) 模型 FLOPS 利用率,指在模型实际运行中峰值算力的有效利用百分比,是衡量系统效率的关键指标。
FP4 一种 4 位浮点数格式,用于极低精度的模型权重和计算,大幅提升吞吐并减少内存占用。
MoE (Mixture of Experts) 混合专家模型,一种由多个子网络(专家)和一个门控路由器组成的架构,每次只激活部分专家进行计算,实现条件计算。
专家并行 (Expert Parallelism) 将 MoE 模型的不同专家放置在不同 GPU 上的一种并行计算策略,通信模式为 all-to-all。
全对全 (All-to-All) 一种通信模式,在此模式下每个并行计算单元都需要向其他所有单元发送数据。
NVLink / NV 交换机 Nvidia 的一项高速点对点及交换式互联技术,用于连接机架内的 GPU,构成纵向扩展网络。
纵向扩展 (Scale-up) / 横向扩展 (Scale-out) Scale-up 指增强单节点或单机架内部的计算能力(带宽极高),Scale-out 指通过增加更多节点/机架来扩展(带宽相对较低)。
流水线并行 (Pipeline Parallelism) 将模型按层切分到不同的设备上,数据像流水线一样在不同设备间依次传递处理。
微批处理 (Micro-batching) 将一个大的批次拆分成更小的批次依次处理,常用于缓解流水线并行中的气泡问题。
Chinchilla 最优 由 DeepMind 的论文提出,指在给定计算预算下,模型参数和数据量应按接近 1:20 的比例扩展,以实现最低的预训练损失。
6ND 公式 一个在工程中广泛使用的近似公式,用于估算用 N 个参数训练 D 个 token 所需的总浮点运算次数,约为 6ND。
Prefill / Decode 大模型推理的两个阶段。Prefill 阶段处理所有输入 token 并填充 KV 缓存(计算密集型);Decode 阶段每次生成一个新 token(内存带宽密集型)。
Flash Attention 一种精确、快速且内存高效的注意力算法,通过分块在 SRAM 中执行计算,避免将大注意力矩阵写入 HBM。
DDR 双倍数据率同步动态随机存取内存,比 HBM 慢得多,但成本更低,通常作为 CPU 的内存或更高层的缓存。
物化/重新物化 (Materialization/Rematerialization) 将计算结果保存在内存中(物化)以备后用。当需要时,如果未保存,则通过重新计算得出(重新物化)。
Feistel 网络 (Feistel Network) 一种密码学中常用的对称结构,能够用任何(甚至不可逆的)函数构造出可逆的分组密码块。
RevNets (Reversible Networks) 可逆残差网络,利用 Feistel 网络的原理,使得神经网络的中间激活可以通过逆运算重建,从而在训练中节省大量内存。
差分密码分析 (Differential Cryptanalysis) 一种密码分析技术,通过分析特定输入差异如何影响输出差异来破解密码。与神经网络的鲁棒性研究有共通之处。

延伸思考

原文发表:Apr 29, 2026  ·  纪要生成:2026-05-07