LLM 训练与推理的幕后数学：一堂黑板讲座

来源： Substack (Dwarkesh Podcast) | Reiner Pope | Apr 29, 2026 播客： Dwarkesh Podcast 分类： AI 工程 原文发表： Apr 29, 2026 纪要生成： 2026-05-07

全集重点

批处理（Batch Size）是速度与成本的关键：通过简单的吞吐率和内存带宽方程，可以精确量化批处理大小如何影响单 token 的延迟和成本，揭示了高吞吐与低成本之间的根本权衡。
稀疏性与专家并行（Expert Parallelism）锁定了解码过程的物理拓扑：MoE 的全对全（all-to-all）通信模式要求模型架构与 GPU 机架（rack）的物理互连拓扑紧密耦合，单个机架的规模直接限制了模型稀疏性的上限。
流水线并行（Pipeline Parallelism）是解决内存容量瓶颈而非带宽瓶颈的方案：它虽然跨机架分摊了权重内存压力，但无法分摊 KV 缓存的内存压力，因此在长上下文推理中作用有限。
强化学习（RL）正将模型推向远超 Chinchilla 最优的“过训”状态：通过平衡预训练、RL 和推理三者的总计算成本，可以初步推算出现有的前沿模型可能已被过训百倍，这是经济效率驱动的结果。
API 定价是窥探前沿实验室技术选择的窗口：从按上下文长度阶梯式定价，到输入/输出 token 的价差，再到缓存命中（cache hit）的价格，这些商业策略都直接反映了底层的内存带宽瓶颈和存储层级架构。

嘉宾/话题简介

Reiner Pope，AI 芯片初创公司 MatX 的 CEO，曾就职于 Google，负责软件效率、编译器以及 TPU 架构设计。他被 Dwarkesh 誉为世界上极少数能贯通从芯片设计到模型架构的全栈 AI 专家之一。本集采用特殊的黑板讲座形式，从算术强度（roofline）分析、并行策略、内存层次结构等多个维度，深入剖析了大规模语言模型（LLM）在训练和推理过程中的核心数学原理与工程约束。

分节详述

00:00:00 批处理大小如何影响 token 成本与速度

本节重点

推理速度与成本之间的权衡主要由批处理大小（batch size）决定。
存在一个由硬件决定的固有时延下限，源于必须将所有权重从内存中读出。
每 token 成本曲线随批处理增大而下降，最终受限于计算吞吐，呈现“先快后平”的趋势。
实现计算与内存带宽平衡的批处理大小，仅依赖于硬件 FLOPs/带宽比和模型稀疏度，与模型总规模无关。

详细精要

推理的两个核心时间组成：计算时间与内存读取时间：
计算时间 (t_compute) = (批处理大小 B × 活跃参数量) / 芯片的浮点运算次数 FLOPs。此处忽略了相对较小的注意力计算开销。
内存读取时间 (t_memory) = (模型总参数量 / 内存带宽) + ( B × 上下文长度 × 每 token 字节数) / 内存带宽。
实际延迟是上述两者之和或在两者中取最大值，因为计算和内存读取可能重叠或形成瓶颈。
延迟分析：内存读取权重设定延迟下限：
在延迟与批处理大小的关系图中，t_memory 的一个分量——权重读取时间——是恒定不变的，因为无论处理多少个用户的 token，整个模型的权重都必须被读取。
这构成了一个硬性的延迟下限。即使批处理大小为 1，用户也必须等待所有权重从 HBM 加载到芯片的时间。在当前的硬件（如 Rubin 代际）下，这个值大约为 15-20 毫秒。
这个下限可以通过 HBM 容量除以带宽的物理极限来理解：288 GB 容量 / 20 TB/s 带宽 ≈ 15 毫秒。
成本分析：批处理大幅摊销权重读取成本：
成本 (每 token 时间) = t / B。权重读取时间（常数）除以 B 后形成一条双曲线，意味着在批处理很小时，权重读取成本极高；随着 B 增加，这一成本被不断分摊，迅速降低。
计算时间（与 B 成正比）除以 B 后变为常数，成为成本的下限。KV 缓存读取时间同理。
结论：这便是“快速模式”（低延迟，小 B）更贵，而“慢速模式”（高延迟，大 B）更便宜的根本原因。理论上，“慢速模式”的成本可以无限接近由计算能力决定的下限，但无法突破。

💬 精华片段（中文）

"如果我们不把多个用户批处理在一起，你获得的成本和经济效率可能会比批处理在一起时差一千倍。"

"If you do not batch together many users, the cost and the economics you get can be a thousand times worse than if you do batch many users together."

平衡点（Batch Size Break-even）的计算：
实现计算时间等于权重读取时间时，可求得所需的批处理大小：B = (FLOPs/带宽) × (活跃参数量 / 总参数量)。
FLOPs/带宽 是一个几乎无量纲的硬件常量，在不同代际 GPU（A100, H100, B100）中，基于 FP4 精度折算后，该值稳定在约 300。
(活跃参数量 / 总参数量) 就是稀疏度（sparsity）的倒数。例如，DeepSeek V3 激活 37B 参数，总有 700B 参数，稀疏度约为 19；若激活 32 个专家中的 8 个，该比值为 4。
实际结果：用 DeepSeek 的参数代入，B ≈ 300 / 4 = 75。但实际应用中，考虑到非理想效率，人们通常会将此值翻倍或三倍，即大约在2000左右。Reiner 强调，这里是 2000 个并发序列 (sequences)，而非 2000 个 token。
来自 API 服务的推论：“列车时刻表”与队列延迟：
可以想象 GPU 像一个每 20 毫秒发车一次的列车，无论是否满载都会准时出发。批处理大小决定了列车的座位数。
一个用户的请求在最坏情况下，会在列车刚离开后到达，然后等待下一班车（最多 20ms），并完成执行（20ms），总最差延迟为40 毫秒。
这样一个系统的吞吐量为 B × (1000ms / 20ms) = B × 50。若 B=2000，则吞吐量为 100,000 tokens/秒。考虑到 Gemini 曾公布其全球流量高达数亿 tokens/秒，这样的吞吐能力仅为全球头部流量的千分之一量级，表明达到规模效应仍需庞大的基础设施。
稀疏性的经济学：越多越好的简单逻辑：
Reiner 认为，从纯系统工程的角度看，增加稀疏性是一个“纯粹的双赢（pure win）”。这减少了所需的计算量，而增加的权重内存读取开销又可以通过使用更大的批处理大小来轻松摊销。
约束稀疏性的关键因素变成了可用的用户数量（能否凑齐满载的列车）和模型质量（稀疏性增加带来的性能损失）。
通过分析论文《Unified Scaling Laws for Routed Language Models》，Reiner 指出一个拥有 64 个专家、仅激活 370M 参数的稀疏模型，其性能相当于一个 1.3B 参数的稠密模型。这需要模型总参数量增加 64 倍，只换来了活跃参数减少 4 倍，相当于计算效率的大幅提升，尽管总内存消耗巨大。

00:32:09 MoE 模型如何在 GPU 机架间布局

本节重点

混合专家层（MoE）的核心通信模式是全对全（all-to-all），这与单机架内的全互联拓扑完美匹配。
机架边界是扩展 MoE 模型规模的最大物理障碍，因为跨机架的网络带宽通常比机架内慢数倍。
扩大机架的规模（即增加其内的 GPU 数量）是解决这一瓶颈的关键趋势，其工程难度主要在于物理布线和散热。

详细精要

MoE 层的结构：
输入 token 通过一个路由器网络（router），决定将其发送到少数几个专家（如 DeepSeek 中 256 个专家里的 8 个）。
每个专家是一个标准的 MLP 模块。
所有专家的输出被重新收集并求和，同时与输入 token 的残差连接（residual connection）相加，形成最终输出。
专家并行（Expert Parallelism）与物理映射：
在 GPU 集群上实现 MoE 层的最优策略是专家并行，即将不同的专家放置在不同的 GPU 上。
以 72 GPU 的 Blackwell 机架部署 DeepSeek 的 256 个专家为例，可以简化为只使用 64 个 GPU，每个 GPU 存放 4 个专家。
路由过程对应一个全对全（all-to-all）的通信模式：任何 GPU 都可能需要向机架内的任何其他 GPU 发送数据。
Nvidia 的 NVLink 交换机 设计使得机架内所有 GPU 能以极高的带宽实现两级跳转（GPU -> 交换机 -> GPU）的互联，完美支撑了 all-to-all 通信。
机架（Rack）的物理限制成为扩展瓶颈：
跨机架通信必须通过横向扩展网络（scale-out network），其带宽通常比机架内的纵向扩展网络（scale-up network）慢约 8 倍。
如果将一个 MoE 层跨两个机架部署，平均一半的 all-to-all 流量会遭受这 8 倍的带宽惩罚，形成严重瓶颈。
为什么不能做一个巨大的交换机连接所有东西？ Reiner 解释，根本原因在于布线密度（wire density）和电缆拥塞（cabling congestion）。机架内部空间极其紧凑，电缆弯曲半径、连接器密度、重量和散热都达到了极限。增加更多 GPU 进来意味着需要物理上在背板走更多的线。
从 Hopper (8 GPU) 到 Blackwell (72 GPU)，再到 Rubin (500+ GPU)，机架规模的扩大主要是产品形态决策（从托盘到机架）和物理设计的突破，而非单纯的技术壁垒。
对 AI 进展的宏观解读：
这解释了为何近年来模型参数规模的大幅增长看似停滞。GPT-4 (2023年) 传闻有超 1 万亿参数，但之后多年没有显著更大的模型问世。
一个关键原因是，为了高效地做推理，模型的总参数量必须能装进一个纵向扩展域（单个机架）。直到 Blackwell，单机架才拥有 10-20 TB 左右的 HBM，足以容纳一个近万亿参数模型加上其 KV 缓存。
Google 的 TPU 很早就在大纵向扩展域中部署，这可能是 Gemini 系列模型在参数规模上能持续领先的一个结构性优势。这种优势既可能来自更高的稀疏度，也可能来自更好的模型架构。

00:47:12 流水线并行如何在机架间分配模型层

本节重点

流水线并行是按模型的层维度切分，将不同层组放在不同的机架上。
相比专家并行中的 all-to-all 通信，流水线并行中的点对点通信对带宽要求极低，因此非常适合跨机架部署。
流水线并行主要解决的是内存容量问题，而不是计算或内存带宽问题。

详细精要

并行策略的维度：
除了专家并行和之前提及但现已少用的张量并行（Tensor Parallelism），主要的并行策略还有数据并行（Data Parallelism）和流水线并行（Pipeline Parallelism）。
模型可扩展的维度有：层数、模型维度 (d_FF)、专家数。每一个维度都可以作为切分维度，当这些数值足够大时，沿该维度切分就会变得有利可图。
流水线并行的通信成本分析：
在机架边界处，一个 token 的数据包被发送到下一个机架。其通信量仅为一个 token 的内部状态（tensor），远小于专家并行中向多个专家发送多份数据包的 all-to-all 通信量。
通过比较在单机架内的时间（scale-up time）和跨机架的时间（scale-out time），可以发现尽管 scale-out 带宽是 1/8，但由于 scale-up 的通信量极大（批处理大小 × 层内激活的专家数 × 层数 × 2），即使在跨机架边界时，scale-out 的时间依然远小于 scale-up 的时间。
结论：流水线并行可以非常自然地跨多个机架进行，甚至可以做到每执行一层就换一个机架，而不会在通信上形成瓶颈。
流水线并行的收益与代价：
收益：它极大地减少了每个机架所需的内存容量。如果一个万亿参数的模型需要 1TB 内存，而单个机架只有 0.25TB，那么通过 4 阶段的流水线并行，每个机架只需存储 0.25TB 的权重，使得超大模型的部署成为可能。
代价（仅限训练）：会产生流水线气泡（pipeline bubble）。在训练中，前向传播和反向传播是交替进行的。
为减少气泡，需采用微批处理（micro-batching），但这会使得决定梯度更新方向的批次大小被分割，可能影响收敛性。
在推理中，流水线并行基本没有显式的时间延迟代价。因为从延迟上看，无论在 1 个机架还是 4 个机架上串行执行，总时间是一样的。系统性地用流水线并行来做推理，在延迟方面是“零和”的。

💬 精华片段（中文）

"这个分析的美妙之处在于，切分的方式与模型自身的架构完全吻合。"

"The cutting matches the model architecture."

01:03:37 为何 Ilya 说“众所周知，流水线并不明智”

本节重点

流水线并行虽然能完美分摊权重内存的容量压力，但完全无法分摊 KV 缓存的内存容量压力。
这是因为在流水线中保持 GPU 忙碌需要同时在线的序列数（global batch size）与流水线阶段数成正比，这会按比例增加 KV 缓存的总量，抵消掉容量分摊的增益。
这使得推理时的主要并行策略转向了专家并行，将模型尽可能约束在单个机架内。

详细精要

内存容量需求方程：
单 GPU 的内存需求 c_mem = (N_total / (E * P)) + (B * L * bytes_per_token / (E * P))，其中 E 是专家并行度，P 是流水线并行度。
权重项 (N_total) 能被 E 和 P 完美分摊。
对于 KV 缓存项，B（全局批处理大小）可以被分解为微批处理大小（local batch） × 流水线阶段数 (P)。
将这个 B 的表达式代入上述等式后，分母上的 P 就会与分子上的 P 相抵消。最终导致无论 P 增加到多少，KV 缓存的内存开销项都保持不变。
KV 缓存无法被流水线并行的原因：
每一层都需要为所有在线的序列保留自己的 KV 缓存（尽管不同层的 K/V 值不同）。
当流水线阶段从 1 增加到 4，虽然有 4 个机架分摊存储不同层的 KV 缓存，但为了不让任何机架空闲，系统里同时在线的序列数也会变成 4 倍。每个机架存储的 KV 缓存总量（层数/4 乘以 4倍的序列数）和之前单一机架存储所有层、1 倍序列数时的总量完全一样。
结论：流水线并行对缓解 KV 缓存内存的增长“完全无效（sucks from both points of view）”。
对现实推理架构的推论：
在推理中，最佳实践就是尽可能扩大专家并行度 (E)，直到占满整个纵向扩展域的规模（如一整个机架的 64 张 GPU）。
流水线并行度 (P) 会被压到最低，也许是 1 或 2，足以让模型权重装进内存即可。
成本权衡：这解释了为什么前沿实验室做推理时，基本会将其模型约束在单个纵向扩展域内。即使可以基于流水线并行做出百倍大的模型，但其带来的跨机架延迟跳（hop latency，可能从 20ms 增加到 30ms）累积起来，在自回归解码的串行过程中是可观的。
根本驱动力：推动模型架构和硬件走向更大机架的根本动力，不是内存容量（流水线并行已经能解决），而是内存带宽和延迟。更大的纵向扩展域意味着有更多的内存带宽并行加载权重，这直接降低了 t_mem，从而降低了单token的生成延迟。

01:18:59 RL 如何导致模型过训百倍于 Chinchilla 最优

本节重点

决定“最优”训练量的框架应该从单纯的最小化预训练损失，转向最小化预训练 + RL训练 + 推理三部分的总计算成本。
一个强启发式原则是：当各部分的成本相等时，总成本趋向最小化。
基于此和公开流量估算，预测像 GPT-5 这样的模型，其训练数据量可能远超 Chinchilla 最优值，可达百倍之多。

详细精要

成本相等化的启发式原则 (Equalization Heuristic)：
对于一个由多个成本项（A、B、C…）相加构成的总成本，在大多数曲线形态下，最小值往往出现在各项成本大致相等之时。这在 x 和 1/x 等函数关系中是一种常见特性。
将这一原则应用于整个模型生命周期，即希望预训练成本≈ RL训练成本≈ 推理成本。
成本项建模：
预训练成本 = 6 × 活跃参数量 × 预训练数据量 (D_pretrain) （基于经典的 6ND 公式，代表前向+后向的 FLOPs）。
RL 训练成本 = α × 活跃参数量 × RL数据量 (D_RL)。α 是一个介于 2 到 6 之间的效率因子，因为 RL 中很大一部分是仅做前向的生成（=2），但部分数据会进行反向传播的训练（=6）。同时，还有解码过程 MFU 较低等导致的额外低效，使得其综合成本达到预训练的 1.5 倍左右。
推理成本 = 2 × 活跃参数量 × 推理数据量 (D_inference) 。
数据量的推算：
如果让这三部分成本相等，可以消去“活跃参数量”这一项，得到 D_pretrain ≈ D_RL (after inefficiency factor) ≈ D_inference。
这说明，从经济学的角度来看，模型为用户生成的 token 总数（推理），应该大致等于为其预训练所准备的 token 总数。
开源数据估算：估算一个前沿模型的全球流量约为 5 亿 tokens/秒，假设模型部署周期为 2 个月，则可生成 ~2.6 × 10^15 tokens。即使去除模型家族中其他小型模型的份额，这也是数百万亿的规模。
与现有信息的印证：有传言称一个最新前沿模型使用了约 150 万亿 token 进行预训练。这和我们估算出的推理数据量级在同一个数量级。
过训比 (Over-training ratio)：
活跃参数为 100B 的模型，其 Chinchilla 最优的数据量 D_chinchilla ≈ 20 × 活跃参数量 = 2 万亿 tokens。
将估算的或传闻的预训练数据量（约 100-150 万亿）除以 Chinchilla 最优值（2 万亿），得到模型被过训了约 50-100 倍。
这个因子有巨大的容错空间，即使估算有 50% 的误差，结论依然是模型远超过 Chinchilla 所建议的训练量。这是由整个生态系统的推理经济性驱动，而非单纯追求更低的 perplexity。

💬 精华片段（中文）

"这就是为什么你应该在所有地方进行近似计算，因为这些数字背后有着巨大的误差区间。但把A等同于B并得出结论，这种事本身就很有启发性。"

"This is why you should just approximate everywhere, because there are big error bars on this. But it's kind of empowering to just set A equal to B and figure it out."

01:33:02 从 API 定价推导长上下文的内存成本

本节重点

API 定价模式间接暴露了模型的算力-内存瓶颈边界。
对超长上下文收取更高溢价，反映了计算时间与内存读取时间存在一个由内存带宽主导的交叉拐点。
缓存命中价格反映了不同存储层级（HBM, DDR, SSD）的成本结构，揭示了“重计算存内存”还是“重内存存计算”的经济学权衡。

详细精要

定价拐点（200K tokens）的分析：
像 Gemini 3.1 那样对超过 200K tokens 的上下文收费更高（如 50%），意味着在该点，推理的成本结构发生了转变。
在上下文的成本曲线中，计算成本(t_compute/B)近似为一条常量；而内存成本随着上下文长度的增加而线性增长。
这两条曲线会相交于一点。当上下文长度超过该交叉点时，内存时间（KV 缓存读取）将超过计算时间，成为新的主要瓶颈，从而导致总成本上升。
定价的拐点（200K）正是对该交叉点的一个市场反映。
反推模型参数（每token字节数）：
在拐点处，假设批处理已足够大（权重内存时间可忽略），则有 (B × L × bytes_per_token) / 内存带宽 = (活跃参数 × B) / FLOPs。
B 从两边消掉，可以解得 bytes_per_token = (活跃参数 / L) × (内存带宽 / FLOPs)。
代入选定的值：活跃参数 100B，L=200,000，(内存带宽/FLOPs) ≈ 1/300，计算出 bytes_per_token ≈ 1667，约 2 KB。
这个数值与典型的注意力实现是吻合的。例如，假设模型有8个 KV 头（KV heads），头维度（d_head）为 128，并且像 Character.AI 和 Gemma 那样跨层共享上下文，那么每个 token 存储的字节数就是 层组数 × 2 × d_head × KV_heads，算下来恰好是 1 × 2 × 128 × 8 = 2048 字节。稀疏注意力则是另一种达到此数据量的路径。
输入（Prefill）与输出（Decode）的定价差异：
API 中输出 token 通常比输入 token 贵 3-5 倍。
其原因在于 Prefill 和 Decode 的硬件瓶颈不同。Decode（生成）是内存带宽受限的，而 Prefill（处理输入）是计算受限的。
在 t 对 pass长度 的图上，t_compute 是常数，而 t_mem 是一条随 pass 长度增加而下降的曲线。因此，当 pass 长度很大（Prefill）时，内存瓶颈被打破，每 token 的平均内存读取时间极低，此时主要浪费在计算上，利用率更高。而 pass 长度为 1（Decode）时，内存带宽瓶颈达到峰值，每 token 单位时间成本最高。
输出更贵，恰恰说明了这些模型在解码阶段时受内存带宽制约的程度之深。
缓存命中定价与内存层级：
缓存命中的成本可低至重新计算的 1/10，这揭示了重新物化（Rematerialization）与存储的成本权衡。
重新物化一个 token 的 KV 缓存的成本 = t_compute_per_token × GPU租金/秒。
将其存储在各级内存的成本 = bytes_per_token × (本身存储占用/该存储总量) × 该部件租金/秒 × 持有时间。
不同存储层级的“放空时间”（Drain Time，即容量/带宽）决定了其适合的数据持有时间。HBM（~15ms）适合极短期，DDR（~数秒）适合中短期，闪存（Flash，~分钟）和机械硬盘（Spinning Disk，~小时）适合中长期的缓存。
通过分析 API 提供的不同缓存写入时长（如 5 分钟 vs 1 小时），Reiner 推测这两个定价档位对应的物理存储介质可能就是闪存和机械硬盘。

02:04:02 神经网络与密码学的趋同进化

本节重点

神经网络和密码学协议在高层结构上存在惊人的“趋同进化”，都高度依赖信息混合和置乱。
但两者目标截然相反：密码学旨在摧毁信息结构以生成随机性，而神经网络旨在从随机性中提取结构。
密码学中的 Feistel 网络（用于构建可逆函数）被跨界应用到神经网络中，催生了 RevNets（可逆网络），以解决训练中的内存占用问题。

详细精要

目标的对立与方法的统一：
密码学的目标是制造扩散和混淆，使得输入的微小改变能引其输出的巨大且看似随机（雪崩效应）。
神经网络（特别是深度模型）通过堆叠层次来从输入中提取不变的高阶特征，本质上是在对抗随机性，寻找结构。
两者不约而同地使用了“搅拌”信息的思想：先进行局部变换，再混合，再重复。
可微性作为分水岭：
两者的首要区别在于操作所在的数域：神经网络默认在实数域上操作，便于进行梯度下降；而密码学操作在二进制有限域 (GF(2)) 上。
密码学中的一个核心攻击手段是差分密码分析（Differential Cryptanalysis），本质上就是去寻找输入微小差异所对应的输出差异，而密码设计的一个核心目标就是让这个输出差异不可控、最大化。这与神经网络的鲁棒性形成鲜明对比：神经网络希望输入的小扰动（如对抗样本）不要导致输出的剧变，这是它的失效模式。
残差连接（Residual Connections）和层归一化（LayerNorm）等机制让网络的梯度流稳定可控；而密码学设计则会刻意避免此类结构，以增加其破解难度。
密码学在神经网络中的应用——RevNets：
将密码学中的 Feistel 网络架构（一个用不可逆函数构建可逆函数的巧妙设计）移植到神经网络中，产生了可逆残差网络（RevNets, 2017）。
标准残差层：y' = y + F(x)。RevNets 变体：输入是一对 (x, y)，输出是 (y + F(x), x)。通过这种结构，无论 F 是否可逆，整个网络层都是可逆的。
在训练时的巨大优势是内存节省。普通训练需要在前向传播时存储所有中间激活值（activations），用于反向传播，这在内存中是 O(L) （L为层数）的开销。
而 RevNets 则可以在反向传播时，通过再次执行前向传播的逆过程，动态地重新物化出所需激活值，从而将内存复杂度降至 O(1)。
这是一种“用计算换内存”的策略，与主流的用 KV 缓存“用内存换计算”的策略形成了哲学上的两极，也反映了当前硬件（计算充裕，内存昂贵）下的选择方向。

💬 精华片段（中文）

"神经网络和人造密码，在某种程度上都在做同一件事：用复杂的方式把信息搅在一起。只不过一个为了看清，一个为了隐藏。"

"There's this convergent evolution where they both need to jumble information across all their inputs. For cryptographic protocols, it’s to make sure that each new input into a hash function will totally scramble what happens. For neural networks, of course, they need to consider how this piece of information changes what you should make of this other piece of information."

专业术语注释

术语	解释
算术强度分析（Roofline Analysis）	一种性能评估模型，用于判断一个计算任务是受限于计算吞吐率（FLOPs）还是内存带宽（Memory Bandwidth）。
Blackwell NVL72	Nvidia 的一款包含 72 块 GPU 的超大规模机架，其内部通过高速 NVLink 实现全互联。
HBM (High Bandwidth Memory)	高带宽内存，一种 3D 堆叠的内存技术，提供远超传统 DDR 内存的带宽，是 GPU 的核心存储。
活跃参数 / 总参数 (Active/Total Parameters)	在 MoE 模型中，总参数是模型存储的所有权重。在一次推理中，每个 token 只会激活一部分专家，被激活的专家所对应的参数量即为活跃参数。
KV 缓存 (KV Cache)	在自回归解码过程中，将先前所有 token 的 Key 和 Value 向量存储起来，避免每个新 token 生成时都重复计算，是“用内存换计算”的典型例子。
MFU (Model FLOPS Utilization)	模型 FLOPS 利用率，指在模型实际运行中峰值算力的有效利用百分比，是衡量系统效率的关键指标。
FP4	一种 4 位浮点数格式，用于极低精度的模型权重和计算，大幅提升吞吐并减少内存占用。
MoE (Mixture of Experts)	混合专家模型，一种由多个子网络（专家）和一个门控路由器组成的架构，每次只激活部分专家进行计算，实现条件计算。
专家并行 (Expert Parallelism)	将 MoE 模型的不同专家放置在不同 GPU 上的一种并行计算策略，通信模式为 all-to-all。
全对全 (All-to-All)	一种通信模式，在此模式下每个并行计算单元都需要向其他所有单元发送数据。
NVLink / NV 交换机	Nvidia 的一项高速点对点及交换式互联技术，用于连接机架内的 GPU，构成纵向扩展网络。
纵向扩展 (Scale-up) / 横向扩展 (Scale-out)	Scale-up 指增强单节点或单机架内部的计算能力（带宽极高），Scale-out 指通过增加更多节点/机架来扩展（带宽相对较低）。
流水线并行 (Pipeline Parallelism)	将模型按层切分到不同的设备上，数据像流水线一样在不同设备间依次传递处理。
微批处理 (Micro-batching)	将一个大的批次拆分成更小的批次依次处理，常用于缓解流水线并行中的气泡问题。
Chinchilla 最优	由 DeepMind 的论文提出，指在给定计算预算下，模型参数和数据量应按接近 1:20 的比例扩展，以实现最低的预训练损失。
6ND 公式	一个在工程中广泛使用的近似公式，用于估算用 N 个参数训练 D 个 token 所需的总浮点运算次数，约为 6ND。
Prefill / Decode	大模型推理的两个阶段。Prefill 阶段处理所有输入 token 并填充 KV 缓存（计算密集型）；Decode 阶段每次生成一个新 token（内存带宽密集型）。
Flash Attention	一种精确、快速且内存高效的注意力算法，通过分块在 SRAM 中执行计算，避免将大注意力矩阵写入 HBM。
DDR	双倍数据率同步动态随机存取内存，比 HBM 慢得多，但成本更低，通常作为 CPU 的内存或更高层的缓存。
物化/重新物化 (Materialization/Rematerialization)	将计算结果保存在内存中（物化）以备后用。当需要时，如果未保存，则通过重新计算得出（重新物化）。
Feistel 网络 (Feistel Network)	一种密码学中常用的对称结构，能够用任何（甚至不可逆的）函数构造出可逆的分组密码块。
RevNets (Reversible Networks)	可逆残差网络，利用 Feistel 网络的原理，使得神经网络的中间激活可以通过逆运算重建，从而在训练中节省大量内存。
差分密码分析 (Differential Cryptanalysis)	一种密码分析技术，通过分析特定输入差异如何影响输出差异来破解密码。与神经网络的鲁棒性研究有共通之处。

延伸思考

推理的规模经济门槛：如果单机架的吞吐量仅为全球顶级服务商的千分之一，这是否意味着 AI 推理天然具有更强的规模经济效应，从而加剧寡头垄断？小厂在推理成本上几乎不可能与拥有百万级并发请求池的大厂竞争。
“过训”极限：模型被过训 50-100 倍的极限在哪里？是否存在一个经济学的“死亡交叉”，即继续过训的收益（节省的推理成本）低于其训练开销？随着模型智能化和使用频率剧增，这一最优数据量是否会成为一个动态变化的移动目标？
内存墙的未来：如果长上下文是走向通用 AI 的必经之路，而 HBM 的内存墙又几乎是物理定律锁死的瓶颈，那么除了稀疏注意力之外，根本性的架构创新（如计算与存储在物理上的新形态）将在何处发生？存内计算或新型存储级内存（SCM）会是答案吗？
硬件-算法协同设计的回归：从 RevNets（算法设计以迁就内存限制）到 MoE 与 Blackwell 机架（硬件设计以迁就通信模式），我们看到硬件和算法不再是割裂的。未来最有竞争力的 AI 公司，是否必然是那些能同时精通芯片设计和模型架构的团队？

原文发表：Apr 29, 2026 · 纪要生成：2026-05-07