芯片设计由底向上：从逻辑门到 GPU、TPU 与大脑

来源： Dwarkesh Podcast (Substack) | Reiner Pope | May 22, 2026
播客： Dwarkesh Podcast 分类： 其他
原文发表： May 22, 2026
纪要生成： 2026-05-24

全集重点

乘累加是矩阵乘法的原子操作：一个 4 位乘 4 位加 8 位的手工实例，揭示了电路如何由 AND 门和全加器构建，并自然导出面积与位宽的二次方关系。
数据移动成本远高于计算：一个简单的 8 路多路复用器所需的门数远超乘法器本身；这是引入脉动阵列的根本动机。
脉动阵列通过固定权重复用将通信开销压至 O(n)：权重矩阵本地存储，待计算向量流入流出，带宽只随一维增长，大幅提升面积效率。
时钟频率、面积与吞吐的经典三角权衡：每插入一级流水线寄存器可将频率翻倍，但同步开销侵占计算面积；反馈环路是限制时钟频率的最终瓶颈。
FPGA 与 ASIC 的成本差源于可编程的“万用”布线：查找表和多路复用器的组合使每个“门”的实际开销放大一个数量级，但换来了极低批次量的经济性和确定性延迟。
GPU 实质上是一大片微型 TPU：SM 内部的小型张量核心即小型脉动阵列，TPU 则是少量巨型阵列；粗粒度 vs 细粒度的选择对应着不同的数据移动与编程灵活性取舍。

嘉宾/话题简介

Reiner Pope 是 AI 芯片初创公司 MatX 的 CEO（本期主持人 Dwarkesh 也是其天使投资人）。此前他在 Google 从事软件效率、编译器及 TPU 架构相关工作。本集在黑板上从最基本的逻辑门开始，逐步构建出乘法累加器、多路复用器、脉动阵列、流水线寄存器，最终对比 CPU、GPU、TPU、FPGA 乃至人脑的差异，完整呈现了芯片设计由底向上的核心原理与关键权衡。

分节详述

00:00 – 从逻辑门构建乘法累加器

本节重点

矩阵乘法的每个步骤都是一个乘累加（multiply-accumulate），且累加精度需高于乘法精度。
手工演示 4 位乘 4 位加 8 位：先用 AND 门产生 16 个部分积，再用全加器（3→2 压缩器）逐列压缩直到只剩一个结果。
达达乘法器的门数规律：AND 门数为 p×q，全加器数亦为 p×q（输入比特总数为 p×q + p + q，输出比特为 p+q）。
面积随位宽呈二次方增长，这是低精度运算极具优势的根本原因，也是 Nvidia B300 中 FP4 吞吐达 FP8 三倍（而非两倍）的根源。

详细精要

乘累加是矩阵乘法的天然原子操作：矩阵乘法 C[i,k] += A[i,j] × B[j,k] 的每一步都是一个乘法后累加；同时，累加过程中舍入误差会累积，因此累加精度通常高于乘数精度（例如 4 位乘、8 位累加），以获得更高的数值稳定性。
Reiner 在本节中先以 4 位整数乘法配 8 位累加为例进行手算说明。
乘累加之所以“光滑”地契合矩阵内积，还因为它使得门数分析极为简洁：p×q 个 AND 和同等数量全加器。
手工构建 4×4 乘加的全过程：将两个 4 位数（1001 和另一个 4 位数）的每一位相乘，得到 16 个部分积，再加上一个 8 位累加数，共 24 个需要求和的比特。
第一部分：用 AND 门 生成每一个部分积。若乘数某位为 1，则被乘数保留；为 0，则输出全 0。一个 1×1 的乘法就是 AND。共使用 16 个 AND 门（p=4, q=4）。
第二部分：对所有比特进行求和。这里使用的核心电路是 全加器（full adder），它输入 3 个单比特（通常来自同一列），输出 2 个比特（和与进位），因此又称为 3→2 压缩器。全加器的功能就是统计三个输入中 1 的个数，并以二进制输出。
达达乘法的还原压缩步骤：从最右列开始，每次取 3 个比特送入全加器，输出 1 个和（留在原列）和 1 个进位（移至左列）；不断重复，直到每列只剩 1 个比特。
初始有 24 个需要处理的比特；最终需要产生 8 个输出比特。每用一个全加器就减少 1 个比特（吃掉 3 个，吐出 2 个），因此总共需要 16 个全加器（24－8）。
推广到任意位宽：p×q 个 AND 门产生部分积，再加上 p+q 个累加输入比特，总计 p×q + p + q 个输入比特，输出为 p+q 位，因此全加器数量 = (p×q + p + q) - (p+q) = p×q。这正是达达乘法器简洁的代数量。
每一步全加器调用对应一个逻辑门，所有连线需要在物理上实现为金属迹线，这就是芯片上实际占用面积的来源。
精度与面积的二次方关系：AND 门数和全加器数都是 p×q，如果两个乘数位宽相同，电路面积约与位宽的平方成正比。这也是低精度（如 FP4）极致高效的根本原因。
Nvidia 从 B100/B200 到 B300 的变化反映了这一点：过去每将位宽减半，FLOPS 翻倍（线性思想），但实际因面积二次方缩放，应获得更大加速。B300 的 FP4 吞吐量已达到 FP8 的 3 倍（理论上应为 4 倍，差距源于浮点指数的额外逻辑）。
这也解释了为何 AI 芯片设计中，不同精度格式（FP4/FP8）的面积分配是一个核心决策：要么按客户需求配比，要么按功率预算均摊。
可伸缩性与精度格式的复用问题：同一条乘法累加电路是否可以复用于 FP4 和 FP8？答案是否定的——手绘的这一套电路只能用于一种固定位宽。要支持多种格式，要么复制多个单元，要么通过其他方式拆分，但无法简单“复用”。
Nvidia 之所以能在软件层面实现“将两个 FP4 数打包进一个 FP8 存储”，是因为片内总线宽度与存储格式的巧妙对齐。
尽管本节的例子是整数乘法，但浮点乘法额外需要指数对齐和归一化步骤，这也是 FP4 实际加速比达不到理论 4 倍的原因。

💬 精华片段（中文）

“The first reason is that it's what shows up in matrix multiplication. The second is that it gave us this very slick, simple p×q, very simple algebra.”

16:31 – 多路复用器与数据移动的成本

本节重点

传统 CUDA 核或 CPU 核中，算术逻辑单元 (ALU) 需要从寄存器文件任意选取操作数，这通过多路复用器实现；其门数开销却远大于 ALU 本身。
一个 8 路、每路 p 位的多路复用器需要 n×p 个 AND 和 (n-1)×p 个 OR——仅数据搬运就占用绝大部分面积。
正是这种“搬运开销碾压计算”的现象，直接催生了 Volta 代张量核心和脉动阵列的设计动机。

详细精要

典型的寄存器-ALU 数据路径：芯片中存在一个寄存器文件（如 8 个 32 位寄存器），算术单元（如乘累加器）需要从中读取 3 个操作数，并将结果写回。
为了选择具体哪一个寄存器，需要在 ALU 的每个输入端口前放置一个多路复用器 (mux)，它接受所有寄存器的输出，根据控制信号选出其中一路。
多路复用器是完全透明的软硬件界面；软件只需指明“读取第 3 号寄存器”，而硬件必须从所有寄存器中拣选出这一路。
多路复用器的门级实现：采用最朴素的方法：把每个寄存器输出与一个控制位相 AND（掩膜），然后将所有结果相 OR 合并。
对于 n 路、每路 p 位的 mux，需要 n×p 个 AND 门（每一位都要与选择信号进行 AND），以及 (n-1)×p 个 OR 门（将所有掩膜后的信号逐层或起来）。
以一个两路、4 位的 mux 为例，Reiner 在黑板上演示了每一步的与/或操作，指出其过程类似于加法，但 OR 的合并比全加器简单得多。
数据移动成本 vs 计算成本：以 8 个寄存器的文件为例，读取 3 个操作数需要 3 个 mux，总 AND 门数 = 3 × 8 × p = 24p。而一个 4 位乘法器只消耗约 4p 个 AND 门（且全加器门数规模类似）。
仅数据搬运就是乘法器本身门数的 6 倍。而且这只是从极小的 8 深度寄存器文件读取的代价；如果寄存器更多，比例会更悬殊。
这揭示了“隐藏的数据移动成本”：软件程序员以为只是“选一个数”，但硬件上需要大量额外电路。大多数通用处理器的瓶颈正是这些透明但庞大的互连逻辑。
转变为脉动阵列的动机：既然绝大部分面积都花在了搬运上，那就必须想办法让每个字节搬运过来后能做更多计算。Volta 代 Tensor Core（通用名称为脉动阵列 systolic array）正是这一思路的产物。
本质是向上走一层循环：不是每次从寄存器文件拿两个数做一次乘加，而是将整块矩阵乘法的内层循环直接硬化，以此大幅提升计算/通信比。
后续部分将展示如何通过“权重矩阵本地存储”来消除反复读取寄存器的需要。

💬 精华片段（中文）

“All of this work just moving the data from the register file to the logic unit is many, many times more expensive than the logic unit.”

26:10 – 脉动阵列的工作原理

本节重点

将矩阵-向量乘法（矩阵乘法的内层循环）直接映射到硬件，形成二维乘加阵列；权重矩阵保留在本地寄存器中，只需馈入、输出向量。
权重通过菊花链顺序移位缓慢载入，使得阵列边界的通信带宽与 O(x) 成正比（x 为一维尺寸），而非 O(xy)，从而极大节省与外部寄存器文件的昂贵连线。
这种结构是已知的面积效率最高的矩阵乘法硬件实现，旧 TPU 常采用 128×128 的规模。

详细精要

从单次乘累加到硬化整个内层循环：此前的电路只硬化了单次乘加；脉动阵列将矩阵向量乘法（y = Wx）的整个计算过程用二维运算单元网固定下来。
以 2×2 矩阵乘以 2 维向量为例，共需 4 个乘加器，每个对应矩阵的一个元素。每个乘加器执行 “a × b + c”，其中 c 来自上方的部分和。
输入向量（右侧）流入，与本地存储的权重相乘后，部分和沿垂直方向累积，最终从底部输出结果向量。这种空间上的列内累加恰好对应矩阵乘法的点积。
权重本地化，向量流动：最大的优化在于权重矩阵保留在脉动阵列内部的寄存器中，整个推理或训练过程中长时间不变，仅馈入不同的向量。
这利用了 AI 工作负载中权重相对固定的特点（inference 时权重不变，training 时权重更新也远慢于每周期一次）。
相比传统设计（每周期从寄存器文件搬运全部权重），这一策略将通信量从与矩阵大小成正比 O(xy) 降为与向量大小成正比 O(x)。计算量仍是 O(xy)，因此计算/通信比获得 O(y) 倍的提升。
权重的“涓流”加载机制：虽然权重存储在阵列内部，但终究需要初始化。采用的办法是沿着列方向缓慢移位：每个时钟周期将新的权重数推入第一行，同时所有行下移一行。
这种菊花链 (daisy chain) 方式使得加载带宽仍只与列数（x 方向）成正比，且加载可以穿插在计算间隙中完成，不影响运行时的高吞吐。
代价是加载延迟较高，但对于权重更新频率极低的推理场景完全可接受。这与数据中心级推理的“加大批量以摊薄内存带宽”思想一脉相承：都在通过固定数据重用提升计算密度。
整体面积效率：这一结构将原本花费在 register file muxes 上的大量 AND/OR 门，转换为更多乘法器，直接提升单位面积的有效算力。早期 TPU 中常见 128×128 的规模，现代 AI 加速器几乎无一例外包含某种形式的脉动阵列。

💬 精华片段（中文）

“The key trick is that this matrix can be stored locally to the systolic array. … we’re going to reuse these numbers over and over again for a large number of different vectors.”

39:11 – 时钟周期与流水线寄存器

本节重点

芯片是极端并行的系统，所有并行单元通过全局时钟在每个周期末同步状态；寄存器在时钟边沿捕获逻辑云输出。
时钟频率的提升受限于任意两个寄存器之间逻辑路径的最大延迟（关键路径）；插入流水线寄存器可将长路径拆分，但会消耗额外面积。
存在反馈环路（如累加器）时，插入寄存器会改变计算语义（例如将全累加拆分奇偶部分），这是芯片时钟频率的最终硬限制。

详细精要

芯片的同步机制：尽管一块芯片上有上千亿个晶体管，所有操作都需要对齐。芯片采用一种强同步模型：一个全局时钟信号驱动所有寄存器，每约 1 纳秒（或更短），所有寄存器同时捕获其输入端的逻辑值并锁存。
在两个寄存器之间的逻辑云（可能包含一系列 AND、OR、全加器等）必须在下一个时钟沿之前完成全部信号传播和稳定。任何未完成的计算将导致错误。
这保证了极度可预测的并行执行，而不必像软件那样使用昂贵的互斥锁。
时钟频率与吞吐：每秒完成的操作为频率 × 每周期完成的操作数。提升频率有两种方式：要么用更好的工艺节点，要么在设计中插入额外寄存器拆分长逻辑路径。
例如，将一段逻辑等分为两半，中间插入一个寄存器，理论上可以使该段电路频率翻倍。代价是增加一个寄存器，占用更多面积，且流水线深度增加会引入延迟。
芯片设计者的任务之一就是在频率、面积与功耗之间取得平衡。不能无限制插入寄存器，因为寄存器本身也是要占门和布线的。
反馈环路对时钟的限制：当电路结构包含从输出回到输入的环路（例如累积求和 acc = acc + new）时，简单插入寄存器会改变算法。
如果在一个累加器中插入一级寄存器，原来一次完整的累加变成两条流水线：一条累加偶数项，另一条累加奇数项。这破坏了原始语义，通常不可接受。
因此，反馈环路中纯粹的组合逻辑延迟决定了时钟周期的最小值；工艺库中 AND/全加器的单级延迟约为 10 ps，一串 10–30 级门才能在一个周期内完成。这也就是 2–5 GHz 级别的时钟频率来源。
面积效率视角：如果过分追求高频率而插入过多寄存器，可能出现寄存器面积远超逻辑本身的情况。例如，一个 AND 门面积为 1，一个寄存器约为 8；若每一级逻辑后都插入寄存器，大部分面积都沦为“同步税”，实际吞量反而下降。
这再次呼应数据移动成本的原理：过度追求频率会牺牲并行度，类似于推理中低批量时延迟低但总吞吐量差。

💬 精华片段（中文）

“If I try to put a pipeline register right in the middle of it, … I will end up with a running sum of the even numbers and a running sum of the odd numbers.”

51:51 – FPGA 与 ASIC

本节重点

FPGA 用可配置的查找表 (LUT) 加大规模多路复用器模拟任意门电路，提供了“出厂后编程”的灵活性，但单位功能的芯片面积和功耗均为 ASIC 的约 10 倍。
一个 4 输入 LUT 本质是 16 选 1 的多路复用器，内部需 32 个门，却可能只实现 3 个门的简单逻辑（如四输入 AND）。开销来自可编程布线资源。
FPGA 适用于高频交易等需要确定性延迟、且工作负载频繁变化的场景，因为其免除了数千万美元的流片费用。

详细精要

业务模式决定器件选择：一颗 FPGA 单价或许上万美元，但无需流片（tape-out），即刻可用；而 ASIC 第一颗样品的流片成本高达 3000 万美元以上，尽管后续量产单颗成本极低。
当应用需要频繁更换逻辑（如每月一次），或总出货量极低时，FPGA 具有压倒性的经济优势。
高频交易公司采用 FPGA，是因为他们追求纳秒级确定性延迟，并且交易策略经常迭代，ASIC 的固定逻辑无法适应这种变化。
FPGA 的核心构造块：LUT、寄存器和超大 mux 网络：
查找表 (LUT)：通常 4 输入 1 输出，通过存储一个 16 位真值表配置，可以表示任何 4 输入布尔函数。它本质上是一个 16 路、1 位宽的 mux。
寄存器：提供时钟同步的存储。
互连：每个 LUT 和寄存器的输入前都连接着一个巨大的多路复用器，从周围数十个节点中选择信号来源。这片固定的互连结构（绘制为白色背景）是“出厂时的本质开销”，而实际使用的信号路径（橙色）只是其上叠加的一条“逻辑布线”。
面积开销的量化：实现一个四输入 AND 门，在 ASIC 中只需 3 个 AND 门（两两相与）；而 FPGA 需要通过一个 LUT。
LUT 内部是 16 选 1 的 mux，含 16 个 AND 和 16 个 OR，约 32 个门。而这还没算前级选择输入来源的大 mux。
因此 FPGA 实现同样逻辑的资源开销约是 ASIC 的 10 倍，这直接对应了功能密度和能效的十倍差距。
可编程性来自海量配置位：编程 FPGA 的本质，是为每一个 mux 选择线（选择从哪个邻近节点读入）和每一个 LUT 的真值表写入数据。这些配置位存储在 FPGA 各处的 SRAM 中，上电时加载，决定了芯片的逻辑功能。

💬 精华片段（中文）

“Using a LUT, I can also implement it, but it's going to take 32 gates instead of three.”

01:03:25 – 缓存 vs 暂存器

本节重点

CPU 使用缓存自动管理片内数据，以掩盖片外 DDR 内存的高延迟；但缓存的命中取决于运行时状态，从而引入了不确定的延迟。
AI 芯片（如 TPU）通常采用暂存器 (scratchpad)，由软件显式指令控制数据在片内与片外内存间的搬运，从而实现完全确定性的执行时间。
确定性延迟本身不难实现（早期 CPU 即如此），但现代通用 CPU 为追求高性能牺牲了确定性。Groq 和 TPU 则回归此哲学。

详细精要

缓存的工作原理与非确定性：CPU 片内的高速缓存自动保存近期访问的内存数据。当一条访存指令执行时，硬件首先检查该地址是否在缓存中（hit），否则从 DDR 中读取（miss）。
缓存命中率取决于当前的运行环境：其他程序占用的缓存、过去的访问模式、缓存替换算法的随机性等。这导致同一程序在不同上下文中的单次访存延迟可能有百倍差异。
对于高频交易等场景，这种不确定性是绝对无法接受的，因此必须转向可控的方案。
暂存器的设计理念：在 TPU 中，同样有一块片上高速存储（类似缓存），但不再有“自动缓存”的电路。软件使用两类完全不同的指令：一种读/写暂存器，另一种读/写片外 HBM。
软件编译器或程序员完全掌控数据流向，明确知道哪些数据在暂存器中，哪些需要搬运，从而使每次的内存操作延迟完全可预测。
这种方式牺牲了一定的编程便利性（需要显式 DMA 搬移），但换来确定性和面积效率（无需实现复杂的缓存一致性协议和 Tag 比较逻辑）。
确定性微架构：Reiner 指出，实现确定性 CPU 在技术上完全可行——只需去掉缓存和其他推测性部件（如分支预测器），改用暂存器或全同步设计。但此类 CPU 由于访存延迟暴露，大多数程序（依赖缓存提升性能）将慢上百倍，因此在通用市场不具吸引力。而在专用领域，Groq 和 TPU 等芯片正是这样设计的。

💬 精华片段（中文）

“The presence of a cache is absolutely necessary for a CPU to run at a reasonable speed. … But whether or not you get a cache hit depends on the ambient environment … a big source of non-determinism.”

01:07:27 – 为什么 CPU 核心比 GPU 核心大得多

本节重点

CPU 核心巨大的芯片面积主要投入在缓存和分支预测器上，而 ALU 只占极小部分；GPU 则大幅削减这两者，并结合海量线程上下文，塞入成百上千的 CUDA 核心。
分支预测器提前多个周期猜测分支方向，维持了深度流水线的高吞吐；GPU 则通过轻量级线程切换（warp scheduler）直接隐藏分支延迟，无需大型预测硬件。
“冯·诺依曼架构”的串行取指执行模型在现代 CPU 中仍然成立，它们的并行度仅在核心数 × 向量宽度（约 1000 路），远不及 GPU/FPGA。

详细精要

CPU 核心面积去向：一个典型 CPU 核心占据整个芯片的约 1/100，但内部 ALU（算术逻辑单元）比例极低。主要的面积大户包括：
多级缓存（L1、L2、L3）：大量 SRAM 单元占据显著面积。
寄存器文件：为支持乱序执行和重命名，具有大量的物理寄存器。
分支预测器（Branch Predictor）：包含多种预测表、目标缓冲区和状态机，占用的逻辑和 SRAM 面积巨大。
CPU 的 ALU 自身可能只是整核面积的 5% 以下。GPU 则通过消灭大部分分支预测逻辑和缩小寄存器文件，将更多面积用于 ALU。
分支预测器的作用：现代 CPU 流水线深度达 10–20 级，取指、译码、执行、写回均需多个周期。遇到条件分支时，如果等待分支结果再取下一条指令，流水线会停顿。
分支预测器在分支指令尚未进入执行阶段前即猜测其跳转方向和目标地址，并提前从预测路径取指。这需要至少能提前 5 个周期以上预测正确，否则高频时钟毫无意义。
一旦预测失败，整个流水线需要刷新，损失大量周期。因此预测准确率必须极高（通常 >95%），这需要复杂的硬件结构，带来很大面积和功耗开销。
GPU 的替代策略：GPU 的一个 SM 管理着数十个 warp（线程束），每当一个 warp 因分支或访存停顿，硬件瞬间切换到另一个 warp 执行。这种零开销线程切换有效隐藏了延迟，因此不需要庞大分支预测器。
代价是每个核心的私有缓存和寄存器较小，线程并行度必须充足。这种架构非常适合以数据并行性为主的图形和矩阵运算。
因此，GPU 能在同等工艺下塞入数千个小型 CUDA 核心，而 CPU 只有几十个大型核心。

💬 精华片段（中文）

“The thing that does not have an equivalent in a GPU is the branch predictor. … Stripping a lot of that out … drives a lot of the GPU gains over the CPU.”

01:12:00 – 大脑 vs 芯片

本节重点

人脑具有非结构化稀疏（任意神经元可连接任意神经元），而芯片的结构化稀疏（如块稀疏）更易于硬件实现并节省面积。
大脑的“时钟频率”（神经元发放速率）极低，约毫秒级，但这并不带来能效比的 1000 倍提升，因为芯片动态功耗主要来自信号翻转，静置时功耗极低。
芯片的能耗机制：比特从 0 翻转到 1，再翻回 0，电容充放电的开关功耗是主要消耗；减慢时钟仅仅摊薄了时间上的功耗，每个操作的能量变化不大。

详细精要

稀疏性差异：大脑中，神经元连接是任意且动态的，这对应着完全非结构化稀疏。芯片要实现动态的任意连接极为昂贵（需要巨大的交叉开关或多路复用网络），因此多采用结构化稀疏（如每 4 个权重中只保留 2 个非零，形成规则模式），以便用更简单的硬件跳过零计算。
近年来也有芯片尝试在脉动阵列中支持非结构化稀疏，但代价高昂。
大脑的“计算与存储合为一体”类似于片上 SRAM，但芯片中的计算单元和存储仍是物理分离的，尽管在三维封装中可异质集成。
时钟速度与能效：人脑的神经元平均发放频率仅约 10 Hz，而 GPU 主频 1 GHz 以上，差距 10^8 量级。
若将芯片主频降至 1 MHz（降低 1000 倍），在一个周期内做完计算后，电路将长时间处于空闲状态。空闲时 CMOS 电路的漏电功耗相对较低，而动态功耗只发生在翻转瞬间。
因此，降频1000 倍只能降低约 1000 倍的总能耗，但能效（每焦耳完成的操作数）并没有质的提升——因为原有电路在做完一次计算后就“睡”了，没有白做无用功。真正提升能效要靠减少每次操作的必需翻转数（如低精度、脉动复用）。
动态功耗的本质：芯片中存储一个比特相当于对一个微小电容充电；从 0 变 1 充电，1 变 0 放电到地。每次翻转的电荷流动产生了热。降低数据搬运、减少精度、使用时钟门控（关掉不用的部分）等手段，才是降低每操作能耗的有效途径。

💬 精华片段（中文）

“If you run a chip much slower … you will have 1,000 times fewer transitions. … But it's not a substantial advantage in energy efficiency.”

01:15:33 – GPU 本质上就是一群小 TPU

本节重点

从顶层来看，GPU 是多个流式多处理器 (SM) 平铺，而 TPU 由少数大尺寸矩阵单元 (MXU) 加向量单元构成；SM 内部的张量核心正是一个微型脉动阵列，因此 GPU 可以看作大量微小 TPU 的集合。
TPU 的粗粒度设计允许更大的脉动阵列（更好摊销寄存器文件开销），但跨单元数据移动需通过狭窄接口；GPU 细粒度 SM 内数据移动路径多，适合运算局部性强的任务，但跨 SM 通信复杂。
理想芯片可能希望兼具两者：既可独立运行的小矩阵单元，又能联合成大阵列，MatX 公开的可分割脉动阵列正是此方向。

详细精要

GPU 整体布局：以 Nvidia GPU 为例，芯片中央是共享的 L2 缓存，周围规律排布着大量几乎相同的 SM。每个 SM 内部包含：小规模张量核心（类似细窄的脉动阵列）、向量执行单元、寄存器文件、L1 缓存/共享内存以及 warp 调度器。
这些小型张量核心相当于一个尺寸较小的矩阵乘法硬化单元，与 TPU 的 MXU 本质相同。
因此说“一个 GPU 就是一大堆微型 TPU 拼在一起”从架构角度基本准确。
TPU 的整体布局：通常由 2–4 个巨大的脉动阵列（矩阵单元）占据芯片主体，中间是向量处理单元 (VPU)，辅以高速暂存器。这是典型的粗粒度异构设计。
粗粒度带来的好处是：脉动阵列尺寸可以极大（如 128×128 或更大），足以将寄存器文件等外围开销充分摊销，获得极高的面积效率。
但代价是：向量单元与矩阵单元之间的数据搬移通道少（例如仅两端），当运算需要频繁在矩阵和向量之间切换时，数据移动变成瓶颈。
数据移动的几何因素：在 TPU 中，单个大阵列的边界周长有限，往返向量单元的总带宽受限。而 GPU 由大量 SM 各自独立运作，从每个 SM 的向量单元到其本地张量核心的带宽总和更大——因通道数量多且距离短。
如果工作负载完全局限在 SM 内部，数据搬移能耗极低。一旦需要跨 SM 通信，则需要通过 L2 或 NVLINK，复杂性骤增。
这构成另一种粒度-带宽权衡：粗粒度摊薄控制开销但束缚数据流动；细粒度自由但受限于每个结点规模。
可分割脉动阵列的设想：Reiner 披露 MatX 公开讨论的 splittable systolic array 概念，试图让一个大型阵列在需要时可动态拆分成多个小型独立阵列，以期同时获得大阵列的面积效率和小阵列的灵活性。这一思路也映射了 AI 推理与训练负载中多样性的矩阵形状对硬件的需求。

💬 精华片段（中文）

“From a very high-level point of view, the GPU has a lot of tiny TPUs tiled across the whole chip.”

专业术语注释

术语	解释
logic gate / 逻辑门	构成芯片的最基本单元，如 AND、OR、NOT，物理上由晶体管实现。
multiply-accumulate (MAC) / 乘累加	执行 `a = a + (b × c)` 的操作，是矩阵乘法的核心原子操作。
full adder / 全加器	将三个单比特数相加，产生和与进位输出的电路；又称 3→2 压缩器。
Dadda multiplier / 达达乘法器	一种利用全加器逐层压缩部分积的硬件乘法器结构，以面积高效著称。
mux / 多路复用器	从多个输入信号中选择一路输出的电路，在芯片中用于数据路径选择和可编程互连。
register file / 寄存器文件	一小组高速存储单元，为处理器核心提供操作数并接收结果。
CUDA core	Nvidia GPU 中的基本计算单元，早期主要负责浮点/整数 ALU 操作，后配合张量核心使用。
Tensor Core / 张量核心	Nvidia Volta 代起引入的固定功能单元，硬件实现脉动阵列或类似结构，加速矩阵乘加。
systolic array / 脉动阵列	以二维网格排列的处理器单元，数据以脉动节奏在单元间传递；权重常驻本地以获得极高数据复用。
TPU (Tensor Processing Unit)	Google 开发的 AI 加速器，内部包含大型脉动阵列和暂存器，针对 TensorFlow 优化。
MXU (Matrix Unit)	TPU 中的矩阵乘法单元，即大尺寸脉动阵列。
clock cycle / 时钟周期	芯片全局同步信号的周期；所有寄存器在该周期边沿捕获数据，决定芯片基本操作节奏。
pipeline register / 流水线寄存器	为拆分长逻辑路径以提升时钟频率而插入的寄存器，增加流水级数。
feedback loop / 反馈环路	组合逻辑的输出又馈入输入的电路（如累加器），限制了可插入寄存器的位置。
FPGA (Field-Programmable Gate Array)	可在现场反复编程的芯片，通过 LUT 和可配置互连模拟任意数字电路。
ASIC (Application-Specific Integrated Circuit)	为特定应用定制的不可重构芯片，面积/功耗/性能最优，但需高昂流片费。
LUT (Look-Up Table) / 查找表	FPGA 中的基本逻辑单元，通过预存真值表实现任意 n 输入布尔函数；通常为 4 输入。
one-hot encoding / 独热编码	选择控制的一种编码方式，任何时候只有一位为1，其他全0；在 mux 中选择特定通道。
cache / 缓存	透明保存近期/频繁使用数据的硬件结构，旨在减少平均访存延迟，但引入不确定性。
scratchpad / 暂存器	由软件显式管理的片上高速存储，无自动缓存机制，提供确定性延迟。
DDR / HBM	分别为双倍数据速率内存和高带宽内存，用作芯片的外部大容量内存。
branch predictor / 分支预测器	推测条件分支方向及目标的硬件模块，让 CPU 流水线免于等待分支结果，是 CPU 高性能的关键。
warp scheduler / 线程束调度器	GPU 中负责将多个线程束（warps）调度到执行单元上的硬件，通过即时切换隐藏延迟。
SM (Streaming Multiprocessor)	Nvidia GPU 中的可编程多处理器，包含多个 CUDA 核心、张量核心、共享内存等。
von Neumann architecture / 冯·诺依曼架构	计算与存储分离、指令顺序执行的经典计算机模型；现代 CPU 仍然遵循，但加入了大量并行优化。
splittable systolic array / 可分割脉动阵列	一种新型阵列设计，可根据负载动态拆分成多个独立小阵列或组合成一个大阵列。

延伸思考

AI 芯片的“反直觉”精度-面积关系：既然面积与位宽成平方关系，推动更低精度（如 FP2、INT4）的数值格式研究，是否会再次释放数倍的芯片面积红利？但模型训练收敛性与推理质量的下限在哪里？
可重构计算的中间地带：是否存在一种介于 FPGA 和 ASIC 之间的架构，能以较低面积代价提供一定程度的可编程性？Chiplet 和 AI 专属 FPGA 可能是答案。
脉动阵列的适用范围：除矩阵外，Transformer 中的注意力机制、MoE 路由等不规则操作能否通过可重组的脉动阵列高效处理？这是许多 AI 芯片公司正在探索的方向。
类脑计算的真实能效优势何在：若动态功耗仅由翻转数决定，那么存内计算、事件驱动等类脑方法若不能大规模减少数据搬运和位翻转数，其能效优势将非常有限；如何在电路层面量化这一点？
时钟与并行的哲学：全局同步虽简单，但随着芯片面积增大，时钟扭曲 (clock skew) 已是重大挑战。GALS (全局异步局部同步) 或更激进的异步电路是否会成为后摩尔时代的主流？

原文发表：May 22, 2026 · 纪要生成：2026-05-24