▶ 原文链接

芯片设计由底向上:从逻辑门到 GPU、TPU 与大脑

来源: Dwarkesh Podcast (Substack) | Reiner Pope | May 22, 2026
分类: 其他
原文发表: May 22, 2026
纪要生成: 2026-05-24


全集重点


嘉宾/话题简介

Reiner Pope 是 AI 芯片初创公司 MatX 的 CEO(本期主持人 Dwarkesh 也是其天使投资人)。此前他在 Google 从事软件效率、编译器及 TPU 架构相关工作。本集在黑板上从最基本的逻辑门开始,逐步构建出乘法累加器、多路复用器、脉动阵列、流水线寄存器,最终对比 CPU、GPU、TPU、FPGA 乃至人脑的差异,完整呈现了芯片设计由底向上的核心原理与关键权衡。


分节详述

00:00 – 从逻辑门构建乘法累加器

本节重点

详细精要

💬 精华片段(中文)

“The first reason is that it's what shows up in matrix multiplication. The second is that it gave us this very slick, simple p×q, very simple algebra.”


16:31 – 多路复用器与数据移动的成本

本节重点

详细精要

💬 精华片段(中文)

“All of this work just moving the data from the register file to the logic unit is many, many times more expensive than the logic unit.”


26:10 – 脉动阵列的工作原理

本节重点

详细精要

💬 精华片段(中文)

“The key trick is that this matrix can be stored locally to the systolic array. … we’re going to reuse these numbers over and over again for a large number of different vectors.”


39:11 – 时钟周期与流水线寄存器

本节重点

详细精要

💬 精华片段(中文)

“If I try to put a pipeline register right in the middle of it, … I will end up with a running sum of the even numbers and a running sum of the odd numbers.”


51:51 – FPGA 与 ASIC

本节重点

详细精要

💬 精华片段(中文)

“Using a LUT, I can also implement it, but it's going to take 32 gates instead of three.”


01:03:25 – 缓存 vs 暂存器

本节重点

详细精要

💬 精华片段(中文)

“The presence of a cache is absolutely necessary for a CPU to run at a reasonable speed. … But whether or not you get a cache hit depends on the ambient environment … a big source of non-determinism.”


01:07:27 – 为什么 CPU 核心比 GPU 核心大得多

本节重点

详细精要

💬 精华片段(中文)

“The thing that does not have an equivalent in a GPU is the branch predictor. … Stripping a lot of that out … drives a lot of the GPU gains over the CPU.”


01:12:00 – 大脑 vs 芯片

本节重点

详细精要

💬 精华片段(中文)

“If you run a chip much slower … you will have 1,000 times fewer transitions. … But it's not a substantial advantage in energy efficiency.”


01:15:33 – GPU 本质上就是一群小 TPU

本节重点

详细精要

💬 精华片段(中文)

“From a very high-level point of view, the GPU has a lot of tiny TPUs tiled across the whole chip.”


专业术语注释

术语 解释
logic gate / 逻辑门 构成芯片的最基本单元,如 AND、OR、NOT,物理上由晶体管实现。
multiply-accumulate (MAC) / 乘累加 执行 a = a + (b × c) 的操作,是矩阵乘法的核心原子操作。
full adder / 全加器 将三个单比特数相加,产生和与进位输出的电路;又称 3→2 压缩器。
Dadda multiplier / 达达乘法器 一种利用全加器逐层压缩部分积的硬件乘法器结构,以面积高效著称。
mux / 多路复用器 从多个输入信号中选择一路输出的电路,在芯片中用于数据路径选择和可编程互连。
register file / 寄存器文件 一小组高速存储单元,为处理器核心提供操作数并接收结果。
CUDA core Nvidia GPU 中的基本计算单元,早期主要负责浮点/整数 ALU 操作,后配合张量核心使用。
Tensor Core / 张量核心 Nvidia Volta 代起引入的固定功能单元,硬件实现脉动阵列或类似结构,加速矩阵乘加。
systolic array / 脉动阵列 以二维网格排列的处理器单元,数据以脉动节奏在单元间传递;权重常驻本地以获得极高数据复用。
TPU (Tensor Processing Unit) Google 开发的 AI 加速器,内部包含大型脉动阵列和暂存器,针对 TensorFlow 优化。
MXU (Matrix Unit) TPU 中的矩阵乘法单元,即大尺寸脉动阵列。
clock cycle / 时钟周期 芯片全局同步信号的周期;所有寄存器在该周期边沿捕获数据,决定芯片基本操作节奏。
pipeline register / 流水线寄存器 为拆分长逻辑路径以提升时钟频率而插入的寄存器,增加流水级数。
feedback loop / 反馈环路 组合逻辑的输出又馈入输入的电路(如累加器),限制了可插入寄存器的位置。
FPGA (Field-Programmable Gate Array) 可在现场反复编程的芯片,通过 LUT 和可配置互连模拟任意数字电路。
ASIC (Application-Specific Integrated Circuit) 为特定应用定制的不可重构芯片,面积/功耗/性能最优,但需高昂流片费。
LUT (Look-Up Table) / 查找表 FPGA 中的基本逻辑单元,通过预存真值表实现任意 n 输入布尔函数;通常为 4 输入。
one-hot encoding / 独热编码 选择控制的一种编码方式,任何时候只有一位为1,其他全0;在 mux 中选择特定通道。
cache / 缓存 透明保存近期/频繁使用数据的硬件结构,旨在减少平均访存延迟,但引入不确定性。
scratchpad / 暂存器 由软件显式管理的片上高速存储,无自动缓存机制,提供确定性延迟。
DDR / HBM 分别为双倍数据速率内存和高带宽内存,用作芯片的外部大容量内存。
branch predictor / 分支预测器 推测条件分支方向及目标的硬件模块,让 CPU 流水线免于等待分支结果,是 CPU 高性能的关键。
warp scheduler / 线程束调度器 GPU 中负责将多个线程束(warps)调度到执行单元上的硬件,通过即时切换隐藏延迟。
SM (Streaming Multiprocessor) Nvidia GPU 中的可编程多处理器,包含多个 CUDA 核心、张量核心、共享内存等。
von Neumann architecture / 冯·诺依曼架构 计算与存储分离、指令顺序执行的经典计算机模型;现代 CPU 仍然遵循,但加入了大量并行优化。
splittable systolic array / 可分割脉动阵列 一种新型阵列设计,可根据负载动态拆分成多个独立小阵列或组合成一个大阵列。

延伸思考

原文发表:May 22, 2026  ·  纪要生成:2026-05-24