▶ 原文链接

状态空间模型与变换器的权衡

来源: YouTube (Stanford CS25) | 嘉宾: Albert Gu (顾世翔) | 日期: Apr 27, 2026 播客: Stanford Online 分类: 其他 原文发表: Apr 27, 2026 纪要生成: 2026-06-22


全集重点


嘉宾/话题简介

Albert Gu 是卡内基梅隆大学机器学习系的助理教授,也是 Cartesian AI 的首席科学家。他的研究专注于深度学习理论和经验基础,尤其以提出状态空间模型等深度序列建模新方法而闻名,曾入选2024年 TIME AI 100 最具影响力研究者榜单。他在斯坦福大学完成了博士学位。 本集主题围绕状态空间模型变换器这两种核心序列模型架构的本质权衡展开。Gu 教授深入探讨了这两类模型在自回归生成中的根本性差异,指出其性能差异并非仅源于计算效率,而是由其自回归状态(隐式记忆)的定义方式所决定的归纳偏置,并介绍了他们最新的H-Net(层次化网络)模型,该模型实现了端到端的、无需独立分词器的语言建模。


分节详述

00:00 开场介绍与演讲说明

本节重点

详细精要

01:04 替代架构的兴起与SSM模型族谱

本节重点

详细精要

05:17 核心差异:从自回归推理视角看模型

本节重点

详细精要

💬 精华片段(中文)

“本质上看,Transformer 只是一个存储了这种缓存的模型。而正是因为它存储了这种缓存,这才真正定义了它的计算特性。” "Basically, transformer is just a model that stores this cache. And because it stores this cache, this really defines its computational characteristics."

08:59 SSM的精确定义与三大关键要素

本节重点

详细精要

💬 精华片段(中文)

“所有这三个要素此前都已存在,但Mamba可以被视为第一个真正将三者结合起来的模型。而这对于它变得真正有效至关重要。” "All these ingredients were used before, but Mamba can be viewed as the first model that actually combined all three of these. And that was critical for it to be actually really effective."

14:46 SSM的现状与更高层次的权衡视角

本节重点

详细精要

17:00 状态差异与“数据库”vs“大脑”的类比

本节重点

详细精要

💬 精华片段(中文)

“我认为 Transformer 像一个数据库... 另一方面,状态空间模型更像一个大脑,它是一种固定大小的方法,将所有信息压缩进这个固定大小的状态中。” "I think of transformers like a database... On the other hand, SSMs are more like a brain in that it is a fixed-size method. And again, it kind of compresses all the information it's seen into this fixed-size state."

19:35 类比的延伸:混合模型与压缩的角色

本节重点

详细精要

💬 精华片段(中文)

“这个想法是,尽管这些线性模型有时被认为有关键缺陷,因为有限状态意味着你无法记住一切,看似压缩是一种弱点,但实际上并不那么明确。因为即使我们不看速度只看性能,你确实想用大量的线性层。” "So a thought is that, while these linear models are sometimes viewed as having a critical drawback because the finite state means you can't remember everything, it seems like this compression is a weakness, it's actually not so clear. Because even if we're just looking at performance without looking at speed, you actually do want a lot of linear layers here."

22:31 Transformers的另一面:对数据抽象层次的依赖性

本节重点

详细精要

💬 精华片段(中文)

“我认为 Transformer 如此有效,是因为数据已经被正确地编码了。当你的数据没有被编码,或者很难被编码时,你通常需要不同类型的模型。” "I claim that transformers work really, really well. But they're particularly effective when the data has already been encoded properly. And you often need different types of models when your data is not encoded or it's very difficult to encode."

26:40 实验证据:SSM在无分词数据上的显著优势

本节重点

详细精要

💬 精华片段(中文)

“这不仅仅是注意力更慢的问题…… 它只是单纯让注意力去做它的二次方计算,使用了更多的算力,但它仍然要差一些。” "And it's not just because of that attention is slower... it's simply letting the attention do its quadratic thing and using much more compute. But it's still a bit worse."

32:56 数据模态的适用域与SSM的应用图谱

本节重点

详细精要

33:46 H-Net:实现无分词的端到端层次化建模

本节重点

详细精要

💬 精华片段(中文)

“H-Net的做法是,它没有将这个作为独立的离线步骤再将它们传入模型,而是只看到原始字符...寻找边界的过程完全在模型内部发生。” "What the H-Net does is that instead of doing this as a separate offline step and then passing these into the model, the H-Net only sees the original characters... But this is all happening inside the model."

37:08 H-Net的架构深度解析与SSM的关键作用

本节重点

详细精要

40:16 H-Net的实验结果与扩展律

本节重点

详细精要

💬 精华片段(中文)

“主题是,无论你在什么环境下,如果你在BPE令牌上训练模型,效果还不错。但如果你能设法扔掉BPE并端到端地学习这些块,那么你的模型会做得更好。” "The theme is that no matter what setting you're in, if you train a model operating on BPE tokens, it works pretty good. But if you can manage to throw away the BPE and learn these chunks end to end, then your model will do even better."

44:00 重思压缩:SSM的归纳偏置超越数据分辨率

本节重点

详细精要

47:24 DNA扩展律与总结:架构设计的未来

本节重点

详细精要

💬 精华片段(中文)

“两者各自的优缺点实际上是同一枚硬币的两面…… 而我认为,对这两种模型而言,效率的争论在某种程度上都是一种干扰。” "And both of these pros and cons are two sides of the same coin... So I think that the efficiency arguments for both of these models are, again, a little bit of a distraction."


54:35 现场问答环节

本节重点

详细精要


01:04:00 在线问答环节

本节重点

详细精要


专业术语注释

术语 解释
状态空间模型 (State-Space Models, SSMs) 一类用于序列建模的架构总称,其核心是通过一个固定大小的隐状态来压缩历史信息。在本次演讲中,它特指Mamba及其衍生的一系列线性复杂度模型。
变换器 (Transformers) 当前主流的深度学习架构,其核心为自注意力机制。在本次演讲的语境中,特指其“缓存每个历史令牌并进行逐对比较”的特性。
线性模型 (Linear Models) 指时间复杂度随序列长度呈线性增长的模型。在本次演讲中,它与SSM、现代循环模型、线性注意力等术语在很大程度上可互换,指代同一类模型家族。
自回归状态 (Autoregressive State) 在自回归生成过程中,模型在每一步推理之间存储于内存中的内容。对于Transformer,它是KV缓存;对于SSM,它是一个固定大小的隐状态。Gu认为,这个状态的定义方式决定了模型的根本权衡。
KV缓存 (KV Cache) 变换器在自回归推理时,为了不重复计算而缓存的所有历史令牌的键(Key)和值(Value)向量。它本质上是变换器的“数据库”。
选择性 (Selectivity) Mamba等高级SSM的一个核心机制,指模型的循环参数(如状态转移矩阵A)是输入数据的函数。这使得模型能根据输入数据动态决定如何更新状态,从而精确地选择记忆或遗忘信息。
关联扫描 (Associative Scan) 一种利用线性循环的特性来并行化其计算的算法,是原始Mamba模型实现高效训练的关键技术。
现代循环模型 (Modern Recurrent Models) 指新一代的循环神经网络,以区别于LSTM等传统RNN。其特点通常是具有更大状态、选择性机制和高效的并行训练算法,SSM是其中的主要代表。
混合模型 (Hybrid Models) 将线性层(如SSM)与二次方复杂度层(如注意力层)交错组合而成的模型架构。其直觉是将“大脑”(SSM)与“外部数据库”(注意力)相结合。
BPE (字节对编码) 一种常用的无监督分词算法,通过统计字节对的出现频率,迭代地将出现最频繁的字节对合并成一个新令牌,直到达到预设词表大小。它是当前语言模型标准流程的关键一步。
H-Net (层次化网络) 由Gu的团队提出的一种新型网络架构。它能够端到端地在原始字节流上进行动态分块,实现无独立、离线分词器的层次化语言建模。
分块 (Chunking) H-Net中的核心操作,指模型内部一个动态的过程,通过预测边界将一段连续的细粒度数据(如字符)合并成一个具有高层语义的粗粒度单元(块)。这个操作取代了传统的分词器。
归纳偏置 (Inductive Biases) 学习算法为了使模型能进行预测而所做的假设集合。例如,Transformer的归纳偏置倾向于记忆所有细节,而SSM的归纳偏置则天然倾向于压缩和构建抽象。
测试时训练 (Test-Time Training, TTT) 一种将模型推理过程也视为一个学习过程的范式。在此次演讲中被作为SSM相关的一种新范式提及,其核心是在测试时通过优化一个内部目标函数来更新模型的隐状态。

原文发表:Apr 27, 2026  ·  纪要生成:2026-06-22