来源: YouTube (Stanford CS25) | 嘉宾: Albert Gu (顾世翔) | 日期: Apr 27, 2026 播客: Stanford Online 分类: 其他 原文发表: Apr 27, 2026 纪要生成: 2026-06-22
Albert Gu 是卡内基梅隆大学机器学习系的助理教授,也是 Cartesian AI 的首席科学家。他的研究专注于深度学习理论和经验基础,尤其以提出状态空间模型等深度序列建模新方法而闻名,曾入选2024年 TIME AI 100 最具影响力研究者榜单。他在斯坦福大学完成了博士学位。 本集主题围绕状态空间模型与变换器这两种核心序列模型架构的本质权衡展开。Gu 教授深入探讨了这两类模型在自回归生成中的根本性差异,指出其性能差异并非仅源于计算效率,而是由其自回归状态(隐式记忆)的定义方式所决定的归纳偏置,并介绍了他们最新的H-Net(层次化网络)模型,该模型实现了端到端的、无需独立分词器的语言建模。
本节重点
详细精要
他在斯坦福大学完成了博士学位。
演讲内容说明:本次演讲标题为“状态空间模型与变换器的权衡”。
本节重点
详细精要
测试时训练(Test-Time Training, TTT):一种将循环视为在测试时通过优化目标函数进行更新的新范式。
SSM在大规模生产模型中的应用:这些模型已被广泛用于实际的大规模生产级模型,尤其是混合模型。
Nemotron 3(NVIDIA):最新的模型,规模达数千亿参数,使用 Mamba 2。
模型术语的统一:为了避免混淆,Gu 统一了这些模型的称呼。
本节重点
详细精要
选择该焦点的原因:1)它是目前最重要的建模范式;2)理解不同序列模型的权衡,思考自回归建模非常有帮助。
Transformer的推理机制:逐令牌比较与缓存:从高层视角看,Transformer在推理时执行以下操作。
这种机制定义了其计算特性:内存和计算量随上下文长度扩展。在推理过程中摊分下来,计算量随上下文长度呈二次方增长,因此Transformer被认为是二次方模型。
SSM的推理机制:状态压缩与恒定时间步:SSM的推理方式则完全不同。
💬 精华片段(中文)
“本质上看,Transformer 只是一个存储了这种缓存的模型。而正是因为它存储了这种缓存,这才真正定义了它的计算特性。” "Basically, transformer is just a model that stores this cache. And because it stores this cache, this really defines its computational characteristics."
本节重点
详细精要
其与GRU、LSTM等传统RNN的第一个关键区别是:此循环是线性的,在更新方程后不施加任何非线性。
关键要素一:扩大的状态大小:
重要性:在自回归设置中,状态是整个上下文的瓶颈——所有上下文都被压缩进状态。状态越大,模型能记住的信息越多,这对于语言建模等信息密集模态至关重要。
关键要素二:选择性(Selectivity):
示例:如果A是输入的函数,当不想记住某个输入时,可以通过输入将A设为1、B设为0;如果非常想记住,可以将A设为0以丢弃之前的上下文。
关键要素三:高效计算:
💬 精华片段(中文)
“所有这三个要素此前都已存在,但Mamba可以被视为第一个真正将三者结合起来的模型。而这对于它变得真正有效至关重要。” "All these ingredients were used before, but Mamba can be viewed as the first model that actually combined all three of these. And that was critical for it to be actually really effective."
本节重点
详细精要
它们都非常注重效率,一些模型调整了状态更新方式,另一些改变了计算方式。
当前最有效的模型推荐:
关键结论:所有这些SSM变体彼此间的相似性,远大于它们与注意力机制的相似性。因此,更应该关注SSM与注意力之间的更高层面的权衡。
通过“自回归状态”理解权衡:
本节重点
详细精要
此类比可以直觉地理解这两类模型的许多权衡。
基于类比的SSM优劣分析:
💬 精华片段(中文)
“我认为 Transformer 像一个数据库... 另一方面,状态空间模型更像一个大脑,它是一种固定大小的方法,将所有信息压缩进这个固定大小的状态中。” "I think of transformers like a database... On the other hand, SSMs are more like a brain in that it is a fixed-size method. And again, it kind of compresses all the information it's seen into this fixed-size state."
本节重点
详细精要
这为混合模型(Hybrid Models) 提供了高层次启发:从SSM诞生之初,它们就被用于混合模型。
混合模型的最优比例:
这个发现与“大脑是主处理单元,外部数据库是辅助”的直觉高度一致。在计算量相等的情况下,更多线性层带来了更好性能。
对“压缩”的再思考:
💬 精华片段(中文)
“这个想法是,尽管这些线性模型有时被认为有关键缺陷,因为有限状态意味着你无法记住一切,看似压缩是一种弱点,但实际上并不那么明确。因为即使我们不看速度只看性能,你确实想用大量的线性层。” "So a thought is that, while these linear models are sometimes viewed as having a critical drawback because the finite state means you can't remember everything, it seems like this compression is a weakness, it's actually not so clear. Because even if we're just looking at performance without looking at speed, you actually do want a lot of linear layers here."
本节重点
详细精要
在任何实际应用中,数据在被送入Transformer之前,都经历了相当重要的编码器/解码器层处理,将其转换成适合Transformer处理的形式。
数据抽象的例子:
语言(Tokenizer):在语言中,这个编码器就是分词器(Tokenizer)。原始字符串经过分词步骤,被分割成更大的语义块(令牌)。Gu 认为这个步骤对Transformer的有效性至关重要,不仅仅是出于效率原因,更是为了帮助Transformer捕捉正确的特征和变换。
分词的问题与“无分词”的动机:分词器因其诸多问题而臭名昭著。
💬 精华片段(中文)
“我认为 Transformer 如此有效,是因为数据已经被正确地编码了。当你的数据没有被编码,或者很难被编码时,你通常需要不同类型的模型。” "I claim that transformers work really, really well. But they're particularly effective when the data has already been encoded properly. And you often need different types of models when your data is not encoded or it's very difficult to encode."
本节重点
详细精要
这表明性能差异并非仅因速度,而是存在根本性的区别。在相同条件下,Transformer即使消耗更多算力,表现依然更差。
DNA建模实验:这种现象在其他无分词的序列数据中同样存在。
在原Mamba论文中,研究者对DNA序列进行自回归建模。对比发现,Mamba与Transformer的橘色线和红色线之间存在巨大差距。在匹配算力或参数时,Mamba模型的效率约高出3倍。
为何Transformer在此失败?:Gu用几个启发式方法解释这一现象。
💬 精华片段(中文)
“这不仅仅是注意力更慢的问题…… 它只是单纯让注意力去做它的二次方计算,使用了更多的算力,但它仍然要差一些。” "And it's not just because of that attention is slower... it's simply letting the attention do its quadratic thing and using much more compute. But it's still a bit worse."
本节重点
详细精要
视觉图块(Vision Patches):情况不那么清晰。某些图块可能包含大量信息,而有些(如一片天空)可能毫无用处。因此,在此领域注意力与SSM的权衡不那么分明。
SSM应用领域的扩展:这个论点解释了为何在远离纯分词语言的领域,替代模型越来越受欢迎。
本节重点
详细精要
核心思想是模型在内部隐式地尝试对数据进行分词(通过分块)。
H-Net如何替代BPE分词:
💬 精华片段(中文)
“H-Net的做法是,它没有将这个作为独立的离线步骤再将它们传入模型,而是只看到原始字符...寻找边界的过程完全在模型内部发生。” "What the H-Net does is that instead of doing this as a separate offline step and then passing these into the model, the H-Net only sees the original characters... But this is all happening inside the model."
本节重点
详细精要
总体上看,这与“分词器+Transformer”的现有流程相似,但分词步骤发生在模型内部。
SSM在H-Net中的关键作用:
这呼应了之前的实验:在处理字符级数据时,SSM远优于Transformer。因此在H-Net中,任何触碰字节级数据的部分,使用SSM都会带来巨大收益。
层次化与嵌套:
本节重点
详细精要
两阶段分块的H-Net:将模型嵌套构成两阶段分块后,模型展现出更优的扩展趋势(尽管因参数更多,训练也更难)。
与BPE的直接对比:
核心主题是:无论什么场景下,在BPE令牌上训练模型效果不错,但如果能抛弃BPE并端到端地学习分块,模型将做得更好。
DNA建模上的扩展律:
💬 精华片段(中文)
“主题是,无论你在什么环境下,如果你在BPE令牌上训练模型,效果还不错。但如果你能设法扔掉BPE并端到端地学习这些块,那么你的模型会做得更好。” "The theme is that no matter what setting you're in, if you train a model operating on BPE tokens, it works pretty good. But if you can manage to throw away the BPE and learn these chunks end to end, then your model will do even better."
本节重点
详细精要
最重要的发现:整个实验都操作在BPE令牌上(即使是外层)。若根据前文理论(Transformer擅长处理已压缩的数据),那在外层使用Transformer应该是完全没问题的。但实验表明,即使算力匹配,在外层使用Mamba(SSM)仍然显著更好。
解释:压缩作为归纳偏置:
数据显示,即使在BPE令牌上,应用线性/压缩模型也是非常关键的。
对压缩本质的深层思考:
本节重点
详细精要
Transformer:
架构设计的最终思考框架:
💬 精华片段(中文)
“两者各自的优缺点实际上是同一枚硬币的两面…… 而我认为,对这两种模型而言,效率的争论在某种程度上都是一种干扰。” "And both of these pros and cons are two sides of the same coin... So I think that the efficiency arguments for both of these models are, again, a little bit of a distraction."
本节重点
详细精要
他认为可能存在其他从根本上更好的模型,通过彻底重新构想目前的约束条件来实现。例如,为了在GPU等现有硬件上获得高效率,人们牺牲了大量可以通过真正的循环获得的表现力。如果能够高效地计算真正的循环,可能会获得根本更好的模型。
问答2:关于H-Net分块机制的未来
从哲学上讲,他觉得从零开始学习这些分块非常重要,开发更好的分块机制对未来模型可能至关重要。
问答3:关于动态分块的技术实现与记忆策划
本节重点
详细精要
这是Gu之前不知道的一点,关于小模型设置下的结论还需探索。
应答2:SSM的可解释性分析
| 术语 | 解释 |
|---|---|
| 状态空间模型 (State-Space Models, SSMs) | 一类用于序列建模的架构总称,其核心是通过一个固定大小的隐状态来压缩历史信息。在本次演讲中,它特指Mamba及其衍生的一系列线性复杂度模型。 |
| 变换器 (Transformers) | 当前主流的深度学习架构,其核心为自注意力机制。在本次演讲的语境中,特指其“缓存每个历史令牌并进行逐对比较”的特性。 |
| 线性模型 (Linear Models) | 指时间复杂度随序列长度呈线性增长的模型。在本次演讲中,它与SSM、现代循环模型、线性注意力等术语在很大程度上可互换,指代同一类模型家族。 |
| 自回归状态 (Autoregressive State) | 在自回归生成过程中,模型在每一步推理之间存储于内存中的内容。对于Transformer,它是KV缓存;对于SSM,它是一个固定大小的隐状态。Gu认为,这个状态的定义方式决定了模型的根本权衡。 |
| KV缓存 (KV Cache) | 变换器在自回归推理时,为了不重复计算而缓存的所有历史令牌的键(Key)和值(Value)向量。它本质上是变换器的“数据库”。 |
| 选择性 (Selectivity) | Mamba等高级SSM的一个核心机制,指模型的循环参数(如状态转移矩阵A)是输入数据的函数。这使得模型能根据输入数据动态决定如何更新状态,从而精确地选择记忆或遗忘信息。 |
| 关联扫描 (Associative Scan) | 一种利用线性循环的特性来并行化其计算的算法,是原始Mamba模型实现高效训练的关键技术。 |
| 现代循环模型 (Modern Recurrent Models) | 指新一代的循环神经网络,以区别于LSTM等传统RNN。其特点通常是具有更大状态、选择性机制和高效的并行训练算法,SSM是其中的主要代表。 |
| 混合模型 (Hybrid Models) | 将线性层(如SSM)与二次方复杂度层(如注意力层)交错组合而成的模型架构。其直觉是将“大脑”(SSM)与“外部数据库”(注意力)相结合。 |
| BPE (字节对编码) | 一种常用的无监督分词算法,通过统计字节对的出现频率,迭代地将出现最频繁的字节对合并成一个新令牌,直到达到预设词表大小。它是当前语言模型标准流程的关键一步。 |
| H-Net (层次化网络) | 由Gu的团队提出的一种新型网络架构。它能够端到端地在原始字节流上进行动态分块,实现无独立、离线分词器的层次化语言建模。 |
| 分块 (Chunking) | H-Net中的核心操作,指模型内部一个动态的过程,通过预测边界将一段连续的细粒度数据(如字符)合并成一个具有高层语义的粗粒度单元(块)。这个操作取代了传统的分词器。 |
| 归纳偏置 (Inductive Biases) | 学习算法为了使模型能进行预测而所做的假设集合。例如,Transformer的归纳偏置倾向于记忆所有细节,而SSM的归纳偏置则天然倾向于压缩和构建抽象。 |
| 测试时训练 (Test-Time Training, TTT) | 一种将模型推理过程也视为一个学习过程的范式。在此次演讲中被作为SSM相关的一种新范式提及,其核心是在测试时通过优化一个内部目标函数来更新模型的隐状态。 |