状态空间模型与变换器的权衡

来源： YouTube (Stanford CS25) | 嘉宾： Albert Gu (顾世翔) | 日期： Apr 27, 2026 播客： Stanford Online 分类： 其他 原文发表： Apr 27, 2026 纪要生成： 2026-06-22

全集重点

[核心权衡源于自回归状态]：SSM与Transformer的根本差异不在于效率，而在于它们如何定义和利用自回归状态——SSM类似“大脑”进行压缩，Transformer类似“数据库”进行缓存。
[SSM的压缩是特性而非缺陷]：SSM的有限状态带来了在线处理和构建抽象层次的能力，这对于处理未经抽象（如字节级）的数据至关重要，其作用类似于内置的动态分词器。
[Transformers的性能高度依赖数据抽象层次]：Transformer在处理已被良好分词的语义级数据（如词语）时表现卓越，但在处理细粒度数据（如字符、DNA碱基对）时，其缓存每个令牌的机制会失效且低效。
[H-Net展示了分层压缩的潜力]：通过端到端的分层分块网络，模型能够从原始字节数据中自主学习动态分词，甚至超越人工设计的BPE分词器，并且在DNA建模等数据上展现出更好的扩展律。
[混合模型架构成未来趋势]：大量大规模生产模型（如Jamba、Samba、Qwen、NVIDIA Nemotron）已采用SSM层与注意力层混合的架构，且最优比例偏向于更多的SSM层（如10:1），佐证了压缩作为核心计算原语的重要性。

嘉宾/话题简介

Albert Gu 是卡内基梅隆大学机器学习系的助理教授，也是 Cartesian AI 的首席科学家。他的研究专注于深度学习理论和经验基础，尤其以提出状态空间模型等深度序列建模新方法而闻名，曾入选2024年 TIME AI 100 最具影响力研究者榜单。他在斯坦福大学完成了博士学位。本集主题围绕状态空间模型与变换器这两种核心序列模型架构的本质权衡展开。Gu 教授深入探讨了这两类模型在自回归生成中的根本性差异，指出其性能差异并非仅源于计算效率，而是由其自回归状态（隐式记忆）的定义方式所决定的归纳偏置，并介绍了他们最新的H-Net（层次化网络）模型，该模型实现了端到端的、无需独立分词器的语言建模。

分节详述

00:00 开场介绍与演讲说明

本节重点

介绍演讲者 Albert Gu 的背景与成就。
说明本次演讲内容基于过去一年的一个公开演讲和博客文章，内容大致相同但包含少量新增内容。
点明演讲主题：状态空间模型（SSM）与变换器（Transformer）的权衡。

详细精要

开场介绍：主持人对 Albert Gu 进行介绍。
他是卡内基梅隆大学（CMU）机器学习系的助理教授。
他是 Cartesian AI 的首席科学家。
他的研究领域专注于深度学习的理论和经验基础，尤其在深度序列建模和神经网络架构方面。
他在2024年被 《时代》杂志AI 100 榜单列为最具影响力的研究者之一。
他在斯坦福大学完成了博士学位。
演讲内容说明：本次演讲标题为“状态空间模型与变换器的权衡”。
Gu 在过去一年中做过不同版本的此演讲，并已将其写成了博客文章。
本次演讲内容不会有太大变化，仅有少量新增内容，建议听众可参考其博客文章作为补充。

01:04 替代架构的兴起与SSM模型族谱

本节重点

介绍近年来涌现的次二次方/线性复杂度模型，作为变换器的替代方案。
列举代表性模型：Mamba系列、xLSTM、DeltaNet/Gated DeltaNet、TTT。
展示这些模型已广泛应用于大规模生产级混合模型中。
统一术语：将这些模型统称为状态空间模型，其他可互换名称包括线性注意力、现代循环模型等。

详细精要

线性复杂度模型的流行：在过去两三年中，次二次方或线性复杂度的替代架构大量涌现。
Mamba：最初的Mamba模型于两年前发布，很大程度推动了后续一系列工作的普及。
Mamba 2 和 Mamba 3：Mamba系列有持续的进展，Mamba 3在一个月前发布。
xLSTM：对原始LSTM的改进，LSTM可视为在Transformer之前最流行的经典循环模型。
DeltaNet 和 门控DeltaNet（Gated DeltaNet）：后者结合了DeltaNet与Mamba 2，是目前非常流行且广泛使用的模型。
测试时训练（Test-Time Training, TTT）：一种将循环视为在测试时通过优化目标函数进行更新的新范式。
SSM在大规模生产模型中的应用：这些模型已被广泛用于实际的大规模生产级模型，尤其是混合模型。
Jamba（AI21）、Zamba（Zyphra）、Samba（Microsoft）在Mamba出现后，开始将线性层与注意力层结合。
混元（Hunyuan）（腾讯）：参数规模达数千亿。
Qwen模型的最新版本基于门控DeltaNet。
Kimi-Linear：基于DeltaNet后续工作的混合模型。
Olmo（AI2）：近期发布的混合模型，使用门控DeltaNet结合注意力。
Nemotron 3（NVIDIA）：最新的模型，规模达数千亿参数，使用 Mamba 2。
模型术语的统一：为了避免混淆，Gu 统一了这些模型的称呼。
状态空间模型（State-Space Models, SSMs）：Mamba所归属的类别。
其他可互换的名称包括：线性注意力（Linear Attention）、（现代）循环模型（Recurrent Models）、线性RNN（Linear RNNs）、或广义的线性模型（Linear Models）。
混合模型（Hybrid Models）：指将上述任一线性模型与二次方的注意力机制结合的模型。

05:17 核心差异：从自回归推理视角看模型

本节重点

定义本次讨论的核心范式：自回归建模。
从推理/采样的高层视角阐明Transformer和SSM的本质区别。
Transformer：缓存所有历史令牌（KV Cache）进行逐对比较，计算复杂度随上下文二次方增长。
SSM：将所有历史信息压缩进一个固定大小的状态，计算复杂度随序列长度线性增长。

详细精要

聚焦自回归建模：本次讨论将聚焦于自回归建模范式。
该范式如语言模型所示，通过预测序列的下一个令牌概率，并能通过反复采样和反馈实现生成式模型。
选择该焦点的原因：1）它是目前最重要的建模范式；2）理解不同序列模型的权衡，思考自回归建模非常有帮助。
Transformer的推理机制：逐令牌比较与缓存：从高层视角看，Transformer在推理时执行以下操作。
给定一个提示（一组令牌），模型通过将当前令牌与历史上见过的每一个令牌进行逐对比较来预测下一个词。
其核心特征是能够回顾上下文中的所有过往令牌。
这要求模型必须缓存每一个令牌，这个缓存被称为 KV缓存（KV Cache）。Transformer的大量工作都围绕着如何处理KV缓存，如压缩等。
这种机制定义了其计算特性：内存和计算量随上下文长度扩展。在推理过程中摊分下来，计算量随上下文长度呈二次方增长，因此Transformer被认为是二次方模型。
SSM的推理机制：状态压缩与恒定时间步：SSM的推理方式则完全不同。
当令牌流输入时，模型不会显式存储所有令牌，而是将所有信息“挤压”进一个表示为蓝色球体的固定状态中。
个体令牌在信息被整合后即被“丢弃”，模型仅通过这个状态与数据交互。
这个过程在每一步推理中在线重复，且每次更新状态花费恒定时间。
在完整序列上求和，总时间为线性，因此SSM被称为线性模型。
这种高度压缩的状态是区分这两类模型家族的根本方式。

💬 精华片段（中文）

“本质上看，Transformer 只是一个存储了这种缓存的模型。而正是因为它存储了这种缓存，这才真正定义了它的计算特性。” "Basically, transformer is just a model that stores this cache. And because it stores this cache, this really defines its computational characteristics."

08:59 SSM的精确定义与三大关键要素

本节重点

给出SSM作为特殊循环的数学定义：一个从输入x到输出y的线性序列映射。
解析SSM区别于传统RNN（如LSTM）的三大关键要素，这些是使其有效的核心。
要素一：状态大小（State Size） 显著扩大，如输入输出的64-128倍，以增强记忆容量。
要素二：选择性（Selectivity），即循环的参数（A， B）是输入的函数，允许模型动态控制信息记忆或遗忘。
要素三：高效计算算法，如关联扫描和分块矩阵乘法，以克服大状态和表达力带来的训练计算难题。

详细精要

SSM的数学定义与线性特性：SSM由特定方程定义，被视为一种特殊的循环。
它是一个从输入 x 到输出 y 的序列映射。
每一步中，一维标量输入 x 被向量 B 放大，然后加到一个变换后的隐藏状态上，类似于普通循环。
其与GRU、LSTM等传统RNN的第一个关键区别是：此循环是线性的，在更新方程后不施加任何非线性。
关键要素一：扩大的状态大小：
对于一维输入 x，隐藏状态 h 的维度变为 N维，其中 N 通常在64或128左右。
这意味着状态比输入大100倍，这与LSTM的定义方式截然不同。
重要性：在自回归设置中，状态是整个上下文的瓶颈——所有上下文都被压缩进状态。状态越大，模型能记住的信息越多，这对于语言建模等信息密集模态至关重要。
关键要素二：选择性（Selectivity）：
不仅状态要大，还必须足够有表现力来精确记住模型想记住的内容。任何RNN都可被视为一个黑盒函数，将之前的隐藏状态与新输入结合。
在Mamba等后期SSM中，循环的参数（如 A, B）被定义为输入本身的函数。
这种机制称为“选择性”，因为它允许模型根据输入内容动态控制循环的行为，从而更精确地选择需要记住或遗忘的信息。
示例：如果A是输入的函数，当不想记住某个输入时，可以通过输入将A设为1、B设为0；如果非常想记住，可以将A设为0以丢弃之前的上下文。
关键要素三：高效计算：
前两个要素（大状态、选择性）使得模型表现力和容量极大提升，但也使其难以计算。与传统RNN不同，直接通过循环计算这种方式几乎是不可能的。
因此，大量工作致力于寻找巧妙的计算重写方法，以加速训练过程。其核心思想是利用循环的线性特性进行并行化。
关联扫描（Associative Scan）：原始Mamba模型使用的算法，通过特定算法并行化计算。
分块矩阵乘法（Chunked Matrix Multiplication）：Mamba 2及其它许多变体（如门控DeltaNet）完全重写计算的方式。

💬 精华片段（中文）

“所有这三个要素此前都已存在，但Mamba可以被视为第一个真正将三者结合起来的模型。而这对于它变得真正有效至关重要。” "All these ingredients were used before, but Mamba can be viewed as the first model that actually combined all three of these. And that was critical for it to be actually really effective."

14:46 SSM的现状与更高层次的权衡视角

本节重点

指出如今高效的SSM变体在核心思想上非常相似，都包含了上述三大要素。
推荐当前最有效且经过大规模验证的变体：Mamba 2和门控DeltaNet。
提出本次演讲的核心论点：与其纠结于SSM变体间的细节差异，不如探讨它们作为一个整体与注意力机制之间的更高层次的权衡。
提出分析框架：序列模型的权衡可以通过考察它们的自回归状态来理解。

详细精要

SSM变体的趋同：尽管有许多变体（如DeltaNet论文中的表格所示），但它们彼此之间非常相似。
所有变体都包含了状态扩展、选择性和高效计算这三大要素，并在其具体定义上进行调整。
它们都非常注重效率，一些模型调整了状态更新方式，另一些改变了计算方式。
当前最有效的模型推荐：
Mamba 2 和 门控DeltaNet 是最久经考验的变体，也是在大规模混合模型中最常用的。
门控DeltaNet比Mamba 2功能稍强但稍慢，可根据具体需求选择。
新发布的Mamba 3在大规模测试上稍少，但预计也将很有竞争力。
关键结论：所有这些SSM变体彼此间的相似性，远大于它们与注意力机制的相似性。因此，更应该关注SSM与注意力之间的更高层面的权衡。
通过“自回归状态”理解权衡：
Gu 提出一个关键论点：序列模型的权衡可以通过考察它们的“自回归状态”来理解。
定义：在生成过程的每一步之间，模型存储在内存中的内容，就是它的自回归状态。
对于SSM，其状态是固定大小的矩阵值状态。
对于Transformer，其状态是它的 KV缓存。
这两种状态的定义方式，实质上决定了它们各自的权衡与归纳偏置。

17:00 状态差异与“数据库”vs“大脑”的类比

本节重点

建立核心类比：将Transformer比作数据库，将SSM比作大脑。
数据库式状态（Transformers）：显式存储每个元素的表征，可精确回溯，但体积随数据增长。
大脑式状态（SSMs）：将信息压缩进固定大小的状态，处理效率恒定，但在精确检索上存在短板。
基于这一类比，SSM的优劣分析。

详细精要

“数据库”与“大脑”的类比：
Transformer ≈ 数据库：其状态（KV缓存）的作用是存储见过的每一个令牌或序列元素的表征。它像写数据库一样不断扩展，并可以非常精确地关注（attention）或回溯到数据库中的任何元素。
SSM ≈ 大脑：它是一种固定大小的方法，将所有见到的信息压缩进这个固定大小的状态。这使其具有与数据库完全不同的特性。
此类比可以直觉地理解这两类模型的许多权衡。
基于类比的SSM优劣分析：
弱点：不擅长检索。这与大脑的工作方式一致，人类非常不擅长记忆精确的数字串。因此，SSM在精确信息提取任务上表现不佳，例如一些合成任务（如 Haystack、关联回忆等需要精确定位上下文信息比特的任务）。
优势一：状态性带来高效在线处理。状态性非常强大，因为它使模型在在线设置中非常高效。就像大脑一样，始终在线，能以恒定速率消费信息并与世界实时交互。
优势二：压缩性带来微妙好处。压缩性的好处除了效率外，还有更深层的好处，将在后续演讲中展开。
小结：SSM是经典的有状态且具压缩性的模型。

💬 精华片段（中文）

“我认为 Transformer 像一个数据库... 另一方面，状态空间模型更像一个大脑，它是一种固定大小的方法，将所有信息压缩进这个固定大小的状态中。” "I think of transformers like a database... On the other hand, SSMs are more like a brain in that it is a fixed-size method. And again, it kind of compresses all the information it's seen into this fixed-size state."

19:35 类比的延伸：混合模型与压缩的角色

本节重点

利用“大脑+外部工具”的类比来引出混合模型的合理性。
指出业界多个团队独立验证了混合模型中SSM层与注意力层存在一个一致的最优比例。
发现这个比例是SSM层远多于注意力层（如10:1），这与“大脑是主处理单元，外部工具是辅助”的直觉相符。
提出一个深刻的思考：压缩可能并非弱点，而是智能中至关重要的部分。

详细精要

混合模型的灵感：如果将人类智能看作是处理单元（大脑） 与外部辅助工具（草稿纸、数据库） 的结合，那么这个类比也预示了混合模型的行为。
人类使用大量外部工具来增强处理能力和智能。
这为混合模型（Hybrid Models） 提供了高层次启发：从SSM诞生之初，它们就被用于混合模型。
混合模型的最优比例：
最简单的混合模型定义是：将线性层（SSM）与二次方注意力层（Transformer）交错排列。
许多早期论文独立验证了一个惊人的一致性：SSM层与注意力层的最优比例约为10:1（至少从困惑度角度看）。
即使现在这一比例随着模型改进而有所变化，但人们通常仍使用至少3:1或4:1的比例，即线性层远多于二次方层。
这个发现与“大脑是主处理单元，外部数据库是辅助”的直觉高度一致。在计算量相等的情况下，更多线性层带来了更好性能。
对“压缩”的再思考：
Gu 提出一个观点：线性模型有时被视为有关键缺陷，因为其有限状态无法记住一切，压缩似乎是弱点。但事实并非如此。
即使在不考虑速度，只看性能的情况下，人们也想使用大量的线性层。这暗示了压缩对于智能可能是根本性重要的，而不仅仅是为了效率。
后续将通过H-Net实验进一步论证压缩的重要性。

💬 精华片段（中文）

“这个想法是，尽管这些线性模型有时被认为有关键缺陷，因为有限状态意味着你无法记住一切，看似压缩是一种弱点，但实际上并不那么明确。因为即使我们不看速度只看性能，你确实想用大量的线性层。” "So a thought is that, while these linear models are sometimes viewed as having a critical drawback because the finite state means you can't remember everything, it seems like this compression is a weakness, it's actually not so clear. Because even if we're just looking at performance without looking at speed, you actually do want a lot of linear layers here."

22:31 Transformers的另一面：对数据抽象层次的依赖性

本节重点

重申Transformer虽然是主流且强大，但存在一个关键特性和局限性。
核心观点：注意力机制在数据处于恰当的抽象层次时才最有效。
通过视觉和语言领域的例子论证，一个关键的编码/分词预处理步骤对Transformer的成功至关重要。
引出问题：如果取消或改变这种预处理（如字符级/字节级建模），会发生什么？

详细精要

Transformer的普遍性与隐藏前提：Transformer仍然是语言等许多任务的首选模型，其“万物皆可入、皆可训”的理念深入人心。但Gu提出一个细微之处：
注意力在数据是恰当的抽象层次时最有效。
在任何实际应用中，数据在被送入Transformer之前，都经历了相当重要的编码器/解码器层处理，将其转换成适合Transformer处理的形式。
数据抽象的例子：
视觉（ViT）：在视觉Transformer中，图像被分割成图块（patches），这些图块本质上是视觉令牌，经过简单编码后才送入Transformer。这一步使数据变得更粗粒度，对Transformer的有效工作至关重要。
语言（Tokenizer）：在语言中，这个编码器就是分词器（Tokenizer）。原始字符串经过分词步骤，被分割成更大的语义块（令牌）。Gu 认为这个步骤对Transformer的有效性至关重要，不仅仅是出于效率原因，更是为了帮助Transformer捕捉正确的特征和变换。
分词的问题与“无分词”的动机：分词器因其诸多问题而臭名昭著。
以Andrej Karpathy的推特为例，列举了分词的许多边缘情况，如导致拼写问题、对输入末尾的空格敏感等。
尽管这些边缘情况可以通过工程手段（如优质数据、技巧）解决，但Gu认为，如果能够彻底摆脱分词，就能从根本上解决这些问题。
从哲学层面看，AI的本质是从原始数据中自动学习，更端到端的模型往往更好，这符合苦涩的教训——减少特征工程、更通用的模型，将受益于规模，并学到更好的数据特征。

💬 精华片段（中文）

“我认为 Transformer 如此有效，是因为数据已经被正确地编码了。当你的数据没有被编码，或者很难被编码时，你通常需要不同类型的模型。” "I claim that transformers work really, really well. But they're particularly effective when the data has already been encoded properly. And you often need different types of models when your data is not encoded or it's very difficult to encode."

26:40 实验证据：SSM在无分词数据上的显著优势

本节重点

展示字节/字符级语言建模实验，对比不使用分词器时SSM和Transformer的性能。
实验结果显示，在字节级语言建模和DNA建模中，SSM（Mamba）明显优于Transformer。
即使在计算量上占优的全局注意力Transformer，其性能仍不及Mamba。
提出理论解释：注意力擅长于处理语义上有意义的令牌，而每个字符或DNA碱基对并无独立意义，因此缓存每个这样的令牌不具合理性。

详细精要

字节级语言建模实验：如果不在数据上使用BPE分词器，直接将原始字节/字符传递给模型会怎样？
该实验首先由MambaByte论文进行，对比了Mamba和Transformer在字节级建模上的性能。
实验显示，在相同模型大小和序列长度下，SSM（Mamba）比Transformer好得多。图中滑动窗口注意力为紫线，Mamba为蓝线，两者差距巨大。从数据效率看，差距约为2倍。
即使允许Transformer使用全局注意力（图中虚线），虽然其计算量是Mamba模型的2倍，性能仍然不如Mamba。
这表明性能差异并非仅因速度，而是存在根本性的区别。在相同条件下，Transformer即使消耗更多算力，表现依然更差。
DNA建模实验：这种现象在其他无分词的序列数据中同样存在。
在原Mamba论文中，研究者对DNA序列进行自回归建模。对比发现，Mamba与Transformer的橘色线和红色线之间存在巨大差距。在匹配算力或参数时，Mamba模型的效率约高出3倍。
为何Transformer在此失败？：Gu用几个启发式方法解释这一现象。
状态定义：Transformer的KV缓存存储每个令牌的表征。但当数据是噪声的或某些令牌是伪迹时，缓存每个令牌就没有意义。
软注意力与硬注意力：软注意力是对每个令牌的加权组合，硬注意力是一次只关注一个令牌。注意力在处理硬注意力有意义的数据时表现卓越。
字符/碱基无独立意义：读者永远不会只关注单个字符，注意力应该在词甚至更高的语义层级运作。因此，在字符级应用注意力效率极低。这与之前观察到的现象相符。

💬 精华片段（中文）

“这不仅仅是注意力更慢的问题…… 它只是单纯让注意力去做它的二次方计算，使用了更多的算力，但它仍然要差一些。” "And it's not just because of that attention is slower... it's simply letting the attention do its quadratic thing and using much more compute. But it's still a bit worse."

32:56 数据模态的适用域与SSM的应用图谱

本节重点

将之前的发现推广到不同数据域，总结注意力和SSM各自擅长的模态。
注意力在词语/子词等语义明确、模块化的领域表现出色。
在字符/DNA等无清晰语义单元的领域，SSM表现更佳。
在视觉等中间区域，权衡则不那么明确。
展示Mamba论文发布后的应用领域统计图，证实其在非纯文本语言的诸多领域（如时间序列、音频、视觉）得到更广泛应用。

详细精要

不同数据域的适用性分析：
词语/子词（Words/Subwords）：Transformer在此领域表现出色。因为这些令牌本质上是语义上有意义的、模块化且可组合的。想要关注单个词或存储其表征是完全合理的。
字符/碱基（Characters/DNA bases）：每个个体元素本身没有意义。因此，注意力在这类数据上表现远弱于其他模型。
视觉图块（Vision Patches）：情况不那么清晰。某些图块可能包含大量信息，而有些（如一片天空）可能毫无用处。因此，在此领域注意力与SSM的权衡不那么分明。
SSM应用领域的扩展：这个论点解释了为何在远离纯分词语言的领域，替代模型越来越受欢迎。
当没有定义良好的分词器时，Transformer的能力会下降。
此时，执行隐式压缩的模型（此压缩作用在某种程度上与分词类似）会变得更好。
Mamba论文发布后不久的应用统计图显示，尽管其最初以语言模型为定位，但语言应用仅占约10%。
相反，它被更广泛地视为一个通用的序列模型，应用于时间序列、音频，尤其是视觉等各式各样的模态。

33:46 H-Net：实现无分词的端到端层次化建模

本节重点

介绍最新的实现无分词语言建模的模型H-Net（层次化网络）。
H-Net的核心思想：一个在原始数据上操作，并通过数据依赖的分块过程对数据进行压缩的端到端层次化网络。
该方法用内部学习的分块机制替代了显式的离线分词步骤（如BPE）。
演示模型在训练过程中自主学习如何放置“边界”，最终与人类预期的分词（如空格处）高度对齐，甚至能发现语义上有意义的子词。

详细精要

H-Net简介：近期Gu的团队发表了H-Net论文，这是在无分词语言建模方向上的最新尝试。
H-Net 代表 Hierarchical Network（层次化网络）。
它被描述为一个在原始数据上操作的端到端层次化网络，通过一个数据依赖的分块过程对数据进行压缩。
核心思想是模型在内部隐式地尝试对数据进行分词（通过分块）。
H-Net如何替代BPE分词：
目前所有语言模型都通过一个显式的BPE（字节对编码） 分词步骤，将字符等底层数据通过启发式合并规则组合成更大的块（即令牌）。
H-Net的做法是：不进行离线分词，模型只看到原始字符（例如，词表大小可能只有256字节）。寻找“边界”的过程完全在模型内部发生。
训练过程的可视化显示，初始时模型在随机探索边界（绿色标记），然后逐渐稳定，最终与好的分词器应有的边界高度对齐。
在英语上，这通常意味着边界在空格处。但仔细观察可以发现，模型在学习寻找语义上有意义的子词，甚至能组合出语义上有意义的词组。

💬 精华片段（中文）

“H-Net的做法是，它没有将这个作为独立的离线步骤再将它们传入模型，而是只看到原始字符...寻找边界的过程完全在模型内部发生。” "What the H-Net does is that instead of doing this as a separate offline step and then passing these into the model, the H-Net only sees the original characters... But this is all happening inside the model."

37:08 H-Net的架构深度解析与SSM的关键作用

本节重点

详细解构H-Net的层次化架构：编码器-分块-主模型-解码器。
指出其核心创新点：一个动态路由机制，为每个输入字节预测是否为“分块边界”。
强调在处理字节级数据的“外层”阶段，使用SSM会带来巨大性能提升，与前文结论一致。
透露H-Net可以嵌套多层，通过多次分块来学习数据中越来越高的抽象层次。

详细精要

H-Net的架构详解：模型分为内层和外层两个主要阶段。
外层/接口层：
- 轻量级编码器 (Encoder)：一个或几层通用序列模型，直接操作在字节/字符上。
- 特殊路由机制 (Routing Mechanism)：这个机制为每一个字符预测，该字符是否应成为一个分块边界（即块的结束）。
- 压缩 (Compression)：对被标记为分块的那些块，将其总结并压缩成一个单一的表征（例如，通过池化）。这个“编码器+分块”的角色等同于标准的BPE分词器。
内层/主模型层：
- 主模型 (Main Model)：在压缩后的更短序列上操作，可以看作一个在“块”上有效的通用序列模型。例如，默认情况下直接使用Transformer，因为它们是处理词语/块的可靠模型。
输出/解码层：主模型产生输出表征后，它们被扩展回原始分辨率，通过解码器 (Decoder) 进行自回归预测。
总体上看，这与“分词器+Transformer”的现有流程相似，但分词步骤发生在模型内部。
SSM在H-Net中的关键作用：
Gu 特别强调，接口字节级数据的“外层”阶段，强烈受益于使用SSM。
这呼应了之前的实验：在处理字符级数据时，SSM远优于Transformer。因此在H-Net中，任何触碰字节级数据的部分，使用SSM都会带来巨大收益。
层次化与嵌套：
由于主模型本身可以是另一个H-Net，因此可以组合多个阶段进行多次分块。
H-Net的本质不仅仅是关于无分词建模，它更关乎动态分块——一种将任何数据压缩成更粗粒度、更具高层语义意义块的能力。
由于是完全端到端的，这是第一个不仅能分块，还能多级嵌套分块以获取越来越多抽象层次的模型。

40:16 H-Net的实验结果与扩展律

本节重点

展示H-Net的训练曲线：初期性能不如Transformer基线，但数据量充足后会超越基线，展现出更好的扩展性。
结果符合“苦涩的教训”：特征工程（BPE）在小数据下有益，但端到端学习随规模增长获益更多。
在DNA建模上的扩展律显示，H-Net不仅表现更好，其扩展斜率更陡，表明它正发现传统分词器无法捕捉的、能根本性提升扩展性的模式。

详细精要

语言建模训练曲线：
图表固定了模型大小，展示验证困惑度/每字节比特数随训练数据量的变化。
Transformer基线：黑色线。
单阶段分块的H-Net：初始时比Transformer差，但在处理足够多数据后实现交叉并超越，展现出更好的扩展趋势。
解释：特征工程（如BPE分词）是一种归纳偏置，能在数据受限时帮助模型，但从规模扩展中获益较少。这在深度学习中很常见，是苦涩的教训的体现。H-Net初期需要数据来学习好的分块，但一旦学会，理论上能创造比硬编码BPE算法更好的块。
两阶段分块的H-Net：将模型嵌套构成两阶段分块后，模型展现出更优的扩展趋势（尽管因参数更多，训练也更难）。
与BPE的直接对比：
如果将H-Net直接应用在BPE令牌上，BPE会为模型提供一个“免费提升”，因为它提供了基于硬编码特征的分块。
但是，如果在字节上操作的H-Net再添加一个分块阶段，它学到的特征会优于BPE令牌。
核心主题是：无论什么场景下，在BPE令牌上训练模型效果不错，但如果能抛弃BPE并端到端地学习分块，模型将做得更好。
DNA建模上的扩展律：
一项更新的工作将不同架构应用于DNA建模，并展示了正式的扩展律。
图中的每个数据点代表一个固定的浮点运算预算（FLOP Budget），模型大小和数据量被扫描。
结果显示出了非常线性的趋势。并且，H-Net的扩展斜率比基于标准分词器的模型更陡，说明其正在发现根本性提升扩展性的模式。

💬 精华片段（中文）

“主题是，无论你在什么环境下，如果你在BPE令牌上训练模型，效果还不错。但如果你能设法扔掉BPE并端到端地学习这些块，那么你的模型会做得更好。” "The theme is that no matter what setting you're in, if you train a model operating on BPE tokens, it works pretty good. But if you can manage to throw away the BPE and learn these chunks end to end, then your model will do even better."

44:00 重思压缩：SSM的归纳偏置超越数据分辨率

本节重点

展示H-Net中的一关键实验：即使在纯BPE令牌数据上，在编码器/解码器中使用SSM也显著优于纯Transformer。
此结果表明，SSM的好处不仅与它们观察到的数据分辨率有关，更与一种朝向压缩的隐式归纳偏置有关。
提出深层假设：有限状态的循环模型（SSM）在构建抽象（即分块的目标）的过程中承担着关键角色，因为构建抽象本质上与压缩相关。

详细精要

关键对照实验：
实验将单阶段H-Net应用在BPE令牌上，并改变编码器和解码器中的架构。
图中顶线代表编码器仅使用Transformer层，性能明显较差。
当开始向编码器/解码器中混入Mamba层时，模型性能立即显著提升。
最重要的发现：整个实验都操作在BPE令牌上（即使是外层）。若根据前文理论（Transformer擅长处理已压缩的数据），那在外层使用Transformer应该是完全没问题的。但实验表明，即使算力匹配，在外层使用Mamba（SSM）仍然显著更好。
解释：压缩作为归纳偏置：
Gu 认为，该实验揭示的教益是：SSM的好处并不仅在于它们所见数据的粒度。
在H-Net的架构图中，编码器层的角色不仅仅是与当前数据分辨率接口。它们还将表征传递给分块层，该层负责决定如何对数据进行分块。
因此，编码器层实际上在扮演某种压缩的角色，因为其目标就是在时间意义上对数据进行字面压缩。
数据显示，即使在BPE令牌上，应用线性/压缩模型也是非常关键的。
对压缩本质的深层思考：
Gu 指出，这是迄今为止他所见到的最好证据，证明循环模型的有限大小状态不仅仅是出于效率考量，而是具有根本不同的归纳偏置。
他将H-Net的目标定义为创造更好的抽象（Abstractions），把字符分块成词语，或将词语组合成有意义的短语。而这一创造抽象的目标，与压缩在根本上是相关的。
经验证明，SSM这类模型对于实现这一目标（创造抽象）似乎非常重要。

47:24 DNA扩展律与总结：架构设计的未来

本节重点

回顾DNA扩展律结果，再次强调在无标准分词器的领域，SSM/H-Net能发现新的模式，实现根本性更好的扩展。
总结核心论点：Transformer的优缺点是同一枚硬币的两面——其类数据库缓存状态带来了强大的检索能力，但也使其对数据令牌的粒度和语义高度敏感。
SSM的优缺点是另一枚硬币的两面——其类大脑的固定压缩状态带来了效率，但更关键的是带来了构建抽象和在线处理的能力，代价是精细检索能力较弱。
最终展望：架构设计的核心问题是找到一个能将算力最高效地转化为智能的“黑箱”，而其中仍有巨大的改进空间。

详细精要

核心权衡总结：
SSM：
- 优点：状态性（高效在线处理、状态追踪）和压缩性（构建抽象层次），两者源于其类似大脑的有限状态。
- 缺点：难以处理精细回忆和检索任务。这也源于同一个状态定义。
- 效率问题（线性 vs 二次方）是一个误导（Red Herring），真正的区别在于建模方式的根本不同。
Transformer：
- 优点：能够高度关注上下文中非常具体的细节，在回忆和检索上异常强大（SSM的短板）。
- 缺点：性能高度依赖于数据的粒度和语义。当数据粒度改变（如从词变到字节），其性能会急剧变化。它受制于给定的令牌，因为其缓存每个令牌的机制，使其对令牌粒度高度敏感，且无法改变一个令牌对其的意义。
- 效率问题同样是误导，在某些任务中，你确实需要进行二次方计算来缓存和记忆所有东西。
架构设计的最终思考框架：
想象一个黑箱，在训练时接收算力（Compute） 与数据（Data），产出具有广泛能力的智能模型。
模型训练是将算力转化为智能的载体，而架构设计的核心问题是：“我的模型是否正在明智地利用每一个浮点运算？”
在某些情况下，为了完成特定能力，必须花费大量算力（如Transformer的精细检索）。
但在更多情况下，模型花费了大量算力做无意义的事（如Transformer在字符级数据上缓存每个字符）。
未来展望：架构设计仍有巨大进步空间，未来需要更多超越Transformer的想法，设计出更好的“黑箱”，实现更高效的转化。

💬 精华片段（中文）

“两者各自的优缺点实际上是同一枚硬币的两面…… 而我认为，对这两种模型而言，效率的争论在某种程度上都是一种干扰。” "And both of these pros and cons are two sides of the same coin... So I think that the efficiency arguments for both of these models are, again, a little bit of a distraction."

54:35 现场问答环节

本节重点

问题1 (Chris Re lab Phd)：既然大脑不太可能通过时间反向传播（BPTT）学习，对SSM中可能存在的替代学习范式有何看法？
问题2 (关于H-Net分块)：H-Net的动态分块机制未来是否会在模型中扮演重要角色？
问题3 (两问)：1）在没有固定词表的情况下，H-Net的技术细节如何处理动态分块？2）是否可以使用状态模型来策划记忆，以扩展注意力模型的记忆能力？

详细精要

问答1：关于学习范式的讨论
该博士生提到，大脑不太可能保留C个副本并通过时间反向传播（BPTT） 学习。因此，大脑中必定运行着其他的求解器。Gu对此有何看法？
Gu 表示认同，他认为从架构到更宏观的反向传播，我们可能都处在一个局部最优解中。
他提到，模型设计与物理硬件以及反向传播之间存在许多相互依赖关系。他个人未深入想过反向传播本身，但意识到它会造成物理内存限制，从而影响对长程依赖关系的学习，因为你无法将整个序列放入内存。
他认为可能存在其他从根本上更好的模型，通过彻底重新构想目前的约束条件来实现。例如，为了在GPU等现有硬件上获得高效率，人们牺牲了大量可以通过真正的循环获得的表现力。如果能够高效地计算真正的循环，可能会获得根本更好的模型。
问答2：关于H-Net分块机制的未来
提问者认为H-Net的动态分块机制很“优雅”，询问其是否会在未来模型中扮演重要角色？
Gu 表示，他从根本相信分块是一个非常重要的原语，从长远看会带来更好的模型。
目前H-Net只是这方面的第一步，并非最终形态。无论是分块机制本身，还是更大规模下的验证，都还有改进空间。
从哲学上讲，他觉得从零开始学习这些分块非常重要，开发更好的分块机制对未来模型可能至关重要。
问答3：关于动态分块的技术实现与记忆策划
第一个问题：在使用BPE时有固定的词表，可以查找嵌入。H-Net的分块是动态变化的，该如何处理？
- Gu 解释：这恰恰是H-Net的一个关键优势。因为是端到端的，在首层编码之后，就不再需要任何查找表。
- 模型以一个非常细粒度单元（如256大小的字节）的词表运行并获取嵌入。
- 在后续的每个阶段，模型都是在嵌入空间中工作。分块后，表征的传递方式是最简单的：例如，将块末端的嵌入直接复制传递到下一阶段，或者对该块内的嵌入进行池化。
第二个问题：是否可以用这类基于状态的模型来“策划”记忆，以供注意力模型使用，从而在持续交互中扩展记忆能力？
- Gu 认为分块正是受认知心理学启发，他认为H-Net这类模型的一个潜在用例，正是长上下文建模。
- 通过不断迭代，可以将上下文压缩为越来越高级别的抽象或记忆（核心摘要）。
- 这允许一个内部模型（如Transformer）在一个高层次的、项目少得多的集合上进行注意力操作。
- 这与使用外部数据库/记忆的哲学直接相关，但他在这方面还没有更多进展。

01:04:00 在线问答环节

本节重点

在线问题1：在数据受限或小语言模型设置下，SSM与Transformer谁的归纳偏置更有利？
在线问题2：Transformer可通过注意力图做可解释性分析，SSM是否有类似方法？

详细精要

应答1：数据受限或小模型下的比较
Gu 表示不太清楚确切的答案，但他分享了一个最新信息。
在 OpenAI 最近发布的一个参数高尔夫挑战赛（训练极小模型）中，他观察到有人尝试训练Mamba 3基础模型，表现不错。但在他们的消融实验中提到，即使是极小模型，加入哪怕一点点注意力都是非常关键的。
这是Gu之前不知道的一点，关于小模型设置下的结论还需探索。
应答2：SSM的可解释性分析
Gu 认为这更难。但他指出，SSM的某些变体与线性注意力之间存在深层联系，而这又与注意力隐式相关。
你可以可视化出一个类似注意力图的东西。它虽然不完全是注意力矩阵，但也能展示每个令牌对其他令牌的依赖性。
这种可视化可以揭示SSM的行为：例如，标准的注意力图有时会表现得像硬注意力，只关注特定令牌；而SSM的图通常是将所有信息“揉”在一起，显得比较弥散。
他认为针对这些模型的机械论可解释性研究仍在进行中。

专业术语注释

术语	解释
状态空间模型 (State-Space Models, SSMs)	一类用于序列建模的架构总称，其核心是通过一个固定大小的隐状态来压缩历史信息。在本次演讲中，它特指Mamba及其衍生的一系列线性复杂度模型。
变换器 (Transformers)	当前主流的深度学习架构，其核心为自注意力机制。在本次演讲的语境中，特指其“缓存每个历史令牌并进行逐对比较”的特性。
线性模型 (Linear Models)	指时间复杂度随序列长度呈线性增长的模型。在本次演讲中，它与SSM、现代循环模型、线性注意力等术语在很大程度上可互换，指代同一类模型家族。
自回归状态 (Autoregressive State)	在自回归生成过程中，模型在每一步推理之间存储于内存中的内容。对于Transformer，它是KV缓存；对于SSM，它是一个固定大小的隐状态。Gu认为，这个状态的定义方式决定了模型的根本权衡。
KV缓存 (KV Cache)	变换器在自回归推理时，为了不重复计算而缓存的所有历史令牌的键（Key）和值（Value）向量。它本质上是变换器的“数据库”。
选择性 (Selectivity)	Mamba等高级SSM的一个核心机制，指模型的循环参数（如状态转移矩阵A）是输入数据的函数。这使得模型能根据输入数据动态决定如何更新状态，从而精确地选择记忆或遗忘信息。
关联扫描 (Associative Scan)	一种利用线性循环的特性来并行化其计算的算法，是原始Mamba模型实现高效训练的关键技术。
现代循环模型 (Modern Recurrent Models)	指新一代的循环神经网络，以区别于LSTM等传统RNN。其特点通常是具有更大状态、选择性机制和高效的并行训练算法，SSM是其中的主要代表。
混合模型 (Hybrid Models)	将线性层（如SSM）与二次方复杂度层（如注意力层）交错组合而成的模型架构。其直觉是将“大脑”（SSM）与“外部数据库”（注意力）相结合。
BPE (字节对编码)	一种常用的无监督分词算法，通过统计字节对的出现频率，迭代地将出现最频繁的字节对合并成一个新令牌，直到达到预设词表大小。它是当前语言模型标准流程的关键一步。
H-Net (层次化网络)	由Gu的团队提出的一种新型网络架构。它能够端到端地在原始字节流上进行动态分块，实现无独立、离线分词器的层次化语言建模。
分块 (Chunking)	H-Net中的核心操作，指模型内部一个动态的过程，通过预测边界将一段连续的细粒度数据（如字符）合并成一个具有高层语义的粗粒度单元（块）。这个操作取代了传统的分词器。
归纳偏置 (Inductive Biases)	学习算法为了使模型能进行预测而所做的假设集合。例如，Transformer的归纳偏置倾向于记忆所有细节，而SSM的归纳偏置则天然倾向于压缩和构建抽象。
测试时训练 (Test-Time Training, TTT)	一种将模型推理过程也视为一个学习过程的范式。在此次演讲中被作为SSM相关的一种新范式提及，其核心是在测试时通过优化一个内部目标函数来更新模型的隐状态。

原文发表：Apr 27, 2026 · 纪要生成：2026-06-22