从下一个词预测到下一代智能：预训练的未来

来源： YouTube 演讲 | Shrimai Prabhumoye | May 11, 2026 播客： Stanford Online 分类： 其他 原文发表： May 11, 2026 纪要生成： 2026-06-22

全集重点

智能数据、架构、算法与协作：构建最先进大语言模型的四大支柱，尤其强调数据筛选与混合策略的价值。
两阶段课程学习：通过先多样化后高质量的阶段性数据排序，比随机排序平均提升 17% 模型性能。
前置推理：在预训练阶段系统注入推理数据，可在后续微调后为复杂数学基准（AIME）带来高达 39% 的增益。
作为预训练目标的强化学习（RLP）：通过在预训练中引入思考轨迹，以极低的数据量（ 2.5亿 对比 200亿 tokens）实现 35% 的模型性能提升。
学习策略的巨大杠杆：利用数据课程、前置推理与学习思考三种策略，模型相对性能最高可提升 60%。

嘉宾/话题简介

Shrimai Prabhumoye 是 Mistral AI 的AI科学家兼波士顿大学兼职教授。她的研究专注于提升大语言模型的推理能力，此前曾在 NVIDIA 主导 Nemotron 模型系列的数据处理与预训练工作。本集演讲系统性地探讨了从“被动预测下一个词”到“主动思考再预测”的预训练范式转变，详细介绍了她在NVIDIA期间的三个核心研究方向：如何最大化现有数据潜力、为何要将推理能力作为基础技能“前置”到预训练阶段，以及如何利用强化学习重构预训练目标。

分节详述

构建最先进LLM的四大支柱

本节重点

构建顶尖LLM需依赖智能数据、架构、算法与团队协作。
演讲将聚焦于“智能算法”领域的三项核心工作。
预先提出四位“学习者”的类比，用以展示学习策略的差异。

详细精要

构建SOTA LLM的四大关键组件：Shrimai 将构建最先进模型的配方概括为四个核心要素。
智能数据：需要大量高质量且多样的数据，并能进行有效的过滤、去重等操作。
智能架构：模型架构在不断演化，从最初的 Transformer 发展到如今结合了 Mamba2 的混合架构。
智能算法：如何构建先进的训练配方和策略，这是本次演讲的核心。
智能协作：在预训练与后训练团队、研究与工程团队之间建立高效的合作。
在NVIDIA期间的“智能数据”贡献概述：尽管演讲重点是算法，但她简要回顾了她在数据方面的工作，这些数据均已开源发布在 Hugging Face 上。
MIND：一个数学相关的合成对话数据集。
Nemotron-CC-Math：从 Common Crawl 文档中解析出的通用数学数据集。
Nemotron Nano 2 数据集：一个综合性数据集。
棱镜合成：一种在合成数据生成中鼓励多样性的方法。
Nemotron-CrossThink：一个超越了数学和代码的更广泛的推理数据集，发布当周即成为NVIDIA在Hugging Face上最热门的数据集之一。
引入“四位学习者”的核心类比：通过四个孩子的学习方式来阐释预训练中的关键策略。四个孩子 Pascal， Volta， Ampere， Hopper 拥有完全相同的数据，但学习方式不同。
Pascal：不遵循任何课程，随机阅读数据；不使用高质量推理数据；不进行“通过思考学习”。
Volta：遵循数据课程，从有序阅读中获益；但决定不利用高质量推理数据，也不“通过思考学习”。
Ampere：遵循数据课程，并有效利用了高质量推理数据；但仍不“通过思考学习”。
Hopper：完美运用了所有三种策略：课程学习、前置推理（类比美国教育中的 AP课程，早期学习大学内容对后续有益）、以及通过思考与材料互动学习。

两阶段预训练：最大化数据潜力

本节重点

LLM正消耗海量数据，预计 2030年 将消耗 95% 以上的人类生成数据。
如何权衡不同数据源的质量，以及如何决定数据呈现的顺序是关键问题。
两阶段课程学习（先多样化，后高质量）效果显著，性能平均比随机顺序提升 17%。

详细精要

LLM数据消耗的现状与未来：当前LLM训练消耗数万亿tokens，数据来源广泛，包括法律文件、书籍、论文、网页抓取等。
数据量指数级增长：Epoch AI 的分析显示，2021年 的 GPT-3 训练消耗千亿级tokens，而 2024年底 的 Llama 3 已消耗数万亿级tokens。预计到 2030年 左右，LLM将消耗超过 95% 的人类生成数据。
数据混合的两个核心问题：
问题1：如何权衡数据源：如何判定哪些文档质量更高，哪些质量较低。
问题2：如何排序数据源：即课程学习，决定模型在训练生命周期中先学什么、后学什么。
创建最优数据混合物：该过程主要包括两步。
质量估算：构建质量分类器，评估每个数据源的质量。核心思想是，同等质量的数据源在混合物中应有相似的权重，而高质量数据源的权重要远高于中低质量数据源。
轮次估算：估算一个高质量数据源可以重复训练多少次才会在后续任务上出现收益递减，目的是榨取高质量数据的最大价值。
提出的两阶段预训练方法：
第一阶段：强调数据多样性。尽可能多地暴露模型于多样化的数据中，此时的数据混合物包含大量网络抓取数据（包括中低质量），同时对高质量数据使用较少的训练轮次。
第二阶段：强调高质量。模型仅专注于数学、维基百科、代码等高质量数据源，并使用更多训练轮次进行学习。
对比基线及实验结果：三个基线分别是自然分布、最优混合物（随机顺序）和两阶段方法。
自然分布：不考虑数据质量和重复次数，数据采样概率仅与其在数据源中的token数量成比例。低质量但体量巨大的数据集会被过度采样。
最优混合物 + 随机顺序：根据质量和轮次估算创建了良好的数据混合物，但以随机顺序展示给模型。
两阶段方法：在最优混合物的基础上，按特定顺序进行展示，尤其是第二阶段突出高质量数据。
性能表现：采用两阶段方法的 Volta 相比随机学习的 Pascal 平均性能提升 17%，相比最优混合物但随机排序的基线提升 3.4%。

💬 精华片段（中文）

"Volta is on average 17% better compared to Pascal and 3.4% better compared to a random ordering." “Volta 的平均表现比 Pascal 好 17%，比随机排序好 3.4%。”

前置推理：预训练与后训练的协同

本节重点

提出“前置推理”概念，反对将推理能力仅作为后训练阶段的附加品。
通过在预训练阶段系统注入推理数据，可以构建更强大的推理基础模型。
前置推理带来的收益是持久的，不会被后续的SFT和RL阶段抹平，反而会放大。

详细精要

“前置推理”的核心理念：挑战了传统的LLM训练管线——预训练学习世界知识，监督微调模仿推理格式，强化学习才学习真正的推理。
当前管线的问题：仅在预训练阶段学习通用知识，会将推理能力作为一种“事后”的附加品，导致建立在一个 “不推理的基础” 或“脆弱的基础”之上。
提出的方案：在预训练阶段就不仅学习通用知识，还要学习推理技能本身。在后训练阶段，再对这一技能进行放大和精炼，从而为推理模型建立更强大的基础。
实验设计：系统注入推理数据：研究在训练的不同阶段（预训练、SFT）注入推理数据的影响。
推理数据的三个分析维度：多样性、质量和数量。
两个核心实验条件：
- 无推理基础：预训练阶段未见过任何推理数据。
- 有推理基础：预训练阶段已注入了一定数量、质量或多样性的推理数据。
评估指标说明：评估基础模型和后训练模型所用基准不同，因此下一张幻灯片中的数字可能有差异。
五大核心实验发现：
发现1：预训练中加入推理数据有益：在完成预训练后立即比较，注入过推理数据的 Ampere 比没有注入的 Volta 平均表现好 16%。
发现2：增益在SFT后依然持续且扩大：在经过SFT后，Ampere 的优势依然存在，相比 Volta 的提升为 9.3%。这意味着预训练中加入推理数据的优势不仅没有被冲刷掉，反而在增长。
发现3：高质量数据在预训练中可解锁隐藏增益：
- 使用了三种数据集：SHQ（小数量、低多样性但高质量）、LDQ（大数量、高多样性但低质量）、LMQ（SHQ+LDQ的组合）。
- 在预训练刚结束时，LMQ 和 LDQ 表现相当，看似加入 SHQ 没有额外好处。
- 但在经过后训练后，LMQ 比 LDQ 有 4.25% 的提升。这说明预训练中的高质量数据可以在SFT后解锁隐藏的增益，并且不一定会导致过拟合。
发现4：后训练阶段的更多算力或数据无法弥补预训练阶段缺少推理的劣势：
- 更多SFT算力：让“无推理基础模型”进行双倍轮次的SFT，其表现仍比只进行单轮次SFT的“有推理基础模型”差 3%。
- 固定数据预算的最优分配：当推理数据总量固定时，在预训练和SFT阶段拆分使用这些数据，比全部留给SFT阶段使用，平均表现要好 12%。这证明在预训练中不使用推理数据的损失是无法通过增加SFT算力或重新分配数据来弥补的。
发现5：前置推理创造持久的优势：在经过完整的预训练、SFT和 RLVR（可验证奖励的强化学习）所有阶段后，Ampere 相较 Volta 的整体优势扩大到 19%。尤为显著的是，在 AIME 等复杂数学基准上，优势膨胀至 39%。

💬 精华片段（中文）

"This creates an unreasoning foundation or a weak foundation. So what we propose is to front-load reasoning... This, we believe, would lead to stronger foundation for reasoning models specifically." “这就创造了一个‘不推理’的基础，或者说一个脆弱的基础。所以我们提出的方案是‘前置推理’……我们相信，这将为推理模型建立更强大的基础。”

RLP：将强化学习作为预训练目标

本节重点

提出“通过思考学习”的范式转变，核心是让模型通过自己的思考去推理，而非仅仅观察文本。
引入 信息增益 作为内在、稠密的奖励信号，无需外部验证器。
RLP展现了惊人的数据效率：用 2.5亿 tokens训练的效果，超越用 200亿 tokens进行的标准训练 35%。

详细精要

RLP的动机：“两个学习者”的寓言：
Leo：通过“动手做”来学习，快速搭建了一个简单但能用的桥。
Bolt：通过“观察”所有桥的设计来学习，建了一座华丽但小车无法通过的悬浮桥。
寓意：当前模型仅通过预测下一个词来“观察”文本，而RLP的目标是教会模型通过自己的思考来推理，实现“在做中学”。
标准预训练的问题与RLP的解决方案：传统管线中，模型在预训练和SFT阶段主要进行模式匹配和模仿，真正的探索和推理能力直到 RLHF/ RLVR 阶段才被引入，为时已晚。RLP旨在将推理能力“内化”到预训练早期，并探索在数据量见顶的当下，如何更有效地利用计算资源。
RLP与传统预训练的核心区别：
标准预训练：给定上下文“光合作用是植物、藻类和一些细菌利用...制造食物的过程”，模型直接预测下一个词是“阳光”。
RLP训练：给定同样上下文，模型首先得到一个思考机会，生成一个推理追踪，例如“你知道什么？光合作用实际上依赖于太阳能。所以下一个词一定是阳光”。然后，模型基于“上下文”和“自己生成的推理追踪”来预测下一个词。
关键差异：RLP在预测前会生成一个显式的推理轨迹，这使得预测的“为什么”变得可见且可被训练，而不仅仅是关注最终答案。这被称为推理驱动的预测。
RLP的详细技术流程：
提示词：使用特定提示词引导模型专注于“下一步”的思考，避免直接跳到最终答案，并要求不重述问题或进行元数据评论。
思考策略：给定输入上下文，思考策略会执行多次 Rollouts（采样），生成多个不同的“思考”和与之对应的“下一个词预测”。
无思考基线：一个标准的、不生成思考轨迹的下一词预测模型，它接收相同的上下文，直接计算词汇表上的概率分布并预测下一个词“阳光”。
基于信息增益的奖励：
- 从思考策略得到 p_theta（给定上下文和推理轨迹后的下一词概率）。
- 从无思考基线得到 p_phi（仅给定上下文的下一词概率，标准方法）。
- 奖励计算公式为 log(p_theta) - log(p_phi)。
- 奖励的本质：该信息增益奖励仅在思考轨迹真正有意义地提升了下一词预测的准确性时为正值。如果思考毫无贡献或是“垃圾”，奖励可以为负或零。
- 奖励的特性：这是一个稠密奖励，因为它可以是任意值，并可应用于文档中的每一个位置，无需外部筛选。这与标准的RLVR中在序列结尾提供的稀疏、二元奖励完全不同。
指数移动平均：使用指数移动平均来延迟更新“无思考基线”模型。这样做可以使其与“思考策略”保持足够接近以提供有信息量的比较，同时又故意滞后以防止“奖励黑客”。
RLP的实验结果与惊人效率：
实验设置：基于 Qwen 1.7B-Base 模型，使用 10亿 tokens的通用预训练语料（非特定推理数据）进行RLP训练。对比基线包括原模型和使用同样 10亿 tokens进行标准下一词预测的模型。
结果1（Token匹配）：
- RLP训练后的基础模型比原始基线表现好 19%。
- RLP训练也比用同样tokens进行下一词预测的模型好 17%。
- 在进行相同的SFT和RL后训练后，RLP带来的增益不仅保留，而且复利增长，Hopper（使用RLP）比 Ampere（前置推理但未用RLP）相对提升 8%。这证明RLP建立的推理基础是稳健的。
结果2（算力匹配）：因RLP需要生成和评估多个rollout，计算成本更高。在算力匹配（Flop-matched）的条件下，只使用 1.7亿 tokens进行RLP，对比使用 60亿 tokens进行标准下一词预测。结果RLP模型平均性能仍高出 14%，即使对方接触了 35倍 的数据量。
结果3（在更大模型和中间检查点上的应用）：
- 设置：对 Nemotron 12B v2 的一个中间检查点（已训练 19.8万亿 tokens）使用 2.5亿 tokens的通用数据进行RLP。然后与训练到 20万亿 tokens的最终基线模型比较。
- 结果：尽管RLP模型少看了近 2000亿 tokens，其表现仍然平均优于基线模型 35%，尤其在科学领域增益最大。经过相同后训练后，RLP模型仍有 3% 的绝对优势。这证明RLP的收益可跨模型规模（从1.7B到12B）和架构（Transformer到 Mamba2 混合架构）进行扩展。
RLP与相关研究的比较：
定性比较：与 RPT 和 RLPT 等方法相比，RLP的核心优势在于其奖励机制。
- 奖励来源：RLP是无验证器的内在奖励，而RPT和RLPT依赖外部验证器。
- 奖励粒度：RPT和RLPT使用稀疏、二元奖励，仅对选定token进行强化，忽略了推理过程本身。RLP的稠密奖励基于完整推理轨迹的信息增益，捕获了完整的推理信号。
- 推理涌现性：RLP导致的推理能力涌现被认为是明确而强大的。
定量比较：在使用 Qwen 1.7B-Base 和 OmniMath 数据集的 1.7亿 tokens训练中，RLP平均比RPT技术好 4%。

💬 精华片段（中文）

"The key difference is that RLP produces an explicit reasoning trace before predicting the next token. And this makes the why of it very visible and trainable and not just the final answer." “关键区别在于，RLP在预测下一个token之前，会产生一个明确的推理轨迹。这使得‘为什么’变得可见且可训练，而不仅仅是关注最终答案。”

"...RLP is able to establish robust reasoning foundations during pre-training that are not washed away by downstream alignment." “……RLP能够在预训练期间建立稳固的推理基础，这些基础不会被下游的对齐过程冲刷掉。”

总结：从Pascal到Hopper的进化

本节重点

综合三种学习策略，可以带来高达 60% 的相对性能提升。
重申两阶段课程学习、前置推理和RLP作为预训练新范式的关键结论。
强调即使在未标注的文本流上，也能通过RLP教授推理行为，开启新的规模化轴线。

详细精要

四位学习者的最终比较：Pascal（无策略）、Volta（课程）、Ampere（课程+前置推理）、Hopper（课程+前置推理+RLP）。从 Pascal 到 Hopper，通过叠加有效的学习策略，相对性能提升可高达 60%。
三大策略的核心结论与行动建议：
两阶段预训练非常有效：第一阶段重在多样性，第二阶段重在高品质数据。
前置推理创造持久且复合的优势：有时增益会在SFT阶段后才被解锁，带来意外之喜。
RLP重构了预训练中的推理：它弥合了从简单的下一词预测到产生有用思维链推理之间的鸿沟。即使在未标注的文本流（如网页抓取数据）上，也能教授模型推理行为，实验显示无论使用何种数据，通常都有 7% 到 9% 的增益。这为“模型如何学习推理”开辟了一个全新的规模化维度，允许模型在构建对世界的知识和理解的同时，进行探索和推理。
构建下一代智能的基石：演讲最终回到开篇的四大支柱：智能数据、智能架构、智能算法 和 智能协作，强调这些是通往下一代智能预训练的关键。

💬 精华片段（中文）

"Even if you use unannotated text streams like web crawl, you can still teach reasoning-like behavior while strengthening the foundation." “即使你使用像网页抓取这样的未标注文本流，你仍然可以在强化基础的同时，教授推理般的行为。”

专业术语注释

术语	解释
LLM	Large Language Model，大语言模型。
SOTA	State-of-the-Art，指当前最先进的或顶尖水平。
Mamba2	一种状态空间模型架构，被认为是Transformer架构的潜在替代者或混合对象，在长序列处理上更高效。
Nemo Tron	NVIDIA旗下的系列大语言模型。
Hugging Face	一个提供模型、数据集托管和分享的AI社区与平台。
Common Crawl	一个非营利组织，定期抓取并免费提供互联网上的网页数据，是许多大模型训练数据的重要来源。
AP Course	美国大学先修课程，高中生可选修并参加考试换取大学学分。作为类比，指代早期学习高等知识有益于后续发展。
课程学习	一种训练策略，模仿人类学习过程，从易到难或按某种特定顺序将数据呈现给模型。
Epoch	在机器学习中，指模型对整个训练数据集完成一次完整的前向和后向传播。此处指数据源重复使用的次数。
轮次估算	评估一个数据源在导致收益递减之前，最多能被模型重复训练多少次。
下游任务	指预训练完成后，模型需要去适应的具体应用任务，如翻译、问答等。
SFT	Supervised Fine-Tuning，监督微调。使用带标签的问答对数据对预训练模型进行进一步训练。
RL/RLHF/RLVR	Reinforcement Learning from Human Feedback / Verifiable Rewards，从人类反馈/可验证奖励中进行的强化学习。RLVR常用于有标准答案的领域（如数学、代码）。
前置推理	与仅在后期添加推理能力不同，指在预训练阶段即系统性地注入推理数据，作为模型基础能力的一部分。
RLP	Reinforcement Learning as a Pre-training objective，将强化学习作为预训练目标。演讲中提出的核心方法，通过在预测前生成推理轨迹并计算信息增益作为奖励，以训练模型的推理能力。
信息增益奖励	RLP中的核心奖励机制。计算为`log(P(下一词\\|上下文+思考)) - log(P(下一词\\|上下文))`。当模型的主动思考对预测下一词有帮助时，该值为正。
稠密奖励	与只在结尾给出的稀疏奖励不同，稠密奖励能在推理过程的每一个步骤、每一个token上都提供反馈信号。
Rollouts	在强化学习中，指让模型根据当前策略生成多个可能的输出（思考轨迹），以便进行探索和比较。
指数移动平均	用于更新无思考基线模型的技术，使其缓慢跟随思考策略的变化，防止过快出现奖励黑客问题。
GRPO	Group Relative Policy Optimization，一种强化学习算法，通过比较同一组内多个输出的相对优势进行策略优化。
奖励黑客	在强化学习中，模型可能找到一种“捷径”来最大化奖励，而并未真正提升目标能力，如生成讨好人类但无信息量的回答。

延伸思考

值得进一步关注的问题、争议点或行动建议，2～5条。

“推理”定义的普适性：演讲中提到推理数据的划分依据是社区现有数据集（如Math Olympiad风格，由问题、长推理轨迹和最终解构成）。这是否限制了对法律、医学或其他领域内独特“推理”模式的定义和探索？如何构建一个更普适、跨领域的推理数据框架？
RLP的规模化挑战：虽然RLP在算力匹配对比下展现了高效性，但其rollout环节本身增加了训练复杂度。在大规模超长上下文中执行多rollout、并计算稠密奖励的工程实现难度和计算开销，可能会限制其在更大模型（如百B或千B级）上的直接应用。
RLP与GRPO的融合潜力：演讲者提到RLP内部用了 GRPO 技术来计算优势函数。未来能否将RLP这种“思考再预测”的范式与GRPO等后训练技术更优雅地统一，形成一个贯穿预训练和后训练的端到端“深度推理”框架？
幻觉与RLHF偏差：观众提问涉及RLHF可能导致模型讨好用户而产生偏差或幻觉。演讲者指出这是Anthropic等公司对齐研究的重点，并提到 RLAIF（用AI反馈替代人类反馈）可能减少主观偏见。这揭示了训练“有用”与“真实/无害”之间的根本性矛盾，启发思考未来如何在源头（如RLP预训练）就植入真实性和非谄媚性的先验。
质量分类的工程细节：对于如何区分数据质量，演讲者提到了基于 FineWeb-Edu（教育性评分）等分类器的方法。但在实践中，教育性是否等同于“高质量”，尤其是在需要模型进行创造性或发散性思考时？对质量定义的单一性可能成为制约模型智能多样性的隐性瓶颈。

原文发表：May 11, 2026 · 纪要生成：2026-06-22