▶ 原文链接

从下一个词预测到下一代智能:预训练的未来

来源: YouTube 演讲 | Shrimai Prabhumoye | May 11, 2026 播客: Stanford Online 分类: 其他 原文发表: May 11, 2026 纪要生成: 2026-06-22


全集重点


嘉宾/话题简介

Shrimai PrabhumoyeMistral AI 的AI科学家兼波士顿大学兼职教授。她的研究专注于提升大语言模型的推理能力,此前曾在 NVIDIA 主导 Nemotron 模型系列的数据处理与预训练工作。本集演讲系统性地探讨了从“被动预测下一个词”到“主动思考再预测”的预训练范式转变,详细介绍了她在NVIDIA期间的三个核心研究方向:如何最大化现有数据潜力、为何要将推理能力作为基础技能“前置”到预训练阶段,以及如何利用强化学习重构预训练目标。


分节详述

构建最先进LLM的四大支柱

本节重点

详细精要

两阶段预训练:最大化数据潜力

本节重点

详细精要

💬 精华片段(中文)

"Volta is on average 17% better compared to Pascal and 3.4% better compared to a random ordering." “Volta 的平均表现比 Pascal 好 17%,比随机排序好 3.4%。”

前置推理:预训练与后训练的协同

本节重点

详细精要

💬 精华片段(中文)

"This creates an unreasoning foundation or a weak foundation. So what we propose is to front-load reasoning... This, we believe, would lead to stronger foundation for reasoning models specifically." “这就创造了一个‘不推理’的基础,或者说一个脆弱的基础。所以我们提出的方案是‘前置推理’……我们相信,这将为推理模型建立更强大的基础。”

RLP:将强化学习作为预训练目标

本节重点

详细精要

💬 精华片段(中文)

"The key difference is that RLP produces an explicit reasoning trace before predicting the next token. And this makes the why of it very visible and trainable and not just the final answer." “关键区别在于,RLP在预测下一个token之前,会产生一个明确的推理轨迹。这使得‘为什么’变得可见且可训练,而不仅仅是关注最终答案。”

"...RLP is able to establish robust reasoning foundations during pre-training that are not washed away by downstream alignment." “……RLP能够在预训练期间建立稳固的推理基础,这些基础不会被下游的对齐过程冲刷掉。”

总结:从Pascal到Hopper的进化

本节重点

详细精要

💬 精华片段(中文)

"Even if you use unannotated text streams like web crawl, you can still teach reasoning-like behavior while strengthening the foundation." “即使你使用像网页抓取这样的未标注文本流,你仍然可以在强化基础的同时,教授推理般的行为。”


专业术语注释

术语 解释
LLM Large Language Model,大语言模型。
SOTA State-of-the-Art,指当前最先进的或顶尖水平。
Mamba2 一种状态空间模型架构,被认为是Transformer架构的潜在替代者或混合对象,在长序列处理上更高效。
Nemo Tron NVIDIA旗下的系列大语言模型。
Hugging Face 一个提供模型、数据集托管和分享的AI社区与平台。
Common Crawl 一个非营利组织,定期抓取并免费提供互联网上的网页数据,是许多大模型训练数据的重要来源。
AP Course 美国大学先修课程,高中生可选修并参加考试换取大学学分。作为类比,指代早期学习高等知识有益于后续发展。
课程学习 一种训练策略,模仿人类学习过程,从易到难或按某种特定顺序将数据呈现给模型。
Epoch 在机器学习中,指模型对整个训练数据集完成一次完整的前向和后向传播。此处指数据源重复使用的次数。
轮次估算 评估一个数据源在导致收益递减之前,最多能被模型重复训练多少次。
下游任务 指预训练完成后,模型需要去适应的具体应用任务,如翻译、问答等。
SFT Supervised Fine-Tuning,监督微调。使用带标签的问答对数据对预训练模型进行进一步训练。
RL/RLHF/RLVR Reinforcement Learning from Human Feedback / Verifiable Rewards,从人类反馈/可验证奖励中进行的强化学习。RLVR常用于有标准答案的领域(如数学、代码)。
前置推理 与仅在后期添加推理能力不同,指在预训练阶段即系统性地注入推理数据,作为模型基础能力的一部分。
RLP Reinforcement Learning as a Pre-training objective,将强化学习作为预训练目标。演讲中提出的核心方法,通过在预测前生成推理轨迹并计算信息增益作为奖励,以训练模型的推理能力。
信息增益奖励 RLP中的核心奖励机制。计算为log(P(下一词\|上下文+思考)) - log(P(下一词\|上下文))。当模型的主动思考对预测下一词有帮助时,该值为正。
稠密奖励 与只在结尾给出的稀疏奖励不同,稠密奖励能在推理过程的每一个步骤、每一个token上都提供反馈信号。
Rollouts 在强化学习中,指让模型根据当前策略生成多个可能的输出(思考轨迹),以便进行探索和比较。
指数移动平均 用于更新无思考基线模型的技术,使其缓慢跟随思考策略的变化,防止过快出现奖励黑客问题。
GRPO Group Relative Policy Optimization,一种强化学习算法,通过比较同一组内多个输出的相对优势进行策略优化。
奖励黑客 在强化学习中,模型可能找到一种“捷径”来最大化奖励,而并未真正提升目标能力,如生成讨好人类但无信息量的回答。

延伸思考

值得进一步关注的问题、争议点或行动建议,2~5条。

原文发表:May 11, 2026  ·  纪要生成:2026-06-22