斯坦福CS25 第四季：OpenAI研究员Jason Wei与Hyung Won Chung分享大模型核心逻辑与AI发展规律

来源： YouTube | Jason Wei、Hyung Won Chung | 公开讲座 分类： OpenAI 原文发表： May 06, 2024 纪要生成： 2026-03-03

全集重点

大模型底层逻辑：下一词预测本质是超大规模多任务学习，覆盖语法、世界知识、推理等千万级细分任务
缩放定律特性：大模型整体损失随计算资源增长平滑下降，趋势跨越7个数量级无饱和迹象
涌现能力规律：33%的测试任务符合涌现特性，小模型下性能接近随机，模型规模突破阈值后能力突然跃升
AI发展驱动力：过去70年AI核心驱动力是计算成本指数级下降，弱假设、高可缩放的模型架构是长期最优选择
未来研究方向：当前大模型瓶颈不是架构，而是单正确答案的监督学习范式，RLHF等弱结构目标有更高缩放潜力

嘉宾/话题简介

Jason Wei是OpenAI AI研究员，此前任职于谷歌大脑，是思维链提示、指令微调、大模型涌现现象等核心概念的提出者，本次分享围绕大语言模型的底层工作逻辑、缩放规律、涌现特性展开，给出AI研究的实操建议。 Hyung Won Chung是OpenAI ChatGPT团队研究科学家，此前任职于谷歌大脑，主导过FLAN-T5、FLAN-PaLM等知名大模型项目，本次分享从Transformer架构演化历史切入，解读AI发展的核心驱动力，分析不同架构的适用场景与未来演化方向。本次讲座是斯坦福CS25（Transformer相关课程）的公开内容，面向AI领域研究者与学生，核心目标是帮助听众理解大模型的底层规律，建立面向长期的AI研究思维。

分节详述

00:00 Jason Wei开场与下一词预测本质

本节重点

提倡通过手动检查数据建立对任务的直觉，是AI研究的核心有效方法
大语言模型的核心训练目标是下一词预测，本质是超大规模多任务学习
下一词预测覆盖从语法、世界知识到推理的海量细分任务，难度极高

详细精要

手动检查数据的研究方法：通过深度接触任务数据建立直觉，是产出高质量研究的核心路径
Jason Wei2019年研发肺癌分类器时，无医学背景的他主动学习病理知识，手动练习肺癌影像分类，最终建立的任务直觉帮助他产出多篇相关论文
该方法同样适用于大语言模型研究，手动分析训练数据与模型输出可帮助研究者发现模型的底层逻辑
下一词预测的任务定义：大语言模型的核心预训练任务是给定前文序列，输出词表中每个词作为下一个词的概率，训练目标是让正确词的概率尽可能接近1
词表覆盖从常见词到生僻词的所有可用 token，模型需要为每个 token 分配合理概率
损失函数衡量的是正确下一词的预测概率与1的差距，训练目标是最小化该损失
下一词预测的多任务本质：该任务天然覆盖千万级不同类型的细分任务，是极致的多任务学习
基础能力类任务：包括语法判断（如"我空闲时间喜欢"后接"写代码"概率高于"香蕉"）、词汇语义（如"去超市买木瓜、火龙果和"后接"榴莲"概率高于"松鼠"）
知识与推理类任务：包括世界知识（如"阿塞拜疆的首都是"后接"巴库"概率高于"伦敦"）、情感分析、翻译、空间推理、数学计算等
任意细分任务：甚至包括逗号预测、无明确分类的任意上下文接续任务，全量覆盖训练数据中的所有模式

💬 精华片段（中文）

下一词预测任务的难度非常高，当你在整个数据库上训练这一任务时，模型会学到海量不同的任务。

"The point that I'm trying to make here is that, the next word prediction task is really challenging. So if you do this over the entire database you're going to learn a lot of tasks."

09:15 大模型缩放定律

本节重点

大模型损失与训练所用计算资源呈平滑负相关，该规律由Kaplan等人2020年提出，被称为缩放定律
缩放定律的趋势跨越7个数量级，无饱和迹象，可通过投入的计算量预测模型最终损失
大模型相比小模型的核心优势是可存储更多长尾知识、学习更复杂的推理规则

详细精要

缩放定律的核心结论：大语言模型的损失随训练计算量的增长平滑下降，计算量=训练数据量×模型参数量
该规律由Kaplan等人2020年的论文提出，实验验证趋势覆盖7个数量级的计算量区间，没有出现饱和拐点
只要持续提升计算投入，就可以稳定预测模型的损失下降，是当前大模型研发的核心指导规律
大模型性能优于小模型的底层原因：参数量提升带来了两方面核心能力增益
记忆能力提升：小模型参数量有限，只能选择性记忆高频核心知识，大模型可以存储几乎所有接触过的长尾知识，无需做取舍
推理能力提升：小模型只能学习一阶启发式规则，甚至连语法都难以完全掌握，大模型有足够的参数空间学习复杂的推理规则，尽可能提升下一词预测的准确率

💬 精华片段（中文）

如果缩放定律的曲线出现饱和，那么投入更多计算资源、训练更大的模型就不会再带来损失下降，但目前我们观测到的趋势完全没有饱和的迹象。

"The important thing about this is that the line does not go like that, because if it went like that, then it would saturate, and then putting more compute or training a larger language model wouldn't actually lead to lower loss."

13:41 任务能力涌现特性

本节重点

大模型整体损失平滑下降的前提下，不同任务的性能提升速率存在显著差异
对202个Big Bench任务的统计显示，33%的任务符合涌现特性，能力会在模型规模突破阈值后突然跃升
涌现特性导致小模型下的性能表现无法预测大模型的能力，大幅提升了大模型研发的意外性

详细精要

整体损失与单任务损失的关系：大模型的整体损失是所有细分任务损失的加权和，不同任务的饱和节点完全不同
语法、情感分析等简单任务的损失会快速饱和，大模型相比小模型在这类任务上提升很小
数学推理、复杂知识问答等困难任务的损失不会快速饱和，大模型相比小模型在这类任务上的提升非常显著
Big Bench任务的缩放曲线分布：Jason Wei对202个Big Bench任务的缩放曲线做了统计，可分为5类
29%的任务为平滑提升：性能随计算量增长稳定提升，无明显拐点
22%的任务为平坦曲线：所有规模的模型性能都接近0，任务难度超过当前模型能力范围
2%的任务为逆缩放：性能随模型规模增长反而下降
13%的任务为无相关：性能随模型规模增长无明显规律
33%的任务为涌现能力：小模型下性能接近随机，当模型规模突破某个阈值后，性能突然大幅跃升，远高于随机水平
涌现能力的核心影响：无法通过小模型的性能表现预测该任务是否能被大模型解决，导致很多能力在出现前完全无法预判
如果只训练过小模型，研究者会认为这类任务是大模型永远无法完成的
目前没有发现涌现能力在拐点前的明确信号，无法提前预测某个任务是否会在更大的模型上出现能力跃升

💬 精华片段（中文）

如果你之前只训练过小模型，你会预判语言模型永远不可能完成这类任务，但实际上当你训练更大的模型时，它确实学会了完成任务，从这个角度来说涌现能力是非常难以预测的。

"Let's say you had only trained the small language models up to that point, you would have predicted that it would have been impossible for the language model to ever perform the task. But actually when you train the larger model, the language model does learn to perform the task, so in a sense it's pretty unpredictable."

20:22 逆缩放与U型缩放现象

本节重点

逆缩放/U型缩放是指部分任务的性能随模型规模增长先下降后上升，呈现U型曲线
该现象可通过拆解为多个子任务的缩放曲线差异解释，并非反缩放定律的异常现象
给研究者的核心建议是要绘制研究项目的缩放曲线，判断后续优化的空间

详细精要

逆缩放现象的典型案例：给模型输入提示"Repeat after me. All that glisters is not glib, all that glisters is not --"，要求模型接续
超小模型输出正确答案glib，性能100%
中等模型输出错误答案gold（对应名言"All that glisters is not gold"），性能为0
大模型输出正确答案glib，性能回到100%，整体呈现U型缩放曲线
逆缩放现象的底层原因：该任务可拆解为三个子任务，不同子任务的缩放曲线不同，叠加后形成U型曲线
子任务1：重复文本：所有规模的模型都可以完美完成，曲线为水平100%
子任务2：修正名言：超小模型无法完成，中等以上模型可以完成，曲线为随规模增长上升
子任务3：遵循指令：超小、中等模型无法完成，大模型可以完成，曲线为随规模增长上升
叠加后：超小模型只能完成重复任务，输出正确；中等模型能完成修正名言但不能遵循指令，输出错误；大模型能完成所有任务，输出正确
给研究者的实操建议：做研究项目时一定要绘制缩放曲线，判断后续优化的潜力
场景1：缩放曲线提前饱和：说明不需要收集更多数据或增大规模，继续投入不会带来性能提升
场景2：缩放曲线线性上升：说明继续投入更多数据或规模，还会获得稳定的性能提升
场景3：缩放曲线出现跃升趋势：说明继续投入会获得超预期的性能提升

24:42 Jason Wei问答环节

本节重点

预训练数据过滤的核心方法是筛选可靠来源的高质量数据
模型深度提升可增强推理能力，宽度提升可增强知识记忆能力，共同推动涌现
大模型涌现能力是真实存在的，并非度量选择导致的幻象
当前大模型的核心瓶颈仍是数据量与计算量的规模

详细精要

预训练数据的质量筛选方法：目前没有完美的好坏数据区分方法，核心操作是筛选高可信度来源的数据，过滤低质量来源的内容
涌现能力的模型层面原因：模型规模（深度+宽度）是核心驱动因素
更多的网络层可以编码更复杂的函数，提升模型的推理能力
更宽的网络层可以存储更多的世界知识，提升模型的记忆与检索能力
涌现能力是否为幻象的回应：建议研究者自行阅读相关论文判断，核心结论是大模型的能力提升是真实存在的，并非度量选择导致的假象
当前大模型的核心瓶颈：符合缩放定律的结论，核心瓶颈仍是训练数据量与计算资源的规模，持续提升两者会稳定带来性能提升

30:25 Hyung Won Chung开场与AI发展核心驱动力

本节重点

面向AI未来研究的核心方法是研究变化本身，识别主导驱动力即可预测发展趋势
AI领域的核心主导驱动力是计算成本的指数级下降，每5年相同成本可获得10倍算力
苦涩教训（Bitter Lesson）是70年AI研究的核心总结：减少归纳偏见、提升缩放性的方法才是长期最优解

详细精要

预测未来的方法论：在窄域科学领域，识别主导驱动力即可预测未来发展趋势，无需覆盖所有影响因素
案例：扔钢笔的场景下，重力是唯一主导驱动力，忽略空气阻力等次要因素即可精准预测钢笔的运动轨迹
通用场景下预测难度高是因为主导驱动力数量多、交互复杂，但AI领域属于主导驱动力明确的窄域场景
AI领域的核心主导驱动力：计算成本的指数级下降，相同成本每5年可获得10倍的算力，该趋势已经持续超过100年，是所有AI发展的核心基础
错误的研究路径是人为给模型加入强结构、强归纳偏见，短期可以获得性能提升，但长期会成为缩放瓶颈
正确的研究路径是尽可能利用算力增长的趋势，选择归纳偏见弱、缩放性强的方法，长期收益更高
苦涩教训的核心结论：过去70年的AI研究本质是不断开发归纳偏见更弱、通用性更强的方法，同时增加数据与算力投入的过程
强结构方法在低算力区间表现更好，但会快速饱和，无法随算力增长持续提升
弱结构方法在低算力区间表现差，但不会饱和，算力足够时会超过强结构方法，是长期更优的选择
选择方法时要匹配当前的算力水平，同时要注意后续需要逐步去掉引入的临时结构，避免成为缩放瓶颈

💬 精华片段（中文）

过去70年的全部AI研究可以总结为：开发归纳偏见或建模假设越来越弱的通用方法，同时加入更多数据和算力，也就是缩放。

"Past 70 years of entire AI research can be summarized into developing progressively more general method with weaker modeling assumptions or inductive biases, and add more data and compute, in other words scale up."

45:16 Transformer三类架构对比

本节重点

Transformer可分为三类架构：编码器-解码器、仅编码器、仅解码器，归纳偏见依次减弱
仅编码器架构通用性差，仅适合分类等非生成任务，已经不是主流研究方向
仅解码器架构归纳偏见最少，是当前通用大模型的主流选择

详细精要

Transformer的核心本质：一种序列模型，通过注意力机制建模序列元素之间的语义交互
输入序列首先被token化为整数序列，再映射为稠密向量序列
注意力机制通过计算向量之间的点积判断语义相关性，建模序列内部的交互关系
三类Transformer架构的特性
编码器-解码器架构：原始Transformer的设计，包含独立的编码器（双向注意力）与解码器（因果注意力+交叉注意力）堆栈，早期多用于机器翻译等序列到序列任务，归纳偏见最强
仅编码器架构：以BERT为代表，只有编码器堆栈，输出固定长度的语义向量，多用于分类、语义理解等非生成任务，通用性差，当前已经不是主流
仅解码器架构：以GPT系列为代表，只有单一的解码器堆栈，采用因果注意力，通过拼接输入与目标序列实现序列到序列任务，归纳偏见最少，是当前通用大模型的主流选择

54:17 编码器-解码器与仅解码器架构的差异分析

本节重点

编码器-解码器相比仅解码器有四个额外的结构设计，对应四条强归纳偏见
四条归纳偏见仅适合早期的特定任务场景，在当前通用大模型场景下已经不再适用
仅解码器架构更适配长生成、多轮对话等现代大模型场景，工程效率也更高

详细精要

两类架构的四大结构差异
交叉注意力设计：编码器-解码器有独立的交叉注意力层，仅解码器用自注意力同时承担自注意力与交叉注意力的功能
参数共享机制：编码器-解码器的编码器与解码器参数独立，仅解码器的所有参数共享，同时处理输入与目标序列
目标对输入的注意力模式：编码器-解码器的所有解码器层都注意力编码器的最后一层输出，仅解码器的每一层注意力同层的输入序列表示
输入注意力方向：编码器-解码器的编码器采用双向注意力，仅解码器采用单向因果注意力
编码器-解码器归纳偏见的适用性分析
归纳偏见1：输入与目标序列差异大，需要独立参数处理：仅适合机器翻译、短目标的学术指令微调场景，当前通用大模型需要融合多语言、多模态知识，多轮对话中输入与目标会相互转换，该假设不再成立
归纳偏见2：目标序列只需要注意力编码器的最终层输出：层数较少时无明显影响，未来模型层数达到数千层时可能成为信息瓶颈
归纳偏见3：双向注意力可以提升语义理解性能：小模型下可以带来明显提升，大模型缩放后性能差异很小，且双向注意力在多轮对话场景下需要每次重新编码全量上下文，工程效率远低于单向因果注意力

01:05:54 Hyung Won Chung结论与问答环节

本节重点

当前大模型的核心瓶颈不是架构，而是最大似然估计的单正确答案假设
RLHF是弱结构学习目标的优秀尝试，但缩放性仍有不足
摩尔定律不是算力增长的核心限制，未来AI可以自主设计芯片维持算力的指数增长
人为引入的视觉不变性等归纳偏见可能限制模型的通用性，弱结构方法长期更优

详细精要

当前大模型的核心瓶颈：不是架构设计，而是传统监督学习的最大似然估计损失函数，该函数假设每个输入只有唯一正确的输出
封闭任务下该假设成立，但开放生成场景（如写诗、对话）下存在大量正确答案，单正确假设会严重限制模型的能力
RLHF是弱结构学习目标的优秀尝试，通过人类反馈训练奖励模型作为学习目标，无需预设正确答案，但目前RLHF的缩放性仍有不足，需要进一步优化
算力增长的可持续性：摩尔定律（晶体管密度翻倍）不是核心限制，计算可用性的增长仍将持续
低精度计算、专用AI芯片等技术可以继续提升算力的性价比
未来AI能力超过人类后，可以自主设计更高性能的芯片，继续维持算力的指数增长
其他研究问题的回应
状态空间模型等新架构：架构不是当前的核心瓶颈，Transformer已经足够通用，多模态场景可能需要新的架构调整
视觉任务的归纳偏见：CNN的平移不变性等人为设计的归纳偏见可能限制模型学习通用视觉能力，机器的视觉感知方式可能与人类完全不同，无需强行匹配人类的感知规则
混合专家架构：属于OpenAI未公开的技术细节，不便评论

💬 精华片段（中文） 我认为架构不是当前进一步缩放的瓶颈，现在的瓶颈是学习目标，尤其是监督学习范式，甚至是自监督预训练的目标。

"The architectures are not the current bottleneck in my view, and I think what's the bottleneck now is this learning objective, especially on the supervised learning paradigm, or even like self-supervised pre-training."

专业术语注释

术语	解释
Chain-of-Thought Prompting（思维链提示）	本集中Jason Wei提出的大模型提示方法，引导模型分步推理解决复杂问题，是大模型领域的核心技术之一
Instruction Tuning（指令微调）	用多任务的自然语言指令数据微调预训练大模型，提升模型遵循通用指令的能力，由Jason Wei等人推广
Emergent Phenomena（涌现现象）	大模型的能力特性，指特定任务的性能在模型规模增长到阈值后突然从接近随机大幅跃升，无法通过小模型表现预测
Next Word Prediction（下一词预测）	大语言模型的核心预训练任务，通过给定前文预测下一个词的概率训练模型，本质是超大规模多任务学习
Scaling Laws（缩放定律）	由Kaplan等人2020年提出的规律，大语言模型的损失随训练所用计算资源的增长平滑下降，趋势跨越7个数量级不会饱和
Big Bench（超越基准测试集）	包含200+不同难度NLP任务的测试集，用于评测大模型的各类能力
Inverse Scaling（逆缩放）	大模型的异常能力特性，指特定任务的性能随模型规模增长反而下降，多由子任务的缩放曲线差异导致
Encoder-Decoder Architecture（编码器-解码器架构）	原始Transformer的架构设计，包含独立的编码器和解码器堆栈，加入了输入目标分离等强归纳偏见，早期多用于机器翻译等任务
Decoder-Only Architecture（仅解码器架构）	GPT系列等通用大模型采用的架构，只有单一的解码器堆栈，归纳偏见更少，适配通用生成、多轮对话等现代场景
Encoder-Only Architecture（仅编码器架构）	BERT等早期预训练模型采用的架构，只有编码器堆栈，多用于分类、语义理解等非生成任务，通用性较差
Attention Mechanism（注意力机制）	Transformer的核心组件，通过计算序列元素之间的点积判断语义相关性，建模序列内部的交互
Causal Attention（因果注意力）	仅解码器架构采用的注意力模式，每个token只能注意力到当前位置及之前的token，适配生成任务的时序要求
Cross Attention（交叉注意力）	编码器-解码器架构的组件，实现解码器token对编码器输出的注意力，完成输入到输出的信息传递
Bidirectional Attention（双向注意力）	编码器采用的注意力模式，每个token可以注意力到序列中所有其他token，早期用于提升语义理解性能
FLAN（Fine-tuned Language Net）	由Hyung Won Chung等人主导的指令微调项目，通过大规模多任务指令微调大幅提升大模型的通用能力，代表模型包括FLAN-T5、FLAN-PaLM
RLHF（人类反馈强化学习）	大模型对齐技术，通过人类反馈训练奖励模型，再用强化学习微调大模型，无需预设唯一正确答案，相比传统监督学习归纳偏见更弱
Moore's Law（摩尔定律）	集成电路上可容纳的晶体管数量每两年翻一倍的历史规律，本集指出该定律不是AI算力增长的核心限制，计算可用性仍将持续提升
Maximum Likelihood Estimation（最大似然估计）	传统大模型预训练和微调的损失函数，假设给定输入只有唯一正确的输出，本集指出该强假设是当前大模型缩放的核心瓶颈之一

延伸思考

可进一步研究大模型涌现能力的前置信号，解决当前无法通过小模型损失或表现预测任务能力跃升的问题，降低大模型研发的不确定性。
探索比RLHF缩放性更强的弱结构学习目标，替代当前广泛使用的最大似然估计范式，适配通用大模型多正确答案、开放生成的场景需求。
跟踪专用AI加速芯片、AI辅助芯片设计的发展趋势，评估计算资源指数增长的可持续性，提前预判大模型缩放路径的潜在拐点。
验证仅解码器架构在多模态、长上下文等新兴场景下的适配性，判断是否需要为新场景引入新的归纳偏见，或是继续通过缩放解决问题。

原文发表：May 06, 2024 · 纪要生成：2026-03-03