▶ 原文链接

斯坦福CS25 第四季:OpenAI研究员Jason Wei与Hyung Won Chung分享大模型核心逻辑与AI发展规律

来源: YouTube | Jason Wei、Hyung Won Chung | 公开讲座 分类: OpenAI 原文发表: May 06, 2024 纪要生成: 2026-03-03


全集重点


嘉宾/话题简介

Jason Wei是OpenAI AI研究员,此前任职于谷歌大脑,是思维链提示、指令微调、大模型涌现现象等核心概念的提出者,本次分享围绕大语言模型的底层工作逻辑、缩放规律、涌现特性展开,给出AI研究的实操建议。 Hyung Won Chung是OpenAI ChatGPT团队研究科学家,此前任职于谷歌大脑,主导过FLAN-T5、FLAN-PaLM等知名大模型项目,本次分享从Transformer架构演化历史切入,解读AI发展的核心驱动力,分析不同架构的适用场景与未来演化方向。 本次讲座是斯坦福CS25(Transformer相关课程)的公开内容,面向AI领域研究者与学生,核心目标是帮助听众理解大模型的底层规律,建立面向长期的AI研究思维。


分节详述

00:00 Jason Wei开场与下一词预测本质

本节重点 - 提倡通过手动检查数据建立对任务的直觉,是AI研究的核心有效方法 - 大语言模型的核心训练目标是下一词预测,本质是超大规模多任务学习 - 下一词预测覆盖从语法、世界知识到推理的海量细分任务,难度极高

详细精要

💬 精华片段(中文)

下一词预测任务的难度非常高,当你在整个数据库上训练这一任务时,模型会学到海量不同的任务。

"The point that I'm trying to make here is that, the next word prediction task is really challenging. So if you do this over the entire database you're going to learn a lot of tasks."


09:15 大模型缩放定律

本节重点 - 大模型损失与训练所用计算资源呈平滑负相关,该规律由Kaplan等人2020年提出,被称为缩放定律 - 缩放定律的趋势跨越7个数量级,无饱和迹象,可通过投入的计算量预测模型最终损失 - 大模型相比小模型的核心优势是可存储更多长尾知识、学习更复杂的推理规则

详细精要

💬 精华片段(中文)

如果缩放定律的曲线出现饱和,那么投入更多计算资源、训练更大的模型就不会再带来损失下降,但目前我们观测到的趋势完全没有饱和的迹象。

"The important thing about this is that the line does not go like that, because if it went like that, then it would saturate, and then putting more compute or training a larger language model wouldn't actually lead to lower loss."


13:41 任务能力涌现特性

本节重点 - 大模型整体损失平滑下降的前提下,不同任务的性能提升速率存在显著差异 - 对202个Big Bench任务的统计显示,33%的任务符合涌现特性,能力会在模型规模突破阈值后突然跃升 - 涌现特性导致小模型下的性能表现无法预测大模型的能力,大幅提升了大模型研发的意外性

详细精要

💬 精华片段(中文)

如果你之前只训练过小模型,你会预判语言模型永远不可能完成这类任务,但实际上当你训练更大的模型时,它确实学会了完成任务,从这个角度来说涌现能力是非常难以预测的。

"Let's say you had only trained the small language models up to that point, you would have predicted that it would have been impossible for the language model to ever perform the task. But actually when you train the larger model, the language model does learn to perform the task, so in a sense it's pretty unpredictable."


20:22 逆缩放与U型缩放现象

本节重点 - 逆缩放/U型缩放是指部分任务的性能随模型规模增长先下降后上升,呈现U型曲线 - 该现象可通过拆解为多个子任务的缩放曲线差异解释,并非反缩放定律的异常现象 - 给研究者的核心建议是要绘制研究项目的缩放曲线,判断后续优化的空间

详细精要


24:42 Jason Wei问答环节

本节重点 - 预训练数据过滤的核心方法是筛选可靠来源的高质量数据 - 模型深度提升可增强推理能力,宽度提升可增强知识记忆能力,共同推动涌现 - 大模型涌现能力是真实存在的,并非度量选择导致的幻象 - 当前大模型的核心瓶颈仍是数据量与计算量的规模

详细精要


30:25 Hyung Won Chung开场与AI发展核心驱动力

本节重点 - 面向AI未来研究的核心方法是研究变化本身,识别主导驱动力即可预测发展趋势 - AI领域的核心主导驱动力是计算成本的指数级下降,每5年相同成本可获得10倍算力 - 苦涩教训(Bitter Lesson)是70年AI研究的核心总结:减少归纳偏见、提升缩放性的方法才是长期最优解

详细精要

💬 精华片段(中文)

过去70年的全部AI研究可以总结为:开发归纳偏见或建模假设越来越弱的通用方法,同时加入更多数据和算力,也就是缩放。

"Past 70 years of entire AI research can be summarized into developing progressively more general method with weaker modeling assumptions or inductive biases, and add more data and compute, in other words scale up."


45:16 Transformer三类架构对比

本节重点 - Transformer可分为三类架构:编码器-解码器、仅编码器、仅解码器,归纳偏见依次减弱 - 仅编码器架构通用性差,仅适合分类等非生成任务,已经不是主流研究方向 - 仅解码器架构归纳偏见最少,是当前通用大模型的主流选择

详细精要


54:17 编码器-解码器与仅解码器架构的差异分析

本节重点 - 编码器-解码器相比仅解码器有四个额外的结构设计,对应四条强归纳偏见 - 四条归纳偏见仅适合早期的特定任务场景,在当前通用大模型场景下已经不再适用 - 仅解码器架构更适配长生成、多轮对话等现代大模型场景,工程效率也更高

详细精要


01:05:54 Hyung Won Chung结论与问答环节

本节重点 - 当前大模型的核心瓶颈不是架构,而是最大似然估计的单正确答案假设 - RLHF是弱结构学习目标的优秀尝试,但缩放性仍有不足 - 摩尔定律不是算力增长的核心限制,未来AI可以自主设计芯片维持算力的指数增长 - 人为引入的视觉不变性等归纳偏见可能限制模型的通用性,弱结构方法长期更优

详细精要

💬 精华片段(中文) 我认为架构不是当前进一步缩放的瓶颈,现在的瓶颈是学习目标,尤其是监督学习范式,甚至是自监督预训练的目标。

"The architectures are not the current bottleneck in my view, and I think what's the bottleneck now is this learning objective, especially on the supervised learning paradigm, or even like self-supervised pre-training."


专业术语注释

术语 解释
Chain-of-Thought Prompting(思维链提示) 本集中Jason Wei提出的大模型提示方法,引导模型分步推理解决复杂问题,是大模型领域的核心技术之一
Instruction Tuning(指令微调) 用多任务的自然语言指令数据微调预训练大模型,提升模型遵循通用指令的能力,由Jason Wei等人推广
Emergent Phenomena(涌现现象) 大模型的能力特性,指特定任务的性能在模型规模增长到阈值后突然从接近随机大幅跃升,无法通过小模型表现预测
Next Word Prediction(下一词预测) 大语言模型的核心预训练任务,通过给定前文预测下一个词的概率训练模型,本质是超大规模多任务学习
Scaling Laws(缩放定律) 由Kaplan等人2020年提出的规律,大语言模型的损失随训练所用计算资源的增长平滑下降,趋势跨越7个数量级不会饱和
Big Bench(超越基准测试集) 包含200+不同难度NLP任务的测试集,用于评测大模型的各类能力
Inverse Scaling(逆缩放) 大模型的异常能力特性,指特定任务的性能随模型规模增长反而下降,多由子任务的缩放曲线差异导致
Encoder-Decoder Architecture(编码器-解码器架构) 原始Transformer的架构设计,包含独立的编码器和解码器堆栈,加入了输入目标分离等强归纳偏见,早期多用于机器翻译等任务
Decoder-Only Architecture(仅解码器架构) GPT系列等通用大模型采用的架构,只有单一的解码器堆栈,归纳偏见更少,适配通用生成、多轮对话等现代场景
Encoder-Only Architecture(仅编码器架构) BERT等早期预训练模型采用的架构,只有编码器堆栈,多用于分类、语义理解等非生成任务,通用性较差
Attention Mechanism(注意力机制) Transformer的核心组件,通过计算序列元素之间的点积判断语义相关性,建模序列内部的交互
Causal Attention(因果注意力) 仅解码器架构采用的注意力模式,每个token只能注意力到当前位置及之前的token,适配生成任务的时序要求
Cross Attention(交叉注意力) 编码器-解码器架构的组件,实现解码器token对编码器输出的注意力,完成输入到输出的信息传递
Bidirectional Attention(双向注意力) 编码器采用的注意力模式,每个token可以注意力到序列中所有其他token,早期用于提升语义理解性能
FLAN(Fine-tuned Language Net) 由Hyung Won Chung等人主导的指令微调项目,通过大规模多任务指令微调大幅提升大模型的通用能力,代表模型包括FLAN-T5、FLAN-PaLM
RLHF(人类反馈强化学习) 大模型对齐技术,通过人类反馈训练奖励模型,再用强化学习微调大模型,无需预设唯一正确答案,相比传统监督学习归纳偏见更弱
Moore's Law(摩尔定律) 集成电路上可容纳的晶体管数量每两年翻一倍的历史规律,本集指出该定律不是AI算力增长的核心限制,计算可用性仍将持续提升
Maximum Likelihood Estimation(最大似然估计) 传统大模型预训练和微调的损失函数,假设给定输入只有唯一正确的输出,本集指出该强假设是当前大模型缩放的核心瓶颈之一

延伸思考

  1. 可进一步研究大模型涌现能力的前置信号,解决当前无法通过小模型损失或表现预测任务能力跃升的问题,降低大模型研发的不确定性。
  2. 探索比RLHF缩放性更强的弱结构学习目标,替代当前广泛使用的最大似然估计范式,适配通用大模型多正确答案、开放生成的场景需求。
  3. 跟踪专用AI加速芯片、AI辅助芯片设计的发展趋势,评估计算资源指数增长的可持续性,提前预判大模型缩放路径的潜在拐点。
  4. 验证仅解码器架构在多模态、长上下文等新兴场景下的适配性,判断是否需要为新场景引入新的归纳偏见,或是继续通过缩放解决问题。

原文发表:May 06, 2024  ·  纪要生成:2026-03-03