▶ 原文链接

斯坦福CS25 第四季:OpenAI研究员Jason Wei与Hyung Won Chung分享大模型核心逻辑与AI发展规律

来源: YouTube | Jason Wei、Hyung Won Chung | 公开讲座 分类: OpenAI 原文发表: May 06, 2024 纪要生成: 2026-03-03


全集重点


嘉宾/话题简介

Jason Wei是OpenAI AI研究员,此前任职于谷歌大脑,是思维链提示、指令微调、大模型涌现现象等核心概念的提出者,本次分享围绕大语言模型的底层工作逻辑、缩放规律、涌现特性展开,给出AI研究的实操建议。 Hyung Won Chung是OpenAI ChatGPT团队研究科学家,此前任职于谷歌大脑,主导过FLAN-T5、FLAN-PaLM等知名大模型项目,本次分享从Transformer架构演化历史切入,解读AI发展的核心驱动力,分析不同架构的适用场景与未来演化方向。 本次讲座是斯坦福CS25(Transformer相关课程)的公开内容,面向AI领域研究者与学生,核心目标是帮助听众理解大模型的底层规律,建立面向长期的AI研究思维。


分节详述

00:00 Jason Wei开场与下一词预测本质

本节重点

详细精要

💬 精华片段(中文)

下一词预测任务的难度非常高,当你在整个数据库上训练这一任务时,模型会学到海量不同的任务。

"The point that I'm trying to make here is that, the next word prediction task is really challenging. So if you do this over the entire database you're going to learn a lot of tasks."


09:15 大模型缩放定律

本节重点

详细精要

💬 精华片段(中文)

如果缩放定律的曲线出现饱和,那么投入更多计算资源、训练更大的模型就不会再带来损失下降,但目前我们观测到的趋势完全没有饱和的迹象。

"The important thing about this is that the line does not go like that, because if it went like that, then it would saturate, and then putting more compute or training a larger language model wouldn't actually lead to lower loss."


13:41 任务能力涌现特性

本节重点

详细精要

💬 精华片段(中文)

如果你之前只训练过小模型,你会预判语言模型永远不可能完成这类任务,但实际上当你训练更大的模型时,它确实学会了完成任务,从这个角度来说涌现能力是非常难以预测的。

"Let's say you had only trained the small language models up to that point, you would have predicted that it would have been impossible for the language model to ever perform the task. But actually when you train the larger model, the language model does learn to perform the task, so in a sense it's pretty unpredictable."


20:22 逆缩放与U型缩放现象

本节重点

详细精要


24:42 Jason Wei问答环节

本节重点

详细精要


30:25 Hyung Won Chung开场与AI发展核心驱动力

本节重点

详细精要

💬 精华片段(中文)

过去70年的全部AI研究可以总结为:开发归纳偏见或建模假设越来越弱的通用方法,同时加入更多数据和算力,也就是缩放。

"Past 70 years of entire AI research can be summarized into developing progressively more general method with weaker modeling assumptions or inductive biases, and add more data and compute, in other words scale up."


45:16 Transformer三类架构对比

本节重点

详细精要


54:17 编码器-解码器与仅解码器架构的差异分析

本节重点

详细精要


01:05:54 Hyung Won Chung结论与问答环节

本节重点

详细精要

💬 精华片段(中文) 我认为架构不是当前进一步缩放的瓶颈,现在的瓶颈是学习目标,尤其是监督学习范式,甚至是自监督预训练的目标。

"The architectures are not the current bottleneck in my view, and I think what's the bottleneck now is this learning objective, especially on the supervised learning paradigm, or even like self-supervised pre-training."


专业术语注释

术语 解释
Chain-of-Thought Prompting(思维链提示) 本集中Jason Wei提出的大模型提示方法,引导模型分步推理解决复杂问题,是大模型领域的核心技术之一
Instruction Tuning(指令微调) 用多任务的自然语言指令数据微调预训练大模型,提升模型遵循通用指令的能力,由Jason Wei等人推广
Emergent Phenomena(涌现现象) 大模型的能力特性,指特定任务的性能在模型规模增长到阈值后突然从接近随机大幅跃升,无法通过小模型表现预测
Next Word Prediction(下一词预测) 大语言模型的核心预训练任务,通过给定前文预测下一个词的概率训练模型,本质是超大规模多任务学习
Scaling Laws(缩放定律) 由Kaplan等人2020年提出的规律,大语言模型的损失随训练所用计算资源的增长平滑下降,趋势跨越7个数量级不会饱和
Big Bench(超越基准测试集) 包含200+不同难度NLP任务的测试集,用于评测大模型的各类能力
Inverse Scaling(逆缩放) 大模型的异常能力特性,指特定任务的性能随模型规模增长反而下降,多由子任务的缩放曲线差异导致
Encoder-Decoder Architecture(编码器-解码器架构) 原始Transformer的架构设计,包含独立的编码器和解码器堆栈,加入了输入目标分离等强归纳偏见,早期多用于机器翻译等任务
Decoder-Only Architecture(仅解码器架构) GPT系列等通用大模型采用的架构,只有单一的解码器堆栈,归纳偏见更少,适配通用生成、多轮对话等现代场景
Encoder-Only Architecture(仅编码器架构) BERT等早期预训练模型采用的架构,只有编码器堆栈,多用于分类、语义理解等非生成任务,通用性较差
Attention Mechanism(注意力机制) Transformer的核心组件,通过计算序列元素之间的点积判断语义相关性,建模序列内部的交互
Causal Attention(因果注意力) 仅解码器架构采用的注意力模式,每个token只能注意力到当前位置及之前的token,适配生成任务的时序要求
Cross Attention(交叉注意力) 编码器-解码器架构的组件,实现解码器token对编码器输出的注意力,完成输入到输出的信息传递
Bidirectional Attention(双向注意力) 编码器采用的注意力模式,每个token可以注意力到序列中所有其他token,早期用于提升语义理解性能
FLAN(Fine-tuned Language Net) 由Hyung Won Chung等人主导的指令微调项目,通过大规模多任务指令微调大幅提升大模型的通用能力,代表模型包括FLAN-T5、FLAN-PaLM
RLHF(人类反馈强化学习) 大模型对齐技术,通过人类反馈训练奖励模型,再用强化学习微调大模型,无需预设唯一正确答案,相比传统监督学习归纳偏见更弱
Moore's Law(摩尔定律) 集成电路上可容纳的晶体管数量每两年翻一倍的历史规律,本集指出该定律不是AI算力增长的核心限制,计算可用性仍将持续提升
Maximum Likelihood Estimation(最大似然估计) 传统大模型预训练和微调的损失函数,假设给定输入只有唯一正确的输出,本集指出该强假设是当前大模型缩放的核心瓶颈之一

延伸思考

  1. 可进一步研究大模型涌现能力的前置信号,解决当前无法通过小模型损失或表现预测任务能力跃升的问题,降低大模型研发的不确定性。
  2. 探索比RLHF缩放性更强的弱结构学习目标,替代当前广泛使用的最大似然估计范式,适配通用大模型多正确答案、开放生成的场景需求。
  3. 跟踪专用AI加速芯片、AI辅助芯片设计的发展趋势,评估计算资源指数增长的可持续性,提前预判大模型缩放路径的潜在拐点。
  4. 验证仅解码器架构在多模态、长上下文等新兴场景下的适配性,判断是否需要为新场景引入新的归纳偏见,或是继续通过缩放解决问题。

原文发表:May 06, 2024  ·  纪要生成:2026-03-03