来源: YouTube | Jason Wei、Hyung Won Chung | 公开讲座 分类: OpenAI 原文发表: May 06, 2024 纪要生成: 2026-03-03
Jason Wei是OpenAI AI研究员,此前任职于谷歌大脑,是思维链提示、指令微调、大模型涌现现象等核心概念的提出者,本次分享围绕大语言模型的底层工作逻辑、缩放规律、涌现特性展开,给出AI研究的实操建议。 Hyung Won Chung是OpenAI ChatGPT团队研究科学家,此前任职于谷歌大脑,主导过FLAN-T5、FLAN-PaLM等知名大模型项目,本次分享从Transformer架构演化历史切入,解读AI发展的核心驱动力,分析不同架构的适用场景与未来演化方向。 本次讲座是斯坦福CS25(Transformer相关课程)的公开内容,面向AI领域研究者与学生,核心目标是帮助听众理解大模型的底层规律,建立面向长期的AI研究思维。
本节重点 - 提倡通过手动检查数据建立对任务的直觉,是AI研究的核心有效方法 - 大语言模型的核心训练目标是下一词预测,本质是超大规模多任务学习 - 下一词预测覆盖从语法、世界知识到推理的海量细分任务,难度极高
详细精要
该方法同样适用于大语言模型研究,手动分析训练数据与模型输出可帮助研究者发现模型的底层逻辑
下一词预测的任务定义:大语言模型的核心预训练任务是给定前文序列,输出词表中每个词作为下一个词的概率,训练目标是让正确词的概率尽可能接近1
损失函数衡量的是正确下一词的预测概率与1的差距,训练目标是最小化该损失
下一词预测的多任务本质:该任务天然覆盖千万级不同类型的细分任务,是极致的多任务学习
💬 精华片段(中文)
下一词预测任务的难度非常高,当你在整个数据库上训练这一任务时,模型会学到海量不同的任务。
"The point that I'm trying to make here is that, the next word prediction task is really challenging. So if you do this over the entire database you're going to learn a lot of tasks."
本节重点 - 大模型损失与训练所用计算资源呈平滑负相关,该规律由Kaplan等人2020年提出,被称为缩放定律 - 缩放定律的趋势跨越7个数量级,无饱和迹象,可通过投入的计算量预测模型最终损失 - 大模型相比小模型的核心优势是可存储更多长尾知识、学习更复杂的推理规则
详细精要
只要持续提升计算投入,就可以稳定预测模型的损失下降,是当前大模型研发的核心指导规律
大模型性能优于小模型的底层原因:参数量提升带来了两方面核心能力增益
💬 精华片段(中文)
如果缩放定律的曲线出现饱和,那么投入更多计算资源、训练更大的模型就不会再带来损失下降,但目前我们观测到的趋势完全没有饱和的迹象。
"The important thing about this is that the line does not go like that, because if it went like that, then it would saturate, and then putting more compute or training a larger language model wouldn't actually lead to lower loss."
本节重点 - 大模型整体损失平滑下降的前提下,不同任务的性能提升速率存在显著差异 - 对202个Big Bench任务的统计显示,33%的任务符合涌现特性,能力会在模型规模突破阈值后突然跃升 - 涌现特性导致小模型下的性能表现无法预测大模型的能力,大幅提升了大模型研发的意外性
详细精要
数学推理、复杂知识问答等困难任务的损失不会快速饱和,大模型相比小模型在这类任务上的提升非常显著
Big Bench任务的缩放曲线分布:Jason Wei对202个Big Bench任务的缩放曲线做了统计,可分为5类
33%的任务为涌现能力:小模型下性能接近随机,当模型规模突破某个阈值后,性能突然大幅跃升,远高于随机水平
涌现能力的核心影响:无法通过小模型的性能表现预测该任务是否能被大模型解决,导致很多能力在出现前完全无法预判
💬 精华片段(中文)
如果你之前只训练过小模型,你会预判语言模型永远不可能完成这类任务,但实际上当你训练更大的模型时,它确实学会了完成任务,从这个角度来说涌现能力是非常难以预测的。
"Let's say you had only trained the small language models up to that point, you would have predicted that it would have been impossible for the language model to ever perform the task. But actually when you train the larger model, the language model does learn to perform the task, so in a sense it's pretty unpredictable."
本节重点 - 逆缩放/U型缩放是指部分任务的性能随模型规模增长先下降后上升,呈现U型曲线 - 该现象可通过拆解为多个子任务的缩放曲线差异解释,并非反缩放定律的异常现象 - 给研究者的核心建议是要绘制研究项目的缩放曲线,判断后续优化的空间
详细精要
大模型输出正确答案glib,性能回到100%,整体呈现U型缩放曲线
逆缩放现象的底层原因:该任务可拆解为三个子任务,不同子任务的缩放曲线不同,叠加后形成U型曲线
叠加后:超小模型只能完成重复任务,输出正确;中等模型能完成修正名言但不能遵循指令,输出错误;大模型能完成所有任务,输出正确
给研究者的实操建议:做研究项目时一定要绘制缩放曲线,判断后续优化的潜力
本节重点 - 预训练数据过滤的核心方法是筛选可靠来源的高质量数据 - 模型深度提升可增强推理能力,宽度提升可增强知识记忆能力,共同推动涌现 - 大模型涌现能力是真实存在的,并非度量选择导致的幻象 - 当前大模型的核心瓶颈仍是数据量与计算量的规模
详细精要
本节重点 - 面向AI未来研究的核心方法是研究变化本身,识别主导驱动力即可预测发展趋势 - AI领域的核心主导驱动力是计算成本的指数级下降,每5年相同成本可获得10倍算力 - 苦涩教训(Bitter Lesson)是70年AI研究的核心总结:减少归纳偏见、提升缩放性的方法才是长期最优解
详细精要
通用场景下预测难度高是因为主导驱动力数量多、交互复杂,但AI领域属于主导驱动力明确的窄域场景
AI领域的核心主导驱动力:计算成本的指数级下降,相同成本每5年可获得10倍的算力,该趋势已经持续超过100年,是所有AI发展的核心基础
正确的研究路径是尽可能利用算力增长的趋势,选择归纳偏见弱、缩放性强的方法,长期收益更高
苦涩教训的核心结论:过去70年的AI研究本质是不断开发归纳偏见更弱、通用性更强的方法,同时增加数据与算力投入的过程
💬 精华片段(中文)
过去70年的全部AI研究可以总结为:开发归纳偏见或建模假设越来越弱的通用方法,同时加入更多数据和算力,也就是缩放。
"Past 70 years of entire AI research can be summarized into developing progressively more general method with weaker modeling assumptions or inductive biases, and add more data and compute, in other words scale up."
本节重点 - Transformer可分为三类架构:编码器-解码器、仅编码器、仅解码器,归纳偏见依次减弱 - 仅编码器架构通用性差,仅适合分类等非生成任务,已经不是主流研究方向 - 仅解码器架构归纳偏见最少,是当前通用大模型的主流选择
详细精要
注意力机制通过计算向量之间的点积判断语义相关性,建模序列内部的交互关系
三类Transformer架构的特性
本节重点 - 编码器-解码器相比仅解码器有四个额外的结构设计,对应四条强归纳偏见 - 四条归纳偏见仅适合早期的特定任务场景,在当前通用大模型场景下已经不再适用 - 仅解码器架构更适配长生成、多轮对话等现代大模型场景,工程效率也更高
详细精要
输入注意力方向:编码器-解码器的编码器采用双向注意力,仅解码器采用单向因果注意力
编码器-解码器归纳偏见的适用性分析
本节重点 - 当前大模型的核心瓶颈不是架构,而是最大似然估计的单正确答案假设 - RLHF是弱结构学习目标的优秀尝试,但缩放性仍有不足 - 摩尔定律不是算力增长的核心限制,未来AI可以自主设计芯片维持算力的指数增长 - 人为引入的视觉不变性等归纳偏见可能限制模型的通用性,弱结构方法长期更优
详细精要
RLHF是弱结构学习目标的优秀尝试,通过人类反馈训练奖励模型作为学习目标,无需预设正确答案,但目前RLHF的缩放性仍有不足,需要进一步优化
算力增长的可持续性:摩尔定律(晶体管密度翻倍)不是核心限制,计算可用性的增长仍将持续
未来AI能力超过人类后,可以自主设计更高性能的芯片,继续维持算力的指数增长
其他研究问题的回应
💬 精华片段(中文) 我认为架构不是当前进一步缩放的瓶颈,现在的瓶颈是学习目标,尤其是监督学习范式,甚至是自监督预训练的目标。
"The architectures are not the current bottleneck in my view, and I think what's the bottleneck now is this learning objective, especially on the supervised learning paradigm, or even like self-supervised pre-training."
| 术语 | 解释 |
|---|---|
| Chain-of-Thought Prompting(思维链提示) | 本集中Jason Wei提出的大模型提示方法,引导模型分步推理解决复杂问题,是大模型领域的核心技术之一 |
| Instruction Tuning(指令微调) | 用多任务的自然语言指令数据微调预训练大模型,提升模型遵循通用指令的能力,由Jason Wei等人推广 |
| Emergent Phenomena(涌现现象) | 大模型的能力特性,指特定任务的性能在模型规模增长到阈值后突然从接近随机大幅跃升,无法通过小模型表现预测 |
| Next Word Prediction(下一词预测) | 大语言模型的核心预训练任务,通过给定前文预测下一个词的概率训练模型,本质是超大规模多任务学习 |
| Scaling Laws(缩放定律) | 由Kaplan等人2020年提出的规律,大语言模型的损失随训练所用计算资源的增长平滑下降,趋势跨越7个数量级不会饱和 |
| Big Bench(超越基准测试集) | 包含200+不同难度NLP任务的测试集,用于评测大模型的各类能力 |
| Inverse Scaling(逆缩放) | 大模型的异常能力特性,指特定任务的性能随模型规模增长反而下降,多由子任务的缩放曲线差异导致 |
| Encoder-Decoder Architecture(编码器-解码器架构) | 原始Transformer的架构设计,包含独立的编码器和解码器堆栈,加入了输入目标分离等强归纳偏见,早期多用于机器翻译等任务 |
| Decoder-Only Architecture(仅解码器架构) | GPT系列等通用大模型采用的架构,只有单一的解码器堆栈,归纳偏见更少,适配通用生成、多轮对话等现代场景 |
| Encoder-Only Architecture(仅编码器架构) | BERT等早期预训练模型采用的架构,只有编码器堆栈,多用于分类、语义理解等非生成任务,通用性较差 |
| Attention Mechanism(注意力机制) | Transformer的核心组件,通过计算序列元素之间的点积判断语义相关性,建模序列内部的交互 |
| Causal Attention(因果注意力) | 仅解码器架构采用的注意力模式,每个token只能注意力到当前位置及之前的token,适配生成任务的时序要求 |
| Cross Attention(交叉注意力) | 编码器-解码器架构的组件,实现解码器token对编码器输出的注意力,完成输入到输出的信息传递 |
| Bidirectional Attention(双向注意力) | 编码器采用的注意力模式,每个token可以注意力到序列中所有其他token,早期用于提升语义理解性能 |
| FLAN(Fine-tuned Language Net) | 由Hyung Won Chung等人主导的指令微调项目,通过大规模多任务指令微调大幅提升大模型的通用能力,代表模型包括FLAN-T5、FLAN-PaLM |
| RLHF(人类反馈强化学习) | 大模型对齐技术,通过人类反馈训练奖励模型,再用强化学习微调大模型,无需预设唯一正确答案,相比传统监督学习归纳偏见更弱 |
| Moore's Law(摩尔定律) | 集成电路上可容纳的晶体管数量每两年翻一倍的历史规律,本集指出该定律不是AI算力增长的核心限制,计算可用性仍将持续提升 |
| Maximum Likelihood Estimation(最大似然估计) | 传统大模型预训练和微调的损失函数,假设给定输入只有唯一正确的输出,本集指出该强假设是当前大模型缩放的核心瓶颈之一 |