▶ 原文链接

语言模型如何泛化?参数学习与上下文学习的鸿沟及其弥合之道

来源: YouTube | Andrew Lampinen | May 20, 2026
播客: Stanford Online 分类: 其他
原文发表: May 20, 2026
纪要生成: 2026-06-22


全集重点


嘉宾/话题简介

Andrew LampinenAnthropic 的技术成员,此前曾在 Google DeepMind 担任研究科学家,在 斯坦福大学 获得认知心理学博士学位。他的研究连接人工智能与认知科学,聚焦语言模型和智能体的学习、泛化与表征。本场演讲中,他通过一系列受控实验,系统揭示语言模型从参数中提取的“固态知识”与从上下文临时获取的“即时知识”在泛化方式上的根本差异,并探讨了利用离线增强、在线检索和强化学习等策略来缩小这一差距的可能方案,最后将其投射到大脑海马体与新皮层的分工上去。


分节详述

00:00 开场引入与核心问题

本节重点

详细精要

💬 精华片段(中文) “What computational principles are shared across natural and artificial intelligence? … how do language models generalize from what they learn?” “自然智能与人工智能之间有哪些共享的计算原则?语言模型如何从所学的东西中泛化?”


01:35 两种学习方式:参数学习与上下文学习

本节重点

详细精要

💬 精华片段(中文) “One way they learn is that over a large training corpus, we optimize the network's parameters … The other … is their ability to learn from information in context.” “一种方式是在大型训练语料上优化网络参数以获得知识和技能;另一种是从上下文的信息中学习,这让人们最初对语言模型兴奋不已。”


02:38 实验起点:逆转诅咒与关系泛化断裂

本节重点

详细精要

💬 精华片段(中文) “If you try this experiment in the chat, the models are perfectly fine at it … is it possible that the way that models generalize from information that they encounter in their context is different from how they generalize from information they've stored in their parameters?” “如果在聊天界面做这个实验,模型完全没问题……有没有可能模型从上下文信息泛化的方式,与从参数中存储的信息泛化的方式不同?”


05:18 系统比较:微调 vs. 全数据集放在上下文

本节重点

详细精要

💬 精华片段(中文) “When you fine-tune the model on the relations in only one direction, it actually gets slightly worse than chance on these reversals. But if you just put the entire data set in context, the model is able to answer the reversals with 99% accuracy.” “当只对一个方向的关系进行微调时,模型在逆向上略低于随机;但若把整个数据集放入上下文,模型能以 99% 的准确率回答反向问题。”


07:54 为何差别如此之大?统计共现与结构性推理

本节重点

详细精要

💬 精华片段(中文) “They still get absolutely 0 generalization to the reversals. So this is really not just a phenomenon of fine-tuning. It's something more fundamental about how the models generalize from relational information in their training data.” “它们对逆反测试的泛化率依然是零。因此这不仅是微调现象,而是关于模型如何从训练数据中的关系信息泛化的更根本的问题。”


15:23 潜层信息与参数学习的固有限制

本节重点

详细精要

💬 精华片段(中文) “If you give the model enough statistical structure, it can skip the need for doing systematic reversals or syllogistic inferences and just generalize based on the word co-occurrences alone.” “如果给模型足够的统计结构,它就可以跳过进行系统性逆反或三段论推导的需要,仅凭词共现就完成泛化。”


23:47 弥合泛化鸿沟的方法:离线数据增强

本节重点

详细精要

💬 精华片段(中文) “The information is really there in the data already. It's just that we're taking information that's implicit, that's latent in the data, and we're extracting it out and making it explicit and easily accessible to the model.” “信息实际上已经在数据中了。我们只是把那些隐含的、潜层的信息提取出来,使其变得显式且易于模型获取。”


27:53 在线路径一:测试时情节检索

本节重点

详细精要

💬 精华片段(中文) “Even for documents that have been trained into the parameters, having that information available in context can allow the models to use it more flexibly and to answer questions better.” “即使文档已被训练进参数,让这些信息在上下文中显式可用,也能使模型更灵活地运用它们,更好地回答问题。”


32:07 在线路径二:利用强化学习自我生成上下文信息

本节重点

详细精要

💬 精华片段(中文) “Models can learn via reinforcement learning how to regenerate information that they need in context at test time. And this can help with some of the problems quite a lot, but doesn't necessarily help with all of them.” “模型可以通过强化学习学会在测试时再生所需的上下文信息,这对某些问题很有帮助,但不一定解决所有问题。”


37:27 三种方法的权衡总结

本节重点

详细精要

💬 精华片段(中文) “These methods have different trade-offs … doing train time augmentation … can achieve performance as good or better than in-context learning. Test time episodic retrieval … can also achieve good performance. And this RL-based method achieves good performance on many kinds of structures, but not all of them.” “这些方法有不同的权衡……训练时增强可获得与上下文学习相当或更优的性能。测试时情节检索也能达到良好性能。基于 RL 的方法在很多结构上表现良好,但不是全部。”


41:08 大图景:自然智能中的类似机制

本节重点

详细精要

💬 精华片段(中文) “It is possible that natural intelligence faces some of these same challenges … there might be evidence that natural intelligence also uses these different kinds of strategies to bridge the generalization gap, doing things like augmenting or training experiences offline and retrieving relevant information online.” “自然智能也可能面临同样的挑战……有证据表明,自然智能也采用类似策略来弥合泛化差距:比如离线增强或重组经验,以及在线检索相关信息。”


43:47 结论与总结合辑

本节重点

详细精要

💬 精华片段(中文) “We need both consolidated information … procedures for reasoning about information flexibly in context, and … episodic memory that preserves experiences in rich detail … some of the functions of parameters in the language models … and the things that we put in context for them.” “我们需要固化信息、在上下文中灵活推理的程序,以及保留丰富经历的情节记忆……这些可以看作语言模型参数的功能与我们在上下文中为其提供的东西。”


45:57 问答环节(精选部分)

本节重点

详细精要

💬 精华片段(中文) “The hippocampus does much more generative retrieval … many things you remember as episodic memories didn't actually happen … each time you think about it, it becomes a stronger encoding.” “海马体更多地进行生成式检索……你记得的许多情节记忆实际上并没有发生过,而每回想一次,记忆编码反而更强。”


专业术语注释

术语 解释
In-context Learning(上下文学习) 将任务示例或相关文档直接放入模型的上下文窗口,使其在无需更新参数的情况下即时学习并执行任务。
Fine-tuning(微调) 在预训练模型基础上,利用特定数据集继续训练,将新知识或技能固化到模型参数中。
Reversal Curse(逆转诅咒) 模型学会正向关系(如A是B的父亲)后,无法自动回答反向问题(B的父亲是谁)的现象,表明参数学习的方向依赖性。
Syllogistic Generalization(三段论泛化) 基于两个已知命题推导出第三命题的逻辑能力,常用来测试模型是否能进行系统性关系推理。
Parametric Learning(参数学习) 通过更新网络权重将知识编码进模型,通常指预训练或微调过程,依赖于大量数据上的梯度优化。
Episodic Memory(情节记忆) 对具体事件或经历的存储,文中指模拟海马体功能,将特定训练文档保存并在测试时检索回上下文。
Retrieval Augmented Generation (RAG)(检索增强生成) 结合外部知识库,在生成回答前检索相关文档并加入上下文,提升事实性和推理能力。
Reinforcement Learning (RL)(强化学习) 此处指让模型通过试错和奖励信号学习生成推理链,从而在测试时自主从参数化记忆中“回想”所需信息。
Hippocampus(海马体) 大脑中对新事件进行快速编码并参与记忆巩固和回放的脑区,被类比为情节记忆系统。
Neocortex(新皮层) 哺乳动物大脑皮层的主要部分,负责缓慢学习与感知、语言等高阶功能,被类比为参数化的统计学习系统。
Latent Information(潜层信息) 训练文档中未直接陈述,但可由显式内容合乎逻辑地推导出的隐含知识。
Online/Offline Replay(在线/离线重放) 神经科学概念,指海马体在行为中或在休息时重新激活记忆模式,类似“检索”或“预演”,用于巩固和重组知识。
Data Processing Inequality(数据处理不等式) 信息论原理,说明对已有信息进行变换不可能凭空增加信息量,被引用以讨论合成数据不能创造新知识的观点。
Scaling Law(缩放定律) 描述模型性能与模型大小、数据量、计算量等资源之间关系的经验规律。

延伸思考

原文发表:May 20, 2026  ·  纪要生成:2026-06-22