LLM Agents MOOC | UC伯克利CS294-196 2024秋季学期：LLM智能体的历史与概述

来源： YouTube | Shunyu Yao（姚顺雨） | Sep 17, 2024 分类： AI 研究 原文发表： Sep 17, 2024 纪要生成： 2026-03-03

全集重点

[LLM智能体定义]：明确文本智能体、LLM智能体、推理智能体三层概念的差异与演进逻辑
[ReAct范式核心]：提出推理+行动的协同框架，是推理智能体的核心实现逻辑，跨领域通用
[智能体范式变革]：对比符号AI、深度RL智能体，LLM推理智能体以自然语言为中间表示，通用性更强
[核心技术方向]：长时记忆是推理智能体的核心扩展能力，可实现经验跨任务复用，提升长期效率
[未来研究方向]：提出训练、接口、鲁棒性、人在回路、基准测试五大核心研究方向，适合学界探索

嘉宾/话题简介

姚顺雨是ReAct、Reflexion等知名LLM智能体项目的核心研究者，本次讲座是UC伯克利2024秋季CS294-196课程的公开授课内容。本次讲座系统梳理了LLM智能体的定义、发展历史、核心技术范式，对比了其与传统智能体的本质差异。同时分享了当前LLM智能体的落地应用场景，以及未来值得探索的五大研究方向，适合AI领域研究者、从业者参考。

分节详述

00:00 开场与LLM智能体的定义

本节重点

本次讲座核心涵盖LLM智能体定义、发展历史、未来方向三大模块
拆解智能体的核心组成：与环境交互的智能系统，环境定义随场景变化
提出三层智能体概念：文本智能体、LLM智能体、推理智能体
LLM出现前的文本智能体存在通用性差、落地成本高的核心局限

详细精要

智能体的核心定义：AI领域的智能体是可与环境交互的智能系统，"智能"的定义随技术发展动态变化
按交互环境可分为物理环境智能体（如机器人、自动驾驶汽车）、数字环境智能体（如游戏AI、聊天机器人）
"智能"的定义随AI技术迭代动态调整，60年前3行规则实现的聊天机器人即可被视为智能，当前ChatGPT也已不再具有稀缺性
三层智能体的分级定义：从底层到上层依次为文本智能体、LLM智能体、推理智能体，边界清晰
文本智能体：与环境的交互输入输出均为自然语言，早在上世纪60年代就已出现，无需依赖LLM
LLM智能体：基于LLM实现行动能力的文本智能体，无需具备推理能力
推理智能体：基于LLM开展推理进而采取行动的智能体，是当前行业的核心研究方向
LLM出现前的文本智能体技术局限：规则式、RL式文本智能体均存在通用性差、落地成本高的问题
规则式智能体如1960年代的ELIZA聊天机器人，依赖人工编写规则，任务专属，无法跨简单场景落地
RL式文本智能体依赖 reward 信号优化，每个新场景需单独训练，训练成本高，且多数任务缺乏可规模化的 reward 信号
LLM对文本智能体的变革价值：基于大规模文本语料的next-token预训练，推理阶段可通过prompt适配多类新任务
无需针对每个新任务编写规则或重新训练，天然具备跨场景通用的潜力
强大的语义理解与特征学习能力，为构建通用智能体提供了基础支撑

💬 精华片段（中文）

纵观AI发展历史，"智能"的定义往往随时间不断变化。60年前，用三行规则实现的基础聊天机器人就可以被视为智能，但如今即使是ChatGPT也不再让人感到惊喜。

"And what's really interesting is that throughout the history of AI, the definition of what's "intelligent" often changes across time. So like 60 years ago, if you have a very basic chat bot using three lines of rule, then it can be seen intelligent. But right now, even ChatGPT is not surprising anymore."

06:23 LLM智能体的发展历史与核心范式演进

本节重点

LLM的发展始于2020年GPT-3的发布，后续推理、行动两类技术方向逐步融合形成推理智能体
传统QA任务存在推理、知识、计算三类瓶颈，对应催生思维链、RAG、工具调用等解决方案
ReAct范式实现推理与行动的协同，既通过行动获取外部信息，也通过推理指导行动调整

详细精要

LLM智能体的发展脉络：2020年GPT-3发布后，推理、行动两类技术方向逐步融合形成推理智能体
推理方向聚焦符号问答等需要逻辑推导的任务，诞生了思维链等技术
行动方向聚焦游戏、机器人等需要与环境交互的任务，探索LLM在交互场景的落地
两类方向融合后形成推理智能体范式，后续向更多应用场景、更多技术方向（记忆、规划、多智能体等）扩展
QA任务的三类核心瓶颈与对应解决方案：传统LLM直接输出答案的方式无法覆盖复杂QA场景，催生三类技术
推理瓶颈：复杂逻辑题无法直接输出答案，催生思维链（Chain-of-Thought）技术，通过分步推理提升准确率
知识瓶颈：训练截止日期后的信息、专有领域信息无法获取，催生检索增强生成（RAG）技术，通过检索外部语料补充上下文
计算瓶颈：复杂数学计算、程序运行等需求无法通过自回归生成满足，催生工具调用技术，通过调用计算器、API等外部工具获取结果
传统QA解决方案的局限性：不同解决方案仅针对单一瓶颈，缺乏统一抽象，场景适配成本高
工具调用需要模型学习特殊的调用格式，通常需要微调才能实现多轮工具调用，落地门槛高
不同QA基准需要定制不同解决方案，缺乏通用框架适配多类QA场景
ReAct范式的核心逻辑：实现推理（Thought）、行动（Action）、观察（Observation）的多轮循环，兼顾推理能力与外部信息获取能力
具体流程：模型先输出思考内容，再输出对应行动，行动调用外部环境后返回观察结果，三者追加到上下文后进入下一轮循环，直到完成任务
支持1-shot、few-shot prompt实现，也可通过大量轨迹数据微调模型，适配不同落地场景
ReAct范式的协同价值：推理与行动相互赋能，大幅提升任务完成能力
行动为推理提供实时信息、计算能力等外部支撑，解决LLM的知识截止、计算能力不足问题
推理为行动提供规划、调整能力，遇到异常情况时可重新规划行动路径，适配动态环境

💬 精华片段（中文）

ReAct的理念非常简单，就是同时生成推理内容和行动，二者可以产生协同效应：推理可以指导行动，行动也可以辅助推理。这是非常符合人类解决问题的方式，跨领域具备通用性。

"So the idea of this word called ReAct is actually very simple. So you have this two paradigm, reasoning and acting. And before we act, language models are either generating reasoning or acting. And for ReAct, the idea is to just generate both. And we will see that it's actually a great way to synergize both in the sense that reasoning can help acting, and acting can help reasoning. And it's actually quite simple, intuitive. You will see later is actually-- you can argue that's how I solved the task or you solve the task. It's a very human way to solve the task, and it's very general across the domain."

26:06 LLM智能体的核心技术：长时记忆

本节重点

LLM的上下文窗口属于短时记忆，存在仅追加、容量有限、不跨任务持久化三类局限
长时记忆允许智能体存储过往经验、知识、技能，跨任务复用，大幅提升任务效率
长时记忆有多种实现形式，包括Reflexion的反思记忆、VOYAGER的代码技能记忆、生成式智能体的情景/语义记忆等

详细精要

LLM短时记忆的核心局限：上下文窗口作为短时记忆，无法支撑长周期、跨任务的智能体需求
仅支持追加操作，无法删除或修改已有的上下文内容
容量有限，即使未来扩展到1000万token，也存在注意力分散的问题，无法处理超长周期任务
不具备跨任务持久化能力，本次对话的经验无法复用到下一次任务，类似只有3秒记忆的金鱼
长时记忆的核心价值：类似人类的日记、笔记等存储机制，可持久化重要经验、知识、技能，跨任务复用
无需每次任务都从零开始解决，只需读取过往存储的相关经验即可提升效率
支持多种形式的反馈信息存储，不受限于RL的标量reward信号
典型长时记忆实现方案：当前已有多类成熟的长时记忆实现，适配不同场景需求
Reflexion：针对编码等有明确反馈的任务，将任务失败的原因、改进方向作为反思内容存入长时记忆，后续任务可读取相关内容避免重复犯错
VOYAGER：面向Minecraft等游戏场景，将可复用的技能代码存入长时记忆，后续需要相关能力时直接调用，无需从零实现
生成式智能体：面向虚拟小镇社交场景，存储两类长时记忆：情景记忆（每小时发生的事件日志）、语义记忆（从经验中总结的对他人、自我的认知），用于指导后续社交行为
长时记忆与模型微调的统一抽象：模型参数微调与外部长时记忆本质上都是智能体的长期信息存储方式
模型微调是通过更新神经网络参数存储信息，外部长时记忆是通过文本、代码等显式内容存储信息
CoALA论文提出，所有智能体都可以抽象为三个核心模块：信息存储的记忆模块、可执行的动作空间、动作选择的决策流程，可覆盖所有智能体的设计
智能体的边界讨论问题：数字智能体的内部/外部、长时/短时记忆的边界定义存在模糊性，值得深入探索
外部环境与内部记忆的边界：智能体在Google Doc中写入内容，属于修改外部环境的行动还是存入长时记忆？检索互联网内容属于调用工具还是读取外部长时记忆？
长时/短时记忆的边界：如果LLM的上下文窗口扩展到1000万token，是否可以被视为长时记忆？这类概念原本来自人类心理学，需要适配数字智能体场景重新定义

💬 精华片段（中文）

我想做一个类比，推理智能体现在就像金鱼，民间说法认为金鱼只有3秒记忆，你就算解决了黎曼假设这样的重大问题，如果记不住，下次还是要从零开始解，这非常可惜。

"So I think, another one I want to make is it's like a golden fish. So folk wisdom is, a golden fish only has three seconds of memory. So you can solve something remarkable. But if you cannot remember it, then you have to solve it again. And it's really a shame."

38:19 与传统智能体范式的对比

本节重点

智能体发展经历了符号AI智能体、深度RL智能体、LLM推理智能体三个核心阶段
三类智能体的核心差异在于从观测到行动的中间表示不同，分别是符号状态、神经网络嵌入、自然语言
LLM推理智能体的自然语言中间表示具备预训练先验丰富、通用性强、支持推理时长扩展的优势，远超前两代智能体

详细精要

智能体技术的三代演进脉络：从AI诞生至今，智能体技术经历了三个核心发展阶段
第一阶段：符号AI智能体，通过人工编写规则、专家系统实现与环境的交互，后续进入AI冬天发展停滞
第二阶段：深度RL智能体，通过神经网络训练优化reward，在Atari游戏、AlphaGo等场景取得突破，但通用性差
第三阶段：LLM推理智能体，基于大语言模型实现，是当前最新的智能体范式
三类智能体的核心差异：中间表示的不同，导致三类智能体的通用性、落地成本存在本质差异
符号AI智能体：先将观测映射为符号状态，再通过逻辑规则推导行动，需要人工编写大量规则，任务专属，无法跨场景复用
深度RL智能体：将观测映射为神经网络嵌入向量，再通过模型推导行动，需要百万级步长的训练，任务专属，跨场景迁移能力差
LLM推理智能体：将观测映射为自然语言，通过思考推导行动，天然具备LLM的大规模预训练先验，通用性强，可通过prompt快速适配多类场景
LLM推理智能体的独特优势：自然语言作为中间表示，带来前两代智能体不具备的特性
无需大量人工规则或训练成本，通过prompt即可快速搭建智能体，落地门槛低
支持任意长度的推理过程，可通过多轮思考解决复杂长周期任务，实现推理时长的灵活扩展
可覆盖从自动驾驶、游戏到购房决策等几乎所有场景，通用性远超前两代智能体

💬 精华片段（中文）

推理智能体的本质差异在于，你使用自然语言作为处理观测到行动的中间表示，而不是神经网络嵌入或者符号状态，这是人类处理问题的方式。

"And in some sense, was what's different for language agent or reasoning agent is that you are literally using language as the intermediate representation to process observation to action. Like, instead of this new neural embedding or this kind of symbolic state, you're literally thinking, language, which is the human way of doing things."

43:33 LLM智能体的应用场景扩展

本节重点

LLM智能体的应用从QA、游戏等传统场景，扩展到数字自动化、科学发现等全新场景，价值大幅提升
任务基准的实用化是LLM智能体发展的核心支撑之一，WebShop、SWE-Bench等真实场景基准推动了技术落地
LLM智能体的交互边界正在从数字世界扩展到物理世界，可支撑化学合成等科研场景需求

详细精要

LLM智能体的应用场景扩展：从传统NLP、RL的QA、游戏场景，扩展到数字自动化等更高价值场景
数字自动化场景包括报销申报、代码编写调试、实验运行、论文检索评审等，可大幅提升科研、办公效率，有望将博士毕业周期从5年缩短到3年
ChatGPT出现前，Siri等传统数字助理几乎无法完成复杂自动化任务，核心原因是缺乏基于真实语言的推理能力，无法处理长周期开放域行动决策
实用化任务基准的发展：真实场景基准的出现，为LLM智能体的技术迭代提供了可量化的评估标准
传统智能体基准多为小规模合成任务（如GridWorld），即使实现100%准确率也缺乏实际落地价值
WebShop：2022年发布的电商购物场景基准，基于超过100万条亚马逊真实商品数据构建，智能体需要像人类一样搜索、浏览、选择商品，匹配用户需求，是首个大规模真实互联网场景的智能体基准
SWE-Bench：软件工程场景基准，给定GitHub仓库与Issue，智能体需要输出修复问题的文件diff，需要与代码库交互、编写单元测试、运行验证，完全模拟真实软件工程师的工作流程
跨领域的应用边界扩展：LLM智能体的交互边界正在从数字世界延伸到物理世界，支撑科研等复杂创造性场景
ChemCrow：化学领域的推理智能体，可基于化学品数据调用Python、互联网等工具，分析并提出新的化学品合成方案，方案可直接在实验室合成并获取反馈，形成闭环
除了繁琐的日常任务（如订外卖），LLM智能体已经可以支撑软件工程、科学发现等创造性高价值任务

💬 精华片段（中文）

如果这些数字自动化的需求都能实现，那么每个人都可以在2年内本科毕业，3年内拿到博士学位，或者3年内拿到终身教职，所有事情的进度都可以大幅加快。

"If all of them can be achieved, then everybody can graduate undergrad in two years or PhD in three years, or get tenure in three years. Everything can be sped up."

54:43 LLM智能体的未来研究方向

本节重点

提出适合学界探索的五大研究方向：训练、接口、鲁棒性、人在回路、基准测试，均存在大量低 hanging fruit
模型训练需要建立模型与智能体的协同，通过智能体生成的轨迹数据优化模型，解决互联网数据枯竭的问题
真实场景更关注智能体的鲁棒性而非pass@k，需要新的基准与评估指标

详细精要

训练方向：构建模型与智能体的协同优化机制，解决当前LLM并非为智能体场景训练的适配问题
当前LLM与智能体的研发是解耦的：模型团队训练通用LLM，智能体团队基于通用LLM做prompt或微调，模型没有针对智能体场景优化，性能存在天花板
可通过prompted智能体生成大量思考-行动轨迹数据，用于微调LLM，补充互联网数据中缺失的思维过程、行动过程类数据，解决互联网数据枯竭的问题
类似GPU与深度学习的协同演进：GPU最初为游戏设计，后续逐步为深度学习优化，LLM也需要逐步为智能体场景定制优化
接口方向：针对LLM的特性设计专属交互接口，而非直接复用人类的交互接口，可在不改变模型能力的前提下大幅提升任务表现
人类与LLM的特性存在本质差异：人类短时记忆容量小，适合单条结果逐步展示的接口；LLM上下文窗口大，适合一次性返回多条结果的接口
SWE-agent研究显示，同样的模型与prompt，将文件搜索接口从单次返回1条结果改为单次返回10条结果，代码任务的表现可大幅提升
该方向无需大量GPU资源，非常适合学界开展研究，同时可帮助研究者更深入理解人类与LLM的能力差异
鲁棒性与人在回路方向：真实场景对智能体的需求与现有基准存在本质差异，更关注鲁棒性而非单次成功率
现有基准多关注pass@k指标，即采样k次至少成功1次的概率，适合科研攻关类场景（如证明黎曼假设，只需成功1次）
真实商用场景（如客服）关注的是千次请求的成功率，即使千次失败1次也可能造成客户流失，需要的是100%的鲁棒性
现有LLM的鲁棒性随采样次数增加反而下降，与理想的平稳表现存在较大差距，需要针对性优化
基准测试方向：需要纳入更多真实场景要素，构建适配商用需求的新基准与新评估指标
Tau-bench是首个面向客服场景的鲁棒性基准，包含模拟用户与公司后端API，智能体需要多轮与用户交互获取完整信息，再调用API解决问题
基准设计需要参考人类可替代的工作场景，思考当前智能体无法替代人类的核心缺口，针对性设计评估维度
未来智能体的落地将沿着三个方向推进：首先是高鲁棒性的简单重复任务，其次是需要与人协作的任务，最后是高难度创造性任务

💬 精华片段（中文）

解决黎曼假设这类问题你只需要成功一次，所以你关心的是采样1000万次能不能对一次；但客服这类场景你需要的是1000次请求全对，哪怕错一次都可能损失客户，核心需求是鲁棒性。

"It's like solving Riemann hypothesis. You just need to do it once. What you care about is, if you sample 10 million times, can you solve it once? But if you think about most of the jobs in the real world, it's more about robustness. So arguably, customer service is much easier than coding or proving Riemann hypothesis, at least for human. But here it really presents a different challenge because what you care about is not how you solve it one time out of a thousand times. What you care about is, can you solve it a thousand times out of a thousand times?"

专业术语注释

术语	解释
LLM Agent（大语言模型智能体）	本集语境下特指以大语言模型为核心、可通过推理指导行动的智能系统，可与环境交互完成多类复杂任务
ReAct	姚顺雨提出的推理智能体核心范式，通过Thought（推理）、Action（行动）、Observation（观察）的多轮循环实现推理与行动的协同
RAG（Retrieval-Augmented Generation，检索增强生成）	通过检索外部语料补充LLM上下文，解决LLM知识截止、专有领域知识不足问题的技术
Chain-of-Thought（思维链）	通过让LLM分步输出推理过程，提升复杂逻辑任务准确率的技术
Reflexion	基于ReAct的长时记忆实现方案，通过存储任务失败的反思经验，提升后续任务的表现
VOYAGER	面向Minecraft场景的开源智能体，通过存储可复用的代码技能长时记忆，实现开放世界的长期探索
Generative Agents（生成式智能体）	斯坦福提出的虚拟小镇智能体方案，通过情景记忆、语义记忆实现类人的社交行为
CoALA	姚顺雨团队提出的智能体统一抽象框架，认为所有智能体都可拆分为记忆、动作空间、决策流程三个核心模块
WebShop	2022年发布的电商购物场景智能体基准，基于真实亚马逊商品数据构建，用于评估智能体的开放域交互能力
SWE-Bench	软件工程场景智能体基准，要求智能体基于GitHub Issue修复代码问题，完全模拟真实软件工程师的工作流程
ChemCrow	化学领域的推理智能体，可自主开展化学分析、提出新化合物合成方案，实现数字智能与物理实验的闭环
Tau-bench	面向客服场景的智能体鲁棒性基准，纳入人在回路要素，评估智能体的长期稳定表现
pass@k	传统AI任务的评估指标，指采样k次尝试至少成功1次的概率
RL（Reinforcement Learning，强化学习）	通过奖励信号优化智能体行动策略的机器学习范式，是LLM出现前文本智能体的主流实现方案

延伸思考

数字智能体的内部/外部记忆边界、长时/短时记忆边界尚无明确定义，值得进一步开展理论研究，完善智能体的基础理论框架。
针对LLM特性的专属交互接口是当前被忽视的研究方向，无需大量计算资源即可实现智能体表现的大幅提升，适合中小团队、学界探索。
鲁棒性是LLM智能体商用落地的核心瓶颈，现有模型的鲁棒性随采样次数下降的问题尚未得到有效解决，需要针对性的训练、评估方案。
智能体生成的轨迹数据是未来LLM训练的核心数据来源之一，如何构建高质量、多样化的智能体轨迹数据集，是值得探索的方向。
面向真实场景的基准设计是推动LLM智能体落地的核心支撑，可围绕不同行业的真实工作流，构建更多垂直领域的智能体基准。

原文发表：Sep 17, 2024 · 纪要生成：2026-03-03