▶ 原文链接

LLM Agents MOOC | UC伯克利CS294-196 2024秋季学期:LLM智能体的历史与概述

来源: YouTube | Shunyu Yao(姚顺雨) | Sep 17, 2024 分类: 其他 原文发表: Sep 17, 2024 纪要生成: 2026-03-03


全集重点


嘉宾/话题简介

姚顺雨是ReAct、Reflexion等知名LLM智能体项目的核心研究者,本次讲座是UC伯克利2024秋季CS294-196课程的公开授课内容。本次讲座系统梳理了LLM智能体的定义、发展历史、核心技术范式,对比了其与传统智能体的本质差异。同时分享了当前LLM智能体的落地应用场景,以及未来值得探索的五大研究方向,适合AI领域研究者、从业者参考。


分节详述

00:00 开场与LLM智能体的定义

本节重点 - 本次讲座核心涵盖LLM智能体定义、发展历史、未来方向三大模块 - 拆解智能体的核心组成:与环境交互的智能系统,环境定义随场景变化 - 提出三层智能体概念:文本智能体、LLM智能体、推理智能体 - LLM出现前的文本智能体存在通用性差、落地成本高的核心局限

详细精要

💬 精华片段(中文)

纵观AI发展历史,"智能"的定义往往随时间不断变化。60年前,用三行规则实现的基础聊天机器人就可以被视为智能,但如今即使是ChatGPT也不再让人感到惊喜。

"And what's really interesting is that throughout the history of AI, the definition of what's "intelligent" often changes across time. So like 60 years ago, if you have a very basic chat bot using three lines of rule, then it can be seen intelligent. But right now, even ChatGPT is not surprising anymore."


06:23 LLM智能体的发展历史与核心范式演进

本节重点 - LLM的发展始于2020年GPT-3的发布,后续推理、行动两类技术方向逐步融合形成推理智能体 - 传统QA任务存在推理、知识、计算三类瓶颈,对应催生思维链、RAG、工具调用等解决方案 - ReAct范式实现推理与行动的协同,既通过行动获取外部信息,也通过推理指导行动调整

详细精要

💬 精华片段(中文)

ReAct的理念非常简单,就是同时生成推理内容和行动,二者可以产生协同效应:推理可以指导行动,行动也可以辅助推理。这是非常符合人类解决问题的方式,跨领域具备通用性。

"So the idea of this word called ReAct is actually very simple. So you have this two paradigm, reasoning and acting. And before we act, language models are either generating reasoning or acting. And for ReAct, the idea is to just generate both. And we will see that it's actually a great way to synergize both in the sense that reasoning can help acting, and acting can help reasoning. And it's actually quite simple, intuitive. You will see later is actually-- you can argue that's how I solved the task or you solve the task. It's a very human way to solve the task, and it's very general across the domain."


26:06 LLM智能体的核心技术:长时记忆

本节重点 - LLM的上下文窗口属于短时记忆,存在仅追加、容量有限、不跨任务持久化三类局限 - 长时记忆允许智能体存储过往经验、知识、技能,跨任务复用,大幅提升任务效率 - 长时记忆有多种实现形式,包括Reflexion的反思记忆、VOYAGER的代码技能记忆、生成式智能体的情景/语义记忆等

详细精要

💬 精华片段(中文)

我想做一个类比,推理智能体现在就像金鱼,民间说法认为金鱼只有3秒记忆,你就算解决了黎曼假设这样的重大问题,如果记不住,下次还是要从零开始解,这非常可惜。

"So I think, another one I want to make is it's like a golden fish. So folk wisdom is, a golden fish only has three seconds of memory. So you can solve something remarkable. But if you cannot remember it, then you have to solve it again. And it's really a shame."


38:19 与传统智能体范式的对比

本节重点 - 智能体发展经历了符号AI智能体、深度RL智能体、LLM推理智能体三个核心阶段 - 三类智能体的核心差异在于从观测到行动的中间表示不同,分别是符号状态、神经网络嵌入、自然语言 - LLM推理智能体的自然语言中间表示具备预训练先验丰富、通用性强、支持推理时长扩展的优势,远超前两代智能体

详细精要

💬 精华片段(中文)

推理智能体的本质差异在于,你使用自然语言作为处理观测到行动的中间表示,而不是神经网络嵌入或者符号状态,这是人类处理问题的方式。

"And in some sense, was what's different for language agent or reasoning agent is that you are literally using language as the intermediate representation to process observation to action. Like, instead of this new neural embedding or this kind of symbolic state, you're literally thinking, language, which is the human way of doing things."


43:33 LLM智能体的应用场景扩展

本节重点 - LLM智能体的应用从QA、游戏等传统场景,扩展到数字自动化、科学发现等全新场景,价值大幅提升 - 任务基准的实用化是LLM智能体发展的核心支撑之一,WebShop、SWE-Bench等真实场景基准推动了技术落地 - LLM智能体的交互边界正在从数字世界扩展到物理世界,可支撑化学合成等科研场景需求

详细精要

💬 精华片段(中文)

如果这些数字自动化的需求都能实现,那么每个人都可以在2年内本科毕业,3年内拿到博士学位,或者3年内拿到终身教职,所有事情的进度都可以大幅加快。

"If all of them can be achieved, then everybody can graduate undergrad in two years or PhD in three years, or get tenure in three years. Everything can be sped up."


54:43 LLM智能体的未来研究方向

本节重点 - 提出适合学界探索的五大研究方向:训练、接口、鲁棒性、人在回路、基准测试,均存在大量低 hanging fruit - 模型训练需要建立模型与智能体的协同,通过智能体生成的轨迹数据优化模型,解决互联网数据枯竭的问题 - 真实场景更关注智能体的鲁棒性而非pass@k,需要新的基准与评估指标

详细精要

💬 精华片段(中文)

解决黎曼假设这类问题你只需要成功一次,所以你关心的是采样1000万次能不能对一次;但客服这类场景你需要的是1000次请求全对,哪怕错一次都可能损失客户,核心需求是鲁棒性。

"It's like solving Riemann hypothesis. You just need to do it once. What you care about is, if you sample 10 million times, can you solve it once? But if you think about most of the jobs in the real world, it's more about robustness. So arguably, customer service is much easier than coding or proving Riemann hypothesis, at least for human. But here it really presents a different challenge because what you care about is not how you solve it one time out of a thousand times. What you care about is, can you solve it a thousand times out of a thousand times?"


专业术语注释

术语 解释
LLM Agent(大语言模型智能体) 本集语境下特指以大语言模型为核心、可通过推理指导行动的智能系统,可与环境交互完成多类复杂任务
ReAct 姚顺雨提出的推理智能体核心范式,通过Thought(推理)、Action(行动)、Observation(观察)的多轮循环实现推理与行动的协同
RAG(Retrieval-Augmented Generation,检索增强生成) 通过检索外部语料补充LLM上下文,解决LLM知识截止、专有领域知识不足问题的技术
Chain-of-Thought(思维链) 通过让LLM分步输出推理过程,提升复杂逻辑任务准确率的技术
Reflexion 基于ReAct的长时记忆实现方案,通过存储任务失败的反思经验,提升后续任务的表现
VOYAGER 面向Minecraft场景的开源智能体,通过存储可复用的代码技能长时记忆,实现开放世界的长期探索
Generative Agents(生成式智能体) 斯坦福提出的虚拟小镇智能体方案,通过情景记忆、语义记忆实现类人的社交行为
CoALA 姚顺雨团队提出的智能体统一抽象框架,认为所有智能体都可拆分为记忆、动作空间、决策流程三个核心模块
WebShop 2022年发布的电商购物场景智能体基准,基于真实亚马逊商品数据构建,用于评估智能体的开放域交互能力
SWE-Bench 软件工程场景智能体基准,要求智能体基于GitHub Issue修复代码问题,完全模拟真实软件工程师的工作流程
ChemCrow 化学领域的推理智能体,可自主开展化学分析、提出新化合物合成方案,实现数字智能与物理实验的闭环
Tau-bench 面向客服场景的智能体鲁棒性基准,纳入人在回路要素,评估智能体的长期稳定表现
pass@k 传统AI任务的评估指标,指采样k次尝试至少成功1次的概率
RL(Reinforcement Learning,强化学习) 通过奖励信号优化智能体行动策略的机器学习范式,是LLM出现前文本智能体的主流实现方案

延伸思考

  1. 数字智能体的内部/外部记忆边界、长时/短时记忆边界尚无明确定义,值得进一步开展理论研究,完善智能体的基础理论框架。
  2. 针对LLM特性的专属交互接口是当前被忽视的研究方向,无需大量计算资源即可实现智能体表现的大幅提升,适合中小团队、学界探索。
  3. 鲁棒性是LLM智能体商用落地的核心瓶颈,现有模型的鲁棒性随采样次数下降的问题尚未得到有效解决,需要针对性的训练、评估方案。
  4. 智能体生成的轨迹数据是未来LLM训练的核心数据来源之一,如何构建高质量、多样化的智能体轨迹数据集,是值得探索的方向。
  5. 面向真实场景的基准设计是推动LLM智能体落地的核心支撑,可围绕不同行业的真实工作流,构建更多垂直领域的智能体基准。

原文发表:Sep 17, 2024  ·  纪要生成:2026-03-03