我们如何构建高效智能体：Anthropic 巴里·张分享

来源： YouTube | Barry Zhang | 2025年4月4日 播客： AI Engineer 分类： Anthropic 原文发表： Apr 04, 2025 纪要生成： 2026-02-26

全集重点

场景筛选优先：智能体仅适配高复杂度、高价值、错误易校验的场景，无需为所有用例开发
架构极简原则：智能体核心仅需环境、工具集、系统提示词3个组件，初期简化可最大化迭代ROI
视角对齐方法：开发者需站在智能体的上下文窗口视角排查问题，缩小人机认知差
未来发展方向：下一代智能体将围绕预算可控、自进化工具、多智能体协作三大方向演进

嘉宾/话题简介

Barry Zhang是Anthropic资深AI工程师，本次分享基于他与同事Eric在2025年2月发布的《构建高效智能体》博客内容，面向AI工程师群体拆解智能体落地的三大可实操核心原则，同时分享了智能体未来发展的核心趋势与待解决的行业共性问题。本次分享内容均来自Anthropic内部及客户落地的第一手实践经验，避免空泛理论，具备极强的落地指导价值。

分节详述

00:00 分享背景与智能体发展脉络

本节重点

梳理AI应用从单点功能到工作流再到智能体的三阶段演进路径
明确智能体与预定义工作流的核心差异及优劣势
公布本次分享的三大核心落地原则

详细精要

AI应用的三阶段演进路径：能力上限与风险成本同步提升
第一阶段（2-3年前）：以摘要、分类、信息提取等单点模型调用功能为主，当前已成为AI应用的标配能力
第二阶段（当前主流）：工作流模式，通过预定义的多模型调用编排，在可控的成本与延迟范围内提升效果，是智能体系统的雏形
第三阶段（新兴落地）：生产级领域专属智能体，可根据环境反馈自主决定执行轨迹，几乎可独立运行，是本次分享的核心讨论对象
智能体与工作流的核心差异：自主性是二者的核心区分标准
工作流的所有执行路径均由开发者提前定义，可控性强、成本延迟可准确预判，适合标准化场景
智能体可自主规划执行路径，能力上限更高，但对应成本、延迟、错误后果也同步上升，适合非标准化复杂场景
本次分享的三大核心原则：源自《构建高效智能体》博客的实践总结
原则一：不要为所有场景开发智能体，需先筛选适配场景
原则二：智能体架构初期尽量保持简单，优先保证迭代效率
原则三：开发过程中需站在智能体的视角思考，缩小人机认知差

💬 精华片段（中文）

"我们认为总体趋势是，我们赋予这些系统越多的自主权，它们就越有用、能力越强，但与此同时，成本、延迟、错误带来的后果也会随之上升。"

"The broad trend here is that as we give these systems a lot more agency, they become more useful and more capable. But as a result, the cost, the latency, the consequences of errors also go up."

02:32 核心观点一：不要为所有场景开发智能体

本节重点

明确智能体的定位是复杂高价值任务的规模化解决方案，而非通用升级选项
给出智能体落地的四项核查清单，不符合要求的场景优先使用工作流
以代码开发场景为例，演示核查清单的实际应用方法

详细精要

智能体的落地定位：仅适用于工作流无法覆盖的高价值复杂场景
预定义工作流是当前落地价值最高的方案，优先用于高流量、低预算的通用场景
智能体不是现有AI应用的 "即插即用" 升级选项，盲目为所有场景开发会造成不必要的成本浪费
智能体落地四项核查清单：需全部满足才适合启动智能体开发
任务复杂度足够高：问题空间存在强模糊性，无法轻易梳理出完整的决策树，否则直接开发预定义工作流的成本更低、可控性更强
任务价值足够高：智能体的探索过程会消耗大量token，需覆盖对应的成本，若单任务预算仅为10美分，仅能支撑3-5万token消耗，优先用工作流覆盖80%主流场景即可
核心能力无瓶颈：需确保智能体执行路径上没有显著的能力短板，否则会大幅拉高成本和延迟，存在瓶颈时应先缩小任务范围、简化需求后再重试
错误成本与发现成本足够低：若错误风险高且难以排查，将很难信任智能体自主执行，即使可通过只读权限、人在回路等方式降低风险，也会限制智能体的规模化能力
代码开发是典型的智能体适配场景：完全满足四项核查清单要求
复杂度高：从设计文档到PR的全流程存在极强的模糊性，无法梳理全量决策树
价值高：高质量代码的业务价值远高于token消耗成本
核心能力匹配：Claude等大模型已具备较好的代码生成、调试、错误恢复能力
错误易验证：代码输出可通过单元测试、CI（持续集成）流程自动校验，错误发现成本极低

💬 精华片段（中文）

"如果你看完这个清单的第一反应是‘我不在乎花多少token，我只要把任务完成’，演讲结束后可以来找我，我们的商业化团队非常愿意和你沟通。"

"On the other hand, though, if you look at this question and your first thought is, I don't care how many tokens I spend. I just want to get the task done. Please see me after the talk. Our go to market team would love to speak with you."

05:42 核心观点二：尽量保持智能体架构简单

本节重点

拆解智能体的三大核心基础组件，所有智能体底层架构高度复用
说明初期保持架构简单对迭代效率的重要性，避免前期过度优化
介绍核心组件跑通后的常见优化方向，以及工具开发相关的学习资源

详细精要

智能体的三大核心基础组件：所有智能体的底层架构都可抽象为三类组件，复用性极高
环境：智能体运行所处的系统，完全由具体用例决定，无需额外开发
工具集：为智能体提供与环境交互、获取反馈的接口，是核心设计决策之一
系统提示词：定义智能体的目标、约束、理想行为规范，是另一项核心设计决策
初期保持简单的核心价值：可最大化迭代投入的ROI，避免前期过度优化拖慢节奏
Anthropic内部及客户落地的多个差异极大的智能体用例，底层几乎共用同一套代码，仅工具集和系统提示词有差异
核心组件跑通前的任何额外优化，都会大幅提升迭代复杂度，降低试错效率，建议优化放在基础行为验证通过后再进行
若想深入了解工具开发相关内容，可参加Mahes第二天上午关于MCP（模型上下文协议）的工作坊，内容实用性很强，官方强烈推荐
核心组件跑通后的常见优化方向：可根据用例特性针对性优化
成本优化：针对代码开发、计算机操作等场景，可裁剪执行轨迹减少token消耗
延迟优化：针对搜索等工具调用量高的场景，可并行执行多个工具调用降低等待时间
信任优化：所有场景都需向用户清晰展示智能体的执行进度，提升用户信任度

💬 精华片段（中文）

"我们踩过很多坑才学会要保持架构简单，因为任何前期的复杂度都会严重拖慢迭代速度，仅迭代这三个基础组件就能给你带来最高的投入回报比，优化可以之后再做。"

"We have learned the hard way to keep this simple because any complexity up front is really going to kill iteration speed. Iterating on just these three basic components is going to give you by far the highest ROI and optimizations can come later."

08:18 核心观点三：站在智能体的视角思考问题

本节重点

说明开发者视角与智能体视角的认知差是智能体错误的核心诱因
给出模拟智能体视角的实操方法，可快速定位信息缺口
介绍用大模型反向排查智能体问题的实用技巧

详细精要

人机认知差是智能体错误的核心诱因：开发者常从自身的全信息视角出发，忽略智能体的信息局限性
智能体虽然能表现出复杂行为，但每一步推理仅基于当前上下文窗口内的有限信息（通常为1-2万token），无法获取窗口外的任何信息
开发者若不站在智能体的上下文边界内验证信息的充分性与连贯性，就无法理解智能体的错误决策逻辑
模拟智能体视角的实操方法：可通过角色扮演直观感知智能体的信息缺口
以计算机操作智能体为例，智能体仅能获取静态截图和任务说明，执行工具调用的3-5秒内完全无法获取环境反馈，等同于闭着眼操作电脑，很容易出现错误
角色扮演后可快速明确智能体的信息需求，比如计算机操作场景需要明确告知屏幕分辨率、推荐操作、禁止行为等，减少无必要的探索
用大模型反向排查问题的技巧：可直接询问大模型的需求，缩小认知差
可将系统提示词输入Claude，询问指令是否存在歧义、是否可理解、是否能执行
可将工具描述输入Claude，询问是否明确使用方法、是否需要增减参数
可将完整的智能体执行轨迹输入Claude，询问当时做出决策的原因，以及需要补充哪些信息帮助做出更好的决策

💬 精华片段（中文）

"我强烈建议你站在智能体的视角完整执行一次任务，我保证这会是一次很有趣、只会让你感到轻微不适的体验。"

"I highly recommend just trying doing a full task from the agent's perspective like this. I promise you it's a fascinating and only mildly uncomfortable experience."

11:27 未来展望与总结

本节重点

分享智能体未来发展的三大核心方向与对应的待解行业问题
复盘本次分享的三大核心落地原则，方便听众记忆
分享个人职业经历，鼓励开发者务实落地AI应用

详细精要

智能体未来发展的三大核心方向：是当前Anthropic重点探索的领域
预算可控能力：当前智能体的成本和延迟可控性远低于工作流，需探索时间、资金、token等多维度的预算定义与执行机制，解锁更多生产场景，待解问题是如何实现多维度预算的动态管控
自进化工具：当前已可使用大模型迭代工具描述，未来可扩展为元工具，让智能体自主设计、优化工具的易用性，大幅提升通用能力
多智能体协作：2025年底将出现大量生产级多智能体协作应用，其天然具备并行执行、关注点分离的优势，子智能体还可保护主智能体的上下文窗口，待解问题是如何设计异步通信机制、支持多角色的交互范式
本次分享的三大核心落地原则总结：是智能体开发的核心指导思想
不要为所有场景开发智能体，先通过核查清单筛选适配场景
找到适配场景后，尽量长时间保持架构简单，优先跑通核心组件再优化
迭代过程中始终站在智能体的视角思考，缩小认知差，提升执行效果
个人经历分享：鼓励开发者以务实的态度落地AI应用
2023年Barry在Meta开发AI产品时，受Swix的博客启发，给自己定的职位是"全球首位AI工程师"，核心追求是让AI真正为世界创造实用价值
呼吁参会的AI工程师持续务实落地，共同推动AI技术的落地应用

💬 精华片段（中文）

"我个人坚信到今年年底，我们会看到大量生产环境中的多智能体协作应用。"

"I have a personal conviction that we will see a lot more multi-agent collaborations in production by the end of this year."

专业术语注释

术语	解释
Agent（智能体）	本集语境下指可根据环境反馈自主规划执行路径、几乎可独立完成任务的AI系统，是比工作流更高级的AI应用形态
Workflow（工作流）	本集语境下指预定义的多模型调用编排流程，所有执行路径均由开发者提前设定，可控性强、成本可预判
Token（令牌）	大模型处理文本的基本单位，也是大模型服务计费的核心依据，通常1个token约等于0.7个中文汉字
Context Window（上下文窗口）	大模型单次推理可处理的最大文本长度，决定了智能体单次决策可获取的信息量上限
MCP（Model Context Protocol，模型上下文协议）	用于规范大模型与工具交互的行业协议，本集提到有专门的工作坊讲解其开发方法
CI（Continuous Integration，持续集成）	软件开发流程中自动校验代码正确性的标准化环节，用于验证代码智能体的输出质量
Human in the loop（人在回路）	AI系统执行过程中引入人工审核或干预的机制，用于降低高风险场景的错误概率

延伸思考

可基于本次分享的四项核查清单，评估自己当前的AI应用场景是否适合升级为智能体，避免不必要的资源浪费
开发智能体时可先复用通用的三大核心组件架构，仅定制工具集和系统提示词，大幅提升初期迭代效率
遇到智能体错误时，优先检查上下文窗口内的信息是否充分、指令是否清晰，而非直接归因于大模型能力不足
针对低预算高流量的场景，可优先用工作流覆盖80%的通用需求，剩余20%的高价值复杂需求再用智能体解决，实现成本与效果的平衡
可提前布局多智能体通信机制、自进化工具等方向的探索，抢占未来2年智能体落地的技术红利

原文发表：Apr 04, 2025 · 纪要生成：2026-02-26