▶ 原文链接

生产级AI行动手册:在企业规模部署智能代理 — Sandipan Bhaumik, Databricks

来源: YouTube | Sandipan Bhaumik | Jun 18, 2026 播客: AI Engineer 分类: 其他 原文发表: Jun 18, 2026 纪要生成: 2026-06-22


全集重点


嘉宾/话题简介

Sandipan Bhaumik(桑迪潘·鲍米克)Databricks 数据和AI技术主管,此前在 Amazon Web Services 担任了5年的数据与AI首席架构师。他在过去几年里专注于使用分布式系统构建和扩展数据与AI平台,并投入大量精力帮助客户解决一个核心问题:如何将 AI 从演示阶段真正投入大规模生产。本集分享的是他基于在 B2B 软件和金融等受监管行业的实战经验,总结出的一套包含五大支柱的生产级 AI 部署框架和手册。


分节详述

00:00 序言:AI 部署的常见误区与三大洞察

本节重点

详细精要

💬 精华片段(中文)

“The first one is the observability gap... if we can't see what it is actually doing, if we can't trace every decision that it's making, it's no use in production.”

“第一个是可观测性差距……如果我们不能看到它实际上在做什么,不能追踪到它所做的每一个决定,那么它在生产中就毫无用处。”

“The second is the evaluation gap... we were not defining what is that exact thing... that matters to the business, and how can we build a system that can continuously measure that.”

“第二个是评估差距……我们没有定义那个对业务真正重要的东西到底是什么,也没有定义如何构建一个能够持续衡量它的系统。”

04:42 五大支柱框架登场

本节重点

详细精要

💬 精华片段(中文)

“These are the five pillars, and these are absolutely what you need to think about even before starting a project... Then you start build them gradually, preferably in sequence, but in real life, I know that this sequence don't work.”

“这就是五大支柱,即使是启动项目之前,你也绝对需要考虑这些……然后你开始逐步构建它们,最好是按顺序,但在现实生活中,我知道这个顺序是行不通的。”

07:21 支柱一:评估 — AI 系统的规格说明书

本节重点

详细精要

💬 精华片段(中文)

“The third layer is behavioral, right? This is where you think about tool calls, like is our agents calling the right tool? Are they getting into loops? ... This layer is very, very important. I see a lot of organizations, a lot of teams miss them.”

“第三层是行为评估,对吧?这是你思考工具调用的地方,比如我们的代理是否在调用正确的工具?他们是否陷入了循环?……这一层非常非常重要。我看到很多组织,很多团队都忽视了它。”

12:34 支柱二:可观测性 — 用追踪照亮 AI 决策黑箱

本节重点

详细精要

💬 精华片段(中文)

“If you did not set up a system that helps you look visualize all of these traces, when the customer comes to you and raises a dispute, you have no way to check what the AI did. Right? You have nowhere to go.”

“如果你没有设置一个系统来帮助你查看可视化所有这些追踪,当客户来找你并提出争议时,你根本没有办法检查 AI 做了什么,对吧?你无处可查。”

15:09 支柱三:数据基础 — 代理时代的最大挑战

本节重点

详细精要

💬 精华片段(中文)

“Data was always built for humans, and humans are always forgiving... Agents don't forgive you, right? Agents will go, find it wrong, they'll give you the wrong answer confidently.”

“数据总是为人类而建,而人类总是宽容的……代理可不会原谅你,对吧?代理会发现错误,然后自信地给你一个错误的答案。”

20:00 支柱四:多代理编排模式

本节重点

详细精要

💬 精华片段(中文)

“One agent would work pretty well. You don't need to think about orchestration. But when you onboard five agents, the complexity increases exponentially, right?”

“一个代理可以运行得很好,你不需要考虑编排。但当你引入五个代理时,复杂性就会指数级增加,对吧?”

22:25 支柱五:治理 — 代码化、过程化与风险管控

本节重点

详细精要

💬 精华片段(中文)

“You have to treat prompt versioning as change management in enterprise grade solution. It cannot be just change to a prompt and commit to get. It has to go through proper change management processes as you do with code. So, basically treating prompt as code.”

“你必须将提示版本化视为企业级解决方案中的变更管理。不能只是改一个提示然后提交了事。它必须像处理代码一样,经过适当的变更管理流程。所以,基本上就是‘把提示当作代码’。”

24:27 案例研究:银行聊天机器人的成功转型

本节重点

详细精要

💬 精华片段(中文)

“The summary of that story is that your evaluation data set is a living system. You start with 200... This will keep growing. And the bigger it grows, the better your system will be.”

“这个故事的核心是,你的评估数据集是一个活生生的系统。你从 200 个案例开始……它会不断增长。它增长得越大,你的系统就会越好。”

“We could actually look into the tracing decisions and see that the agent was looking at a policy document that was outdated... It was all possible because we built that those systems that led us to detect this.”

“我们实际上可以查看追踪决策,并看到代理正在查看一份过时的政策文件……这一切之所以成为可能,正是因为我们构建了那些让我们能发现这一点的系统。”

30:46 生产事故处理手册 & 结语

本节重点

详细精要

💬 精华片段(中文)

“You need to put governance around what kind of commit messages you are putting in when you're changing these prompts because you need to understand when a prompt was changed, for exact what reason it was changed, right? What was the failure that caused this prompt to be changed?”

“你需要在你更改这些提示时,围绕你输入的提交信息类型加入治理,因为你需要了解一个提示是何时被更改的,以及更改的‘确切原因’是什么,对吧?是哪个失败导致了这个提示需要更改?”


专业术语注释

术语 解释
可观测性差距 (Observability Gap) 指 AI 投入生产后,缺乏追踪和可视化其内部决策步骤的能力,导致无法理解和排查问题。
评估差距 (Evaluation Gap) 指没有定义与业务目标对齐的、可量化的成功标准,并且缺乏一个持续自动衡量 AI 系统是否在改进的评估系统。
治理差距 (Governance Gap) 指缺乏对 AI 失败时的问责制、数据资产所有权和安全机制的定义与管控。
偏离 (Deflection) 在客服场景中,特指将本应由人工处理的查询,成功转移到 AI 代理处并完成处理。
LLM即裁判 (LLMs as a Judge) 一种评估方法,使用一个独立的、能力强的大语言模型来评判另一个模型的输出结果,评估其安全性、扎根性、相关性等。
扎根性 (Groundedness) 指 AI 生成的内容是否忠实于所提供的源材料或事实依据,不凭空捏造。
PII (Personally Identifiable Information) 个人身份信息,如姓名、地址、电话号码等,在治理和评估中必须被检测和保护。
Delta Lake Databricks 开源的一种存储层,为数据湖 (Data Lake) 带来可靠性、ACID 事务等数据库特性。
Unity Catalog Databricks 提供的统一数据治理解决方案,能够对数据和AI资产进行集中的发现、权限管理、元数据标记和血缘追踪。
Mosaic AI Databricks 用于构建、训练、部署和治理 AI/ML 模型的平台。
Genie Databricks 提供的自然语言接口,允许用户用英语提问,系统自动生成 SQL 查询。
编排器-工作者模式 (Orchestrator Worker Pattern) 一种通过中央控制器(orchestrator)统一接收请求、分发任务并协调多个专业代理工作的模式。
对手模式 (Choreography Pattern) 一种去中心化的协调模式,各个独立代理监听共享的消息总线,各自对感兴趣的事件做出反应,彼此无需中央协调即可并行工作。
ITSM (Information Technology Service Management) 信息技术服务管理,企业中用于设计、交付、管理和改善 IT 服务使用的系统,常与告警和事故响应流程集成。
熔断模式 (Circuit Breaker Pattern) 一种故障恢复模式,当调用某个服务(如 API)失败次数达到阈值时,会自动切断通路以保护系统,防止故障蔓延。

延伸思考

原文发表:Jun 18, 2026  ·  纪要生成:2026-06-22