▶ 原文链接
NVIDIA AI工程师:行星级代理推理与「光速」工作法——Nader Khalil(Brev)、Kyle Kranen(Dynamo)
来源: Latent Space(Substack) | 嘉宾Nader Khalil(NVIDIA Brev开发者关系负责人)、Kyle Kranen(NVIDIA Dynamo工程负责人/核心架构师) | 2026-03-10
播客: Latent Space
分类: NVIDIA
原文发表: Mar 10, 2026
纪要生成: 2026-03-11
全集重点
- 双产品全栈覆盖:Brev降低GPU获取门槛,Dynamo实现数据中心级推理优化,覆盖从个人开发者到企业级的全场景需求
- SOL核心文化:基于第一性原理的「光速」工作法,让万亿市值的NVIDIA仍保持创业公司级的敏捷性
- 推理三角权衡:成本、质量、延迟是推理部署的三大核心维度,Dynamo提供可调旋钮实现最优平衡
- Agent落地规范:三类权限不可同时开放、CLI标准化、长时稳定性是生产级Agent的核心突破方向
- 软硬协同趋势:模型架构、硬件、使用场景的联合设计是突破长上下文等性能瓶颈的核心路径
嘉宾/话题简介
本期播客邀请NVIDIA Brev团队负责人Nader Khalil、Dynamo核心架构师Kyle Kranen做客,两位嘉宾均为NVIDIA内部兼具创业背景与一线技术经验的核心成员。Nader主导的Brev产品致力于降低开发者获取GPU资源的门槛,现已支持从个人本地硬件到多厂商云GPU的统一管理。Kyle主导的Dynamo是NVIDIA推出的数据中心级推理框架,支撑了NVIDIA内部及外部客户的大规模推理场景优化。本次对话围绕NVIDIA内部文化、推理技术演进、Agent落地实践等话题展开,同时披露了GTC 2026的相关重点议题。
分节详述
00:00 Agent安全基础
本节重点
- Agent核心能力可分为文件访问、网络访问、代码执行三类
- 三类能力不可同时开放,否则将引入重大安全漏洞
- NVIDIA内部已针对Agent权限管控形成初步落地规范
详细精要
- Agent能力分类与风险逻辑:Nader基于内部实践总结出Agent的三项核心操作能力
- 三项能力分别为访问本地文件系统、接入公共互联网、编写并执行自定义代码
- 同时开放任意两项能力即可形成基本的Agent工作流,开放全部三项将引入不可控的注入风险
- 权限管控基本原则:任何场景下不得同时开放Agent的三类能力
- 若Agent已获得文件访问与代码执行权限,必须切断其互联网访问能力,避免数据泄露或恶意代码注入
- 若Agent已获得互联网与文件访问权限,必须明确限定其可执行的操作范围,禁止任意代码执行
- 内部落地实践:NVIDIA安全团队已将该原则作为内部Agent部署的基础规范
- 内部员工测试Agent类工具时,默认仅可在隔离的Brev虚拟机环境中运行,避免接触公司核心数据
- 所有Agent类工具的权限申请需经过安全团队审核,明确权限边界后方可上线
💬 精华片段(中文)
代理能做三件事:访问你的文件、接入互联网,以及编写自定义代码并执行。你绝对只能让代理做这三件事中的两件。
"Agents can do three things. They can access your files, they can access the internet, and then now they can write custom code and execute it. You literally only let an agent do two of those three things."
00:39 播客开场与嘉宾介绍
本节重点
- 两位嘉宾均为NVIDIA内部兼具技术与开发者运营经验的核心成员
- 本次录制临近GTC 2026大会,后续将披露大会相关核心议题
- Nader曾通过冲浪板等创意营销手段让Brev在GTC展会上脱颖而出
详细精要
- 嘉宾背景介绍:两位嘉宾均在NVIDIA负责面向开发者的核心产品
- Kyle Kranen是NVIDIA Dynamo框架的工程负责人与核心架构师,主导数据中心级推理框架的研发
- Nader Khalil负责NVIDIA Brev产品的开发者关系与工具生态,是NVIDIA面向外部开发者的核心接口人
- Brev早期营销故事:Nader在Brev被收购前曾通过极具特色的营销手段获得行业关注
- 早期Brev团队拒绝模仿成熟企业的严肃展台风格,采用冲浪板、棕榈树等创意元素搭建展位,在GTC展会的角落展位仍获得极高关注度
- 团队甚至邀请投资人带宠物到展位引流,相关展位记忆点在三年后仍被NVIDIA内部员工提及
- Brev产品核心定位:Brev的核心价值是降低开发者获取GPU资源的门槛
- 传统云厂商的GPU申请流程需要填写多页表单,用户需要理解复杂的资源代码才能选择A100等目标GPU
- Brev将GPU型号作为核心展示元素,通过极简界面实现GPU资源的一键申请与接入,相关界面的SVG动画为Nader手工设计实现
💬 精华片段(中文)
每次有人说他们想要A100,他们说出的需求文本就像被藏在角落一样。所以我们就在想,如果把用户需求做成页面上最大的文本会怎么样?
"Every time someone says they want an A 100, like the piece of text that they’re telling me that they want is like, stuffed away in the corner. Yeah. And so we were like, what if the biggest piece of text was what the user’s asking for?"
07:19 收购历程与开发者体验转型
本节重点
- Brev与NVIDIA的开发者体验战略高度契合,收购后产品保持独立迭代并获得高速增长
- NVIDIA正面向更广泛的开发者群体重构开发者体验,覆盖从新手到资深工程师的全层级需求
- Brev已成为NVIDIA内部隔离运行高风险工具的标准环境,满足安全合规要求
详细精要
- 收购背景与协同效应:Brev被NVIDIA收购的核心逻辑是产品使命高度匹配
- Brev的核心目标是降低开发者获取GPU资源的门槛,与NVIDIA长期的开发者赋能战略完全契合,收购后团队保持独立迭代
- 收购后Brev的用户规模实现高速增长,已覆盖NVIDIA内部员工与外部开发者、ISV合作伙伴等多类群体
- 开发者体验转型逻辑:AI技术普及推动NVIDIA的开发者群体大幅扩张,需要重构体验体系
- 传统NVIDIA的开发者群体以CUDA、深度学习领域的资深工程师为主,当前大量零基础开发者、AI应用开发者进入市场,需要更轻量化的工具
- 部分新开发者甚至不了解CUDA基础概念,仅需要快速运行开源AI项目,Brev的极简体验刚好匹配这类需求
- 内部安全落地场景:Brev已成为NVIDIA内部运行高风险工具的标准隔离环境
- Open Interpreter等Agent类工具上线后,NVIDIA安全团队要求所有内部测试必须在Brev的隔离虚拟机中运行,避免接触公司内网与核心数据
- 针对ISV合作伙伴的GPU环境需求,Brev可实现预打包应用的一键部署,大幅降低合作伙伴的适配成本
💬 精华片段(中文)
我认为收购的成功程度,取决于产品灵魂的匹配程度。对我们来说,很多时候感觉就像回家了一样,这是非常好的结果。
"I think that, you know, when it comes to like an acquisition, I think the amount that the soul of the products align, I think is gonna be. Is going speak to the success of the acquisition. Yeah. And so it in many ways feels like we’re home."
13:48 SOL文化与Dynamo框架背景
本节重点
- SOL(光速)是NVIDIA核心企业文化,基于第一性原理推导理论极限,打破流程冗余
- SOL文化不仅适用组织管理,也对应硬件性能的理论上限计算,贯穿软硬件研发全流程
- Kyle从推荐系统、图神经网络领域切入,主导研发了面向数据中心级场景的Dynamo推理框架
详细精要
- SOL文化的核心内涵:SOL(Speed of Light,光速)是NVIDIA全员践行的工作方法论
- 核心逻辑是先基于第一性原理推导任务的理论最快完成速度,再逐层叠加现实约束,避免无意义的流程推诿与时间浪费
- 从一线工程师到管理层均可使用SOL原则提出质疑,推动项目打破常规进度限制,同时也会将稳定性、安全性等约束纳入考量
- 硬件层面的SOL指GPU在无额外约束下的理论最高运行速度,是性能优化的基准参考线
- NVIDIA内部组织特性:万亿市值规模下仍保持极强的创业灵活性
- 内部推行「使命优先」的管理逻辑,员工可跨层级发送邮件提案,只要有初步成果即可推动项目落地,不存在严格的层级边界
- 支持「零亿级美元市场」投入,即允许团队投入长期无营收的前沿方向,为未来技术布局做准备,自动驾驶、AI推理等方向均经历过这一阶段
- Dynamo框架的研发背景:Kyle基于多年推理场景经验主导研发了Dynamo框架
- Kyle早期在NVIDIA负责推荐系统、图神经网络的GPU加速,观察到传统单副本推理框架在大规模场景下存在性能瓶颈
- 当前推理已从小众技术话题变为行业普遍需求,Agent等场景对推理规模、成本、延迟的要求大幅提升,传统框架无法满足需求
- Dynamo定位为数据中心级推理引擎,可在vLLM、TRT-LLM、SGLang等主流单节点推理引擎之上做分布式调度优化,充分发挥规模效应
💬 精华片段(中文)
SOL本质上就是问你,物理极限是什么?光速以固定速度传播,如果某个流程的速度比光速还慢,那肯定有什么东西挡住了路。
"SOL is is essentially like what is the physics, right? The speed of light moves at a certain speed. So if flight’s moving some slower, then you know something’s in the way."
27:38 推理架构的横向扩展逻辑(含29:02纵向扩展瓶颈、30:24从笔记本到多节点)
本节重点
- 推理架构优先选择横向扩展而非纵向扩展,可突破硬件通信的物理瓶颈
- 纵向扩展受限于NVLink、InfiniBand的通信速度上限,超过8卡后性能衰减明显
- Dynamo可覆盖从单节点笔记本到多节点集群的全场景推理部署需求,降低开发者适配成本
详细精要
- 横向扩展的核心优势:分布式多副本架构是大规模推理场景的最优选择
- 传统单副本纵向扩展(给单实例增加更多GPU)受限于硬件通信瓶颈,无法支撑超大规模推理需求
- 横向扩展通过多副本分布式调度,可充分利用数据中心的规模效应,大幅提升整体吞吐量与容错能力
- Dynamo是首个面向数据中心级场景的推理编排框架,可兼容vLLM、TRT-LLM、SGLang等主流单节点推理引擎
- 纵向扩展的物理瓶颈:单实例卡数超过8卡后会出现明显的性能衰减
- H100的NVLink通信域上限为8卡,超过8卡后GPU间通信需要通过InfiniBand实现,速度约为NVLink的1/10,带来显著延迟
- 纵向扩展仅适合小批量、低并发的推理场景,大规模在线推理场景下横向扩展的成本收益比更高
- 全场景部署适配逻辑:Dynamo可覆盖从个人设备到多节点集群的全场景需求
- 个人开发者可在笔记本、DGX Spark等本地设备上运行轻量推理任务,无需修改代码即可平滑迁移到云集群
- 企业级用户部署大模型时,可根据模型规模、并发需求灵活选择张量并行、流水线并行等分布式策略,Dynamo自动完成底层调度
- 针对Mixtral、GLM-5等新出大模型,Dynamo可快速适配,提供最优的部署配置建议,降低企业的试错成本
💬 精华片段(中文)
当你实际大规模部署服务时,不能只靠纵向扩展单副本,因为会遇到性能问题。纵向扩展副本存在scaling上限,所以你必须用Kubernetes领域常说的横向扩展。
"But when you’re actually serving things at scale, you can’t just scale up that replica because you end up with like performance problems. There’s a scaling limit to scaling up replicas. So you actually have to scale out to use a, maybe some Kubernetes type terminology."
33:07 成本-质量-延迟三角权衡
本节重点
- 推理部署的核心决策逻辑围绕成本、质量、延迟三个核心维度展开,三者存在固定权衡关系
- 测试时缩放、多轮重试等技术可在不更换大模型的前提下提升输出质量,但会增加成本与延迟
- Dynamo提供可视化调优旋钮,帮助用户在三角约束中找到符合自身业务需求的最优解
详细精要
- 三角权衡的核心框架:任何推理部署都需要在三个维度上做平衡
- 质量维度:模型输出的准确率、完成任务的能力,可通过模型选型、测试时缩放、多轮推理等方式提升
- 成本维度:单位推理请求的硬件、运维成本,与使用的GPU数量、推理时长直接相关
- 延迟维度:从用户发送请求到收到响应的时间,在线场景通常有固定的SLA要求
- 灵活调优的实现路径:不同业务场景可根据优先级调整三个维度的权重
- 离线任务场景可优先保障质量、降低成本,接受更高的延迟,可采用多轮推理、大模型全精度部署等方案
- 在线聊天、代码补全等场景需优先满足延迟SLA,可采用小模型+Speculative Decoding等方案,在可控质量损失下降低延迟
- 近期Google研究显示,相同prompt重复调用两次并加入失败上下文,可显著提升输出质量,是低代价提升质量的典型方案
- Dynamo的调优支持能力:Dynamo内置多维度调优工具,降低用户的权衡成本
- 可根据用户输入的模型类型、并发规模、延迟SLA要求,自动生成最优的部署配置方案
- 支持动态调整推理策略,高峰时段自动降低非核心功能的计算量,保障核心请求的延迟达标
- 兼容软硬协同优化方案,可充分发挥Blackwell架构等新硬件的性能优势,进一步压缩成本
💬 精华片段(中文)
你要关心三个轴:产出的质量是否足够高,能否以足够低的成本服务模型或工作流,以及能否足够快地完成服务。
"There’s three axes you care about. What is the quality that you’re able to produce? So like, are you accurate enough or can you complete the task with enough, performance, high enough performance. Yeah, yeah. Uh, there’s cost. Can you serve the model or serve your workflow? Because it’s not just the model anymore, it’s the workflow. It’s the multi turn with an agent cheaply enough. And then can you serve it fast enough?"
38:42 预填充与解码阶段拆分优化
本节重点
- 推理过程分为预填充、解码两个阶段,两者的资源需求、性能特性存在显著差异
- 拆分两个阶段独立调度,可解决传统单引擎的调度阻塞问题,大幅提升硬件利用率
- 未来将出现专用的预填充加速硬件,进一步提升拆分架构的性价比
详细精要
- 两个阶段的特性差异:预填充与解码阶段的资源需求完全不同
- Prefill(预填充)阶段负责处理输入序列,生成KV Cache,计算量随输入长度呈二次方增长,属于计算密集型任务
- Decode(解码)阶段基于已生成的KV缓存逐token生成输出,计算量随上下文长度线性增长,属于显存密集型任务
- 传统单引擎架构需要交替执行两个阶段,容易出现长输入预填充阻塞后续解码请求的问题,导致硬件利用率不足
- 拆分优化的核心收益:独立调度两个阶段可实现多维度的性能提升
- 解决调度阻塞问题,预填充和解码请求可并行处理,避免长输入请求影响整体吞吐
- 支持硬件分层部署,预填充任务调度到计算能力更强的GPU,解码任务调度到显存更大的GPU,提升整体性价比
- 可根据业务负载动态调整两个阶段的资源配比,长输入请求多的时候增加预填充节点,长输出请求多的时候增加解码节点
- 行业落地进展:阶段拆分已成为行业主流优化方向,软硬协同优化加速落地
- Exo Labs已实现演示:在DGX Spark上执行计算密集的预填充阶段,在Mac上执行解码阶段,整体速度优于单设备运行
- NVIDIA已发布Rubin CPX专用预填充加速器,专门优化预填充阶段的计算效率
- Dynamo原生支持阶段拆分调度,用户无需修改业务代码即可自动享受相关优化收益
💬 精华片段(中文)
一些杰出的研究人员在多篇论文中意识到,如果将这两个阶段分开,实际上能获得不少收益。
"Some brilliant researchers across multiple different papers essentially made the realization that if you separate these two phases, you actually gain some benefits."
41:05 基于Grove的Kubernetes弹性伸缩
本节重点
- Dynamo内置的Grove组件是专门为推理场景设计的Kubernetes调度扩展
- 传统Leader Worker Set无法满足预填充/解码阶段的动态配比需求,Grove解决了这一痛点
- Grove可根据实时负载自动调整预填充、解码节点的数量,实现资源的动态最优分配
详细精要
- 传统Kubernetes调度的痛点:原生调度组件无法适配推理场景的动态特性
- 传统Kubernetes的Leader Worker Set组件适合固定配比的多节点任务,无法支持预填充、解码阶段的动态比例调整
- 推理业务的负载特征随时变化,长输入请求占比高时需要更多预填充资源,长输出请求占比高时需要更多解码资源,固定配比会导致资源浪费
- Grove组件的核心能力:专门为推理场景设计的弹性调度组件
- 可实时监控业务负载特征,自动计算当前最优的预填充、解码节点配比,动态调整集群资源分配
- 支持异构硬件调度,可自动将预填充任务调度到计算型GPU,解码任务调度到大显存GPU,最大化硬件利用率
- 兼容现有Kubernetes生态,用户无需修改集群配置即可部署使用,学习成本极低
- 落地效果:Grove已在NVIDIA内部大规模部署,资源利用率提升显著
- 内部推理服务部署后,平均GPU利用率从30%左右提升到60%以上,单位推理成本下降40%
- 面对突发流量时,可在1分钟内完成资源扩容,满足业务峰值的延迟SLA要求
💬 精华片段(中文)
如果突然解码侧的工作量保持稳定或仅小幅增长,而预填充侧的工作量大幅上升,你肯定不希望两者的比例保持固定,你需要它随时间动态变化。
"Suddenly, like the amount of work you’re doing on the decode side stays about the same or like scales a little bit, and then the prefilled side like jumps up a lot. You actually don’t want that ratio to be the same. You want it to change over time."
43:20 上下文长度与软硬协同设计
本节重点
- 长上下文性能瓶颈的核心突破路径是模型架构、硬件、使用场景的三方协同设计
- DeepSeek、Kimi等厂商已通过调整注意力头数、专家稀疏度等架构优化,大幅降低KV缓存开销
- 未来可能出现预填充、解码阶段采用不同架构的混合模型,突破当前上下文长度的物理限制
详细精要
- 软硬协同设计的核心逻辑:单一维度优化无法突破长上下文的性能瓶颈
- 传统纯算法优化的效果有限,当前主流模型的上下文长度卡在100万token左右,无法满足Agent等场景的超大规模上下文需求
- 三方协同设计指在模型训练阶段就考虑硬件特性、上层使用场景的需求,从架构层面做针对性优化
- Kimi 2的设计是典型案例:减少注意力头数降低预填充的二次方计算量,增加专家数量并提升稀疏度保障模型质量,最终在相同硬件下实现更长的上下文支持
- 现有优化方案的效果:架构优化已带来显著的KV缓存开销下降
- DeepSeek采用的MLA(多头潜在注意力)技术,将128k上下文的KV缓存占用从同参数LLaMA模型的40-80GB降低到8GB,大幅降低长上下文推理成本
- GQA(分组查询注意力)等技术已成为当前大模型的标配,可在少量质量损失的前提下降低75%的KV缓存开销
- 未来突破方向:技术创新有望将上下文长度提升到1000万token级别
- 可能出现分块预填充、全局解码的混合模型架构,将预填充的二次方计算转化为多个线性计算任务,大幅降低长输入的计算量
- 新的注意力算法、存储介质创新等「去hobbler」技术(即打破现有瓶颈的科学发现)将持续推动上下文长度的突破
💬 精华片段(中文)
我不会惊讶于我们通过新的技术突破,将上下文长度提升到1000万、2000万甚至1亿token级别,这就是科学的魅力。
"I wouldn’t be surprised if we do see the ability to like, break through to like 10 million, 20 million, a hundred million context through the an un hobbler showing up. I see. And it’s just science."
57:34 Agent安全与推理网关实践(含58:01 Agent权限模型、59:10 NVIDIA推理网关建设)
本节重点
- NVIDIA内部对Agent类工具采用「开放测试+严格隔离」的策略,平衡创新与安全
- Agent权限管控的核心原则是禁止同时开放文件访问、网络访问、代码执行三类能力
- build.nvidia.com是NVIDIA面向开发者的免费推理网关,支持新模型发布当天即可上线测试
详细精要
- 内部Agent落地策略:NVIDIA安全团队采用渐进式的Agent落地路径
- 允许员工测试各类Agent工具,但必须在隔离的Brev虚拟机环境中运行,禁止接触公司内网与敏感数据
- 鼓励员工主动上报Agent工具的安全漏洞,快速迭代安全管控规则,而非直接禁止新工具的使用
- Agent权限模型的核心规范:已形成可对外复用的权限管控框架
- 核心原则:任何场景下Agent不得同时拥有文件访问、网络访问、代码执行三类权限,最多开放两类
- 针对企业内部场景,优先采用企业自有模型部署Agent,避免将敏感数据上传到第三方模型服务
- 正在研发细粒度的权限管控系统,可限制Agent仅访问指定目录、指定域名的网络资源,进一步降低安全风险
- 公共推理网关实践:build.nvidia.com为开发者提供免费的模型测试服务
- 支持所有主流开源模型,提供速率限制的免费调用额度,适合黑客、个人开发者快速测试新模型
- 新模型发布后平均1天内即可上线支持,是行业内模型更新速度最快的公共推理服务之一
- 该网关是Dynamo框架的早期大规模落地场景,验证了Dynamo在多模型混合部署、动态流量调度等场景的稳定性
💬 精华片段(中文)
NVIDIA的安全团队非常出色,他们很有前瞻性,知道这是真正重要的技术,你必须把它引入进来。
"Security team and Nvidia is incredible. Like, shout out to them. They’re, they’re, they’re trying to, we have a, we have an amazing security team ‘cause they’re progressive and they know that this is really important technology and you have to bring it in."
01:01:52 黑客松与自动化梦想
本节重点
- NVIDIA将在GTC 2026举办零代码Agent黑客松,参赛者仅需提交Agent即可参与挑战
- Agent的核心体验优化方向是CLI标准化,所有企业服务都应提供完善的CLI接口,降低Agent的调用门槛
- 2026年将成为「系统即模型」的元年,多Agent系统将替代单一模型成为主流部署形态
详细精要
- GTC 2026 Agent黑客松:首次推出零代码参与的Agent竞赛模式
- 参赛者无需现场编码,仅需提交预先开发好的Agent,由系统自动分配任务挑战,根据完成度评分
- 挑战任务包括浏览器操作、服务调用、代码编写等真实场景,测试Agent的通用能力
- 同时将举办自动驾驶相关的黑客松,基于NVIDIA最新开源的自动驾驶模型,尝试在普通车辆上实现自动驾驶功能
- Agent体验优化方向:CLI标准化是降低Agent调用门槛的核心路径
- 代码Agent的效率远高于通用Agent,核心原因是终端CLI有标准化的接口、丰富的公开训练数据,Agent更容易学习使用
- NVIDIA正在推动所有内部工具、企业服务提供标准化的CLI接口,包括Slack、Workday等非技术类工具
- 计划开源内部的CLI工具集,支持行业建立统一的CLI标准,降低Agent的适配成本
- 多Agent系统的发展趋势:2026年将迎来「系统即模型」的架构转型
- 未来面向用户的单一API接口背后,将是由多个专业化小模型、子Agent组成的复杂系统,而非单一的大模型
- Dynamo 2026年的核心研发方向就是支持多Agent系统的调度优化,降低多模型协同的协调成本
- 模型路由技术已在DGX Spark上落地,可自动判断请求应该调度到本地小模型还是云端大模型,平衡成本与质量
💬 精华片段(中文)
计算始于终端shell,我们曾经认为它对人类不够友好,所以构建了漂亮的用户界面。现在我们让大模型导航这些用户界面,讽刺的是,我们现在对机器不够友好了。
"It’s kind of funny, right? Like we, like computing began with a terminal with a shell, but we said that it’s not empathetic to, uh, humans. So we built these nice user interfaces and then now we have LMS navigating our user interfaces. And ironically, we’re not empathetic to the machine anymore."
01:10:26 本地GPU与推理规模扩展
本节重点
- 消费级/专业级本地GPU适合个人开发者、小型团队运行Agent,降低长期推理成本
- 数据中心级规模推理可通过软硬协同优化实现远超本地设备的性价比,GB200集群的单位token成本比Hopper低35倍
- 子Agent架构是2026年的核心技术方向,可通过专业化小模型降低整体推理成本
详细精要
- 本地GPU的适用场景:Blackwell架构的消费级、专业级GPU为本地推理提供了高性价比选择
- RTX 6000 Ada专业卡拥有96GB ECC显存,售价约8000美元,可在本地运行70B参数级别的大模型,适合个人开发者、小型团队使用
- DGX Spark可作为家庭小型数据中心,支持Brev远程管理,适合运行长期Agent任务,避免云资源的闲置浪费
- 本地GPU的推理速度低于云端集群,但适合对延迟不敏感、数据敏感的私有任务场景
- 数据中心级推理的规模效应:集群部署可实现远超单设备的性价比
- GB200 NVL 72集群通过Wide EP等优化技术,针对MoE模型的单位token成本比Hopper集群低35倍,是大规模在线推理的最优选择
- 规模效应带来的成本下降速度远快于单设备性能提升速度,企业级场景优先选择集群部署方案
- 子Agent架构的优化潜力:分层多Agent系统可进一步降低推理成本
- 主Agent负责逻辑协调,将具体任务分派给专业化的子Agent完成,子Agent可采用更小的模型、更针对性的优化
- 子Agent可部署在离用户更近的边缘节点,降低请求的往返延迟,同时减少核心集群的负载
- Dynamo原生支持子Agent的调度编排,可自动完成主从Agent的资源分配、结果汇总等底层工作
💬 精华片段(中文)
规模经济能让你同时获得速度和吞吐量的提升。举个例子,Wide EP优化在DeepSeek的推理性能提升中起到了核心作用,对于MoE模型来说基本是必备技术。
"The big learning economy of scale allows you to do things that allow you to get both speed and throughput. Like you can run. I’ll give you an example. There’s an optimization called Wide ep. I’m not gonna go into it fully, but like it featured heavily in, in inference Maxim for Deep seek."
01:15:31 长时运行Agent与旧金山创业回忆
本节重点
- 2026年底将出现可连续运行24小时以上保持一致性的长时Agent,医疗、科研等场景对长时Agent需求强烈
- 当前生产级Agent的平均自主运行时长约为20-45分钟,未来将先向效率优化再向时长提升演进
- 旧金山的创业生态为AI技术的早期爆发提供了土壤,高度聚集的开发者社区大幅加速了技术迭代速度
详细精要
- 长时运行Agent的发展现状与趋势:自主运行时长正在快速提升
- 当前生产级Agent的平均自主运行时长为20-45分钟,主要用于代码编写、信息检索等中等长度任务
- 医疗研究、GPU kernel优化等专业场景对长时Agent需求强烈,愿意接受更高的推理成本换取更长的自主运行时间
- 预计2026年底将出现可连续运行24小时以上、保持任务一致性的长时Agent,配套的日志、可观测性工具正在快速迭代
- 长时Agent的优化路径:效率优化优先于时长扩展
- 当前Agent的运行效率较低,大量时间消耗在无意义的路径探索上,先提升推理效率可大幅降低长时运行的成本
- 推理预取、分支预测等技术将被应用到Agent调度中,提前预判用户需求,预运行相关任务,降低用户等待时间
- 自我纠错、上下文压缩等技术可提升长时运行的一致性,避免Agent随着运行时间增加出现任务偏移
- 旧金山早期AI创业回忆:2021-2023年的旧金山为AI早期创业者提供了独特的环境
- 疫情后旧金山租金下降,大量硬核创业者留在城市,形成了高度聚集的开发者社区,技术交流效率极高
- 开放的社区文化鼓励创业者互相帮助,早期Brev、AI Engineer等项目都受益于社区的支持与反馈
- 自动驾驶、Agent等前沿技术最早在旧金山落地测试,城市对新技术的包容度极高,为技术迭代提供了真实场景
💬 精华片段(中文)
我预计我们会看到对数线性甚至超对数线性的增长,2026年底之前我们就会看到能够连续运行超过24小时、全程保持一致性的Agent。
"I expect that we’ll just see like log linear, if not log super linear growth. We will see before the end of the year an agent that is capable of running for longer than 24 hours with like self consistency the entire time."
专业术语注释
| 术语(英文) |
解释 |
| Brev |
NVIDIA推出的GPU资源管理工具,支持一键申请、接入云GPU与本地GPU,降低开发者使用GPU的门槛 |
| Dynamo |
NVIDIA推出的数据中心级推理编排框架,可在vLLM、TRT-LLM等单节点推理引擎之上实现分布式调度、弹性伸缩等优化 |
| SOL (Speed of Light) |
NVIDIA核心企业文化,指基于第一性原理推导任务的理论极限速度,再逐层叠加现实约束,打破流程冗余提升效率;硬件层面指GPU的理论最高运行速度 |
| KV Cache |
键值缓存,大模型推理过程中存储已计算的注意力键值对,避免重复计算,大幅提升解码阶段的效率 |
| Prefill(预填充) |
大模型推理的第一阶段,处理用户输入的prompt,生成KV缓存,计算量随输入长度呈二次方增长,属于计算密集型任务 |
| Decode(解码) |
大模型推理的第二阶段,基于已生成的KV缓存逐token生成输出,计算量随上下文长度线性增长,属于显存密集型任务 |
| Grove |
Dynamo内置的Kubernetes调度扩展组件,专门支持预填充/解码阶段的动态配比、弹性伸缩,提升推理集群的资源利用率 |
| GQA (Grouped Query Attention) |
分组查询注意力,大模型架构优化技术,通过共享注意力头的KV值降低75%的KV缓存开销,是当前主流大模型的标配技术 |
| MLA (Multi-head Latent Attention) |
多头潜在注意力,DeepSeek提出的架构优化技术,大幅降低长上下文场景的KV缓存占用,128k上下文的KV缓存仅需8GB |
| MoE (Mixture of Experts) |
混合专家模型,大模型架构的一种,由多个专家子模型组成,每次推理仅激活部分专家,可在更高参数规模下保持较低的推理成本 |
| NIM |
NVIDIA面向企业推出的推理部署套件,打包了Dynamo等所有优化技术,提供企业级支持服务 |
| MFU (Model Flops Utilization) |
模型浮点运算利用率,衡量GPU在模型训练/推理过程中的算力使用效率,越高代表硬件利用率越好 |
| NVLink |
NVIDIA推出的GPU间高速通信技术,H100的NVLink单向带宽约500GB/s,比InfiniBand快一个数量级,通信域上限为8卡 |
| InfiniBand |
数据中心常用的高速网络通信技术,单向带宽约50GB/s,用于超过8卡的多节点GPU集群通信 |
| Speculative Decoding |
投机解码,推理优化技术,用小模型提前预测输出token,大模型仅做验证,可在不损失质量的前提下提升解码速度2-3倍 |
| DGX Spark |
NVIDIA推出的小型桌面级GPU系统,支持远程管理,适合个人开发者、小型团队运行本地推理任务 |
| Blackwell |
NVIDIA新一代GPU架构,相比上一代Hopper架构在能效比、显存容量等方面有大幅提升 |
| GB200 |
NVIDIA基于Blackwell架构推出的数据中心级GPU,专为大规模AI推理和训练设计 |
延伸思考
- NVIDIA的SOL文化在万亿市值规模下仍能保持高效落地,其「使命优先、层级扁平化」的组织模式对大型科技公司的管理创新有重要参考价值,值得其他企业研究借鉴。
- 预填充/解码拆分、阶段专用硬件的趋势下,推理产业链将进一步细化,专用加速器、弹性调度框架等细分领域将出现新的创业机会。
- Agent权限管控的三类能力边界原则已在NVIDIA内部验证可行,未来可能成为行业通用的Agent安全规范,相关的细粒度权限管控工具将迎来需求爆发。
- CLI标准化、模型路由等技术的普及,将推动本地小模型与云端大模型的混合部署成为主流,用户可根据场景灵活选择最优的推理方案,无需绑定单一部署形态。
- 软硬协同设计成为大模型迭代的核心竞争力,拥有硬件栈的厂商将在长上下文、Agent等场景获得显著优势,纯软件大模型厂商需要与硬件厂商深度合作才能保持竞争力。
原文发表:Mar 10, 2026 · 纪要生成:2026-03-11