▶ 原文链接

NVIDIA AI工程师:行星级代理推理与「光速」工作法——Nader Khalil(Brev)、Kyle Kranen(Dynamo)

来源: Latent Space(Substack) | 嘉宾Nader Khalil(NVIDIA Brev开发者关系负责人)、Kyle Kranen(NVIDIA Dynamo工程负责人/核心架构师) | 2026-03-10 分类: NVIDIA 原文发表: Mar 10, 2026 纪要生成: 2026-03-11


全集重点


嘉宾/话题简介

本期播客邀请NVIDIA Brev团队负责人Nader Khalil、Dynamo核心架构师Kyle Kranen做客,两位嘉宾均为NVIDIA内部兼具创业背景与一线技术经验的核心成员。Nader主导的Brev产品致力于降低开发者获取GPU资源的门槛,现已支持从个人本地硬件到多厂商云GPU的统一管理。Kyle主导的Dynamo是NVIDIA推出的数据中心级推理框架,支撑了NVIDIA内部及外部客户的大规模推理场景优化。本次对话围绕NVIDIA内部文化、推理技术演进、Agent落地实践等话题展开,同时披露了GTC 2026的相关重点议题。


分节详述

00:00 Agent安全基础

本节重点 - Agent核心能力可分为文件访问、网络访问、代码执行三类 - 三类能力不可同时开放,否则将引入重大安全漏洞 - NVIDIA内部已针对Agent权限管控形成初步落地规范

详细精要

💬 精华片段(中文)

代理能做三件事:访问你的文件、接入互联网,以及编写自定义代码并执行。你绝对只能让代理做这三件事中的两件。

"Agents can do three things. They can access your files, they can access the internet, and then now they can write custom code and execute it. You literally only let an agent do two of those three things."


00:39 播客开场与嘉宾介绍

本节重点 - 两位嘉宾均为NVIDIA内部兼具技术与开发者运营经验的核心成员 - 本次录制临近GTC 2026大会,后续将披露大会相关核心议题 - Nader曾通过冲浪板等创意营销手段让Brev在GTC展会上脱颖而出

详细精要

💬 精华片段(中文)

每次有人说他们想要A100,他们说出的需求文本就像被藏在角落一样。所以我们就在想,如果把用户需求做成页面上最大的文本会怎么样?

"Every time someone says they want an A 100, like the piece of text that they’re telling me that they want is like, stuffed away in the corner. Yeah. And so we were like, what if the biggest piece of text was what the user’s asking for?"


07:19 收购历程与开发者体验转型

本节重点 - Brev与NVIDIA的开发者体验战略高度契合,收购后产品保持独立迭代并获得高速增长 - NVIDIA正面向更广泛的开发者群体重构开发者体验,覆盖从新手到资深工程师的全层级需求 - Brev已成为NVIDIA内部隔离运行高风险工具的标准环境,满足安全合规要求

详细精要

💬 精华片段(中文)

我认为收购的成功程度,取决于产品灵魂的匹配程度。对我们来说,很多时候感觉就像回家了一样,这是非常好的结果。

"I think that, you know, when it comes to like an acquisition, I think the amount that the soul of the products align, I think is gonna be. Is going speak to the success of the acquisition. Yeah. And so it in many ways feels like we’re home."


13:48 SOL文化与Dynamo框架背景

本节重点 - SOL(光速)是NVIDIA核心企业文化,基于第一性原理推导理论极限,打破流程冗余 - SOL文化不仅适用组织管理,也对应硬件性能的理论上限计算,贯穿软硬件研发全流程 - Kyle从推荐系统、图神经网络领域切入,主导研发了面向数据中心级场景的Dynamo推理框架

详细精要

💬 精华片段(中文)

SOL本质上就是问你,物理极限是什么?光速以固定速度传播,如果某个流程的速度比光速还慢,那肯定有什么东西挡住了路。

"SOL is is essentially like what is the physics, right? The speed of light moves at a certain speed. So if flight’s moving some slower, then you know something’s in the way."


27:38 推理架构的横向扩展逻辑(含29:02纵向扩展瓶颈、30:24从笔记本到多节点)

本节重点 - 推理架构优先选择横向扩展而非纵向扩展,可突破硬件通信的物理瓶颈 - 纵向扩展受限于NVLink、InfiniBand的通信速度上限,超过8卡后性能衰减明显 - Dynamo可覆盖从单节点笔记本到多节点集群的全场景推理部署需求,降低开发者适配成本

详细精要

💬 精华片段(中文)

当你实际大规模部署服务时,不能只靠纵向扩展单副本,因为会遇到性能问题。纵向扩展副本存在scaling上限,所以你必须用Kubernetes领域常说的横向扩展。

"But when you’re actually serving things at scale, you can’t just scale up that replica because you end up with like performance problems. There’s a scaling limit to scaling up replicas. So you actually have to scale out to use a, maybe some Kubernetes type terminology."


33:07 成本-质量-延迟三角权衡

本节重点 - 推理部署的核心决策逻辑围绕成本、质量、延迟三个核心维度展开,三者存在固定权衡关系 - 测试时缩放、多轮重试等技术可在不更换大模型的前提下提升输出质量,但会增加成本与延迟 - Dynamo提供可视化调优旋钮,帮助用户在三角约束中找到符合自身业务需求的最优解

详细精要

💬 精华片段(中文)

你要关心三个轴:产出的质量是否足够高,能否以足够低的成本服务模型或工作流,以及能否足够快地完成服务。

"There’s three axes you care about. What is the quality that you’re able to produce? So like, are you accurate enough or can you complete the task with enough, performance, high enough performance. Yeah, yeah. Uh, there’s cost. Can you serve the model or serve your workflow? Because it’s not just the model anymore, it’s the workflow. It’s the multi turn with an agent cheaply enough. And then can you serve it fast enough?"


38:42 预填充与解码阶段拆分优化

本节重点 - 推理过程分为预填充、解码两个阶段,两者的资源需求、性能特性存在显著差异 - 拆分两个阶段独立调度,可解决传统单引擎的调度阻塞问题,大幅提升硬件利用率 - 未来将出现专用的预填充加速硬件,进一步提升拆分架构的性价比

详细精要

💬 精华片段(中文)

一些杰出的研究人员在多篇论文中意识到,如果将这两个阶段分开,实际上能获得不少收益。

"Some brilliant researchers across multiple different papers essentially made the realization that if you separate these two phases, you actually gain some benefits."


41:05 基于Grove的Kubernetes弹性伸缩

本节重点 - Dynamo内置的Grove组件是专门为推理场景设计的Kubernetes调度扩展 - 传统Leader Worker Set无法满足预填充/解码阶段的动态配比需求,Grove解决了这一痛点 - Grove可根据实时负载自动调整预填充、解码节点的数量,实现资源的动态最优分配

详细精要

💬 精华片段(中文)

如果突然解码侧的工作量保持稳定或仅小幅增长,而预填充侧的工作量大幅上升,你肯定不希望两者的比例保持固定,你需要它随时间动态变化。

"Suddenly, like the amount of work you’re doing on the decode side stays about the same or like scales a little bit, and then the prefilled side like jumps up a lot. You actually don’t want that ratio to be the same. You want it to change over time."


43:20 上下文长度与软硬协同设计

本节重点 - 长上下文性能瓶颈的核心突破路径是模型架构、硬件、使用场景的三方协同设计 - DeepSeek、Kimi等厂商已通过调整注意力头数、专家稀疏度等架构优化,大幅降低KV缓存开销 - 未来可能出现预填充、解码阶段采用不同架构的混合模型,突破当前上下文长度的物理限制

详细精要

💬 精华片段(中文)

我不会惊讶于我们通过新的技术突破,将上下文长度提升到1000万、2000万甚至1亿token级别,这就是科学的魅力。

"I wouldn’t be surprised if we do see the ability to like, break through to like 10 million, 20 million, a hundred million context through the an un hobbler showing up. I see. And it’s just science."


57:34 Agent安全与推理网关实践(含58:01 Agent权限模型、59:10 NVIDIA推理网关建设)

本节重点 - NVIDIA内部对Agent类工具采用「开放测试+严格隔离」的策略,平衡创新与安全 - Agent权限管控的核心原则是禁止同时开放文件访问、网络访问、代码执行三类能力 - build.nvidia.com是NVIDIA面向开发者的免费推理网关,支持新模型发布当天即可上线测试

详细精要

💬 精华片段(中文)

NVIDIA的安全团队非常出色,他们很有前瞻性,知道这是真正重要的技术,你必须把它引入进来。

"Security team and Nvidia is incredible. Like, shout out to them. They’re, they’re, they’re trying to, we have a, we have an amazing security team ‘cause they’re progressive and they know that this is really important technology and you have to bring it in."


01:01:52 黑客松与自动化梦想

本节重点 - NVIDIA将在GTC 2026举办零代码Agent黑客松,参赛者仅需提交Agent即可参与挑战 - Agent的核心体验优化方向是CLI标准化,所有企业服务都应提供完善的CLI接口,降低Agent的调用门槛 - 2026年将成为「系统即模型」的元年,多Agent系统将替代单一模型成为主流部署形态

详细精要

💬 精华片段(中文)

计算始于终端shell,我们曾经认为它对人类不够友好,所以构建了漂亮的用户界面。现在我们让大模型导航这些用户界面,讽刺的是,我们现在对机器不够友好了。

"It’s kind of funny, right? Like we, like computing began with a terminal with a shell, but we said that it’s not empathetic to, uh, humans. So we built these nice user interfaces and then now we have LMS navigating our user interfaces. And ironically, we’re not empathetic to the machine anymore."


01:10:26 本地GPU与推理规模扩展

本节重点 - 消费级/专业级本地GPU适合个人开发者、小型团队运行Agent,降低长期推理成本 - 数据中心级规模推理可通过软硬协同优化实现远超本地设备的性价比,GB200集群的单位token成本比Hopper低35倍 - 子Agent架构是2026年的核心技术方向,可通过专业化小模型降低整体推理成本

详细精要

💬 精华片段(中文)

规模经济能让你同时获得速度和吞吐量的提升。举个例子,Wide EP优化在DeepSeek的推理性能提升中起到了核心作用,对于MoE模型来说基本是必备技术。

"The big learning economy of scale allows you to do things that allow you to get both speed and throughput. Like you can run. I’ll give you an example. There’s an optimization called Wide ep. I’m not gonna go into it fully, but like it featured heavily in, in inference Maxim for Deep seek."


01:15:31 长时运行Agent与旧金山创业回忆

本节重点 - 2026年底将出现可连续运行24小时以上保持一致性的长时Agent,医疗、科研等场景对长时Agent需求强烈 - 当前生产级Agent的平均自主运行时长约为20-45分钟,未来将先向效率优化再向时长提升演进 - 旧金山的创业生态为AI技术的早期爆发提供了土壤,高度聚集的开发者社区大幅加速了技术迭代速度

详细精要

💬 精华片段(中文)

我预计我们会看到对数线性甚至超对数线性的增长,2026年底之前我们就会看到能够连续运行超过24小时、全程保持一致性的Agent。

"I expect that we’ll just see like log linear, if not log super linear growth. We will see before the end of the year an agent that is capable of running for longer than 24 hours with like self consistency the entire time."


专业术语注释

术语(英文) 解释
Brev NVIDIA推出的GPU资源管理工具,支持一键申请、接入云GPU与本地GPU,降低开发者使用GPU的门槛
Dynamo NVIDIA推出的数据中心级推理编排框架,可在vLLM、TRT-LLM等单节点推理引擎之上实现分布式调度、弹性伸缩等优化
SOL (Speed of Light) NVIDIA核心企业文化,指基于第一性原理推导任务的理论极限速度,再逐层叠加现实约束,打破流程冗余提升效率;硬件层面指GPU的理论最高运行速度
KV Cache 键值缓存,大模型推理过程中存储已计算的注意力键值对,避免重复计算,大幅提升解码阶段的效率
Prefill(预填充) 大模型推理的第一阶段,处理用户输入的prompt,生成KV缓存,计算量随输入长度呈二次方增长,属于计算密集型任务
Decode(解码) 大模型推理的第二阶段,基于已生成的KV缓存逐token生成输出,计算量随上下文长度线性增长,属于显存密集型任务
Grove Dynamo内置的Kubernetes调度扩展组件,专门支持预填充/解码阶段的动态配比、弹性伸缩,提升推理集群的资源利用率
GQA (Grouped Query Attention) 分组查询注意力,大模型架构优化技术,通过共享注意力头的KV值降低75%的KV缓存开销,是当前主流大模型的标配技术
MLA (Multi-head Latent Attention) 多头潜在注意力,DeepSeek提出的架构优化技术,大幅降低长上下文场景的KV缓存占用,128k上下文的KV缓存仅需8GB
MoE (Mixture of Experts) 混合专家模型,大模型架构的一种,由多个专家子模型组成,每次推理仅激活部分专家,可在更高参数规模下保持较低的推理成本
NIM NVIDIA面向企业推出的推理部署套件,打包了Dynamo等所有优化技术,提供企业级支持服务
MFU (Model Flops Utilization) 模型浮点运算利用率,衡量GPU在模型训练/推理过程中的算力使用效率,越高代表硬件利用率越好
NVLink NVIDIA推出的GPU间高速通信技术,H100的NVLink单向带宽约500GB/s,比InfiniBand快一个数量级,通信域上限为8卡
InfiniBand 数据中心常用的高速网络通信技术,单向带宽约50GB/s,用于超过8卡的多节点GPU集群通信
Speculative Decoding 投机解码,推理优化技术,用小模型提前预测输出token,大模型仅做验证,可在不损失质量的前提下提升解码速度2-3倍
DGX Spark NVIDIA推出的小型桌面级GPU系统,支持远程管理,适合个人开发者、小型团队运行本地推理任务
Blackwell NVIDIA新一代GPU架构,相比上一代Hopper架构在能效比、显存容量等方面有大幅提升
GB200 NVIDIA基于Blackwell架构推出的数据中心级GPU,专为大规模AI推理和训练设计

延伸思考

  1. NVIDIA的SOL文化在万亿市值规模下仍能保持高效落地,其「使命优先、层级扁平化」的组织模式对大型科技公司的管理创新有重要参考价值,值得其他企业研究借鉴。
  2. 预填充/解码拆分、阶段专用硬件的趋势下,推理产业链将进一步细化,专用加速器、弹性调度框架等细分领域将出现新的创业机会。
  3. Agent权限管控的三类能力边界原则已在NVIDIA内部验证可行,未来可能成为行业通用的Agent安全规范,相关的细粒度权限管控工具将迎来需求爆发。
  4. CLI标准化、模型路由等技术的普及,将推动本地小模型与云端大模型的混合部署成为主流,用户可根据场景灵活选择最优的推理方案,无需绑定单一部署形态。
  5. 软硬协同设计成为大模型迭代的核心竞争力,拥有硬件栈的厂商将在长上下文、Agent等场景获得显著优势,纯软件大模型厂商需要与硬件厂商深度合作才能保持竞争力。

原文发表:Mar 10, 2026  ·  纪要生成:2026-03-11