▶ 原文链接

NVIDIA AI工程师:行星级代理推理与「光速」工作法——Nader Khalil(Brev)、Kyle Kranen(Dynamo)

来源: Latent Space(Substack) | 嘉宾Nader Khalil(NVIDIA Brev开发者关系负责人)、Kyle Kranen(NVIDIA Dynamo工程负责人/核心架构师) | 2026-03-10 播客: Latent Space 分类: NVIDIA 原文发表: Mar 10, 2026 纪要生成: 2026-03-11


全集重点


嘉宾/话题简介

本期播客邀请NVIDIA Brev团队负责人Nader Khalil、Dynamo核心架构师Kyle Kranen做客,两位嘉宾均为NVIDIA内部兼具创业背景与一线技术经验的核心成员。Nader主导的Brev产品致力于降低开发者获取GPU资源的门槛,现已支持从个人本地硬件到多厂商云GPU的统一管理。Kyle主导的Dynamo是NVIDIA推出的数据中心级推理框架,支撑了NVIDIA内部及外部客户的大规模推理场景优化。本次对话围绕NVIDIA内部文化、推理技术演进、Agent落地实践等话题展开,同时披露了GTC 2026的相关重点议题。


分节详述

00:00 Agent安全基础

本节重点

详细精要

💬 精华片段(中文)

代理能做三件事:访问你的文件、接入互联网,以及编写自定义代码并执行。你绝对只能让代理做这三件事中的两件。

"Agents can do three things. They can access your files, they can access the internet, and then now they can write custom code and execute it. You literally only let an agent do two of those three things."


00:39 播客开场与嘉宾介绍

本节重点

详细精要

💬 精华片段(中文)

每次有人说他们想要A100,他们说出的需求文本就像被藏在角落一样。所以我们就在想,如果把用户需求做成页面上最大的文本会怎么样?

"Every time someone says they want an A 100, like the piece of text that they’re telling me that they want is like, stuffed away in the corner. Yeah. And so we were like, what if the biggest piece of text was what the user’s asking for?"


07:19 收购历程与开发者体验转型

本节重点

详细精要

💬 精华片段(中文)

我认为收购的成功程度,取决于产品灵魂的匹配程度。对我们来说,很多时候感觉就像回家了一样,这是非常好的结果。

"I think that, you know, when it comes to like an acquisition, I think the amount that the soul of the products align, I think is gonna be. Is going speak to the success of the acquisition. Yeah. And so it in many ways feels like we’re home."


13:48 SOL文化与Dynamo框架背景

本节重点

详细精要

💬 精华片段(中文)

SOL本质上就是问你,物理极限是什么?光速以固定速度传播,如果某个流程的速度比光速还慢,那肯定有什么东西挡住了路。

"SOL is is essentially like what is the physics, right? The speed of light moves at a certain speed. So if flight’s moving some slower, then you know something’s in the way."


27:38 推理架构的横向扩展逻辑(含29:02纵向扩展瓶颈、30:24从笔记本到多节点)

本节重点

详细精要

💬 精华片段(中文)

当你实际大规模部署服务时,不能只靠纵向扩展单副本,因为会遇到性能问题。纵向扩展副本存在scaling上限,所以你必须用Kubernetes领域常说的横向扩展。

"But when you’re actually serving things at scale, you can’t just scale up that replica because you end up with like performance problems. There’s a scaling limit to scaling up replicas. So you actually have to scale out to use a, maybe some Kubernetes type terminology."


33:07 成本-质量-延迟三角权衡

本节重点

详细精要

💬 精华片段(中文)

你要关心三个轴:产出的质量是否足够高,能否以足够低的成本服务模型或工作流,以及能否足够快地完成服务。

"There’s three axes you care about. What is the quality that you’re able to produce? So like, are you accurate enough or can you complete the task with enough, performance, high enough performance. Yeah, yeah. Uh, there’s cost. Can you serve the model or serve your workflow? Because it’s not just the model anymore, it’s the workflow. It’s the multi turn with an agent cheaply enough. And then can you serve it fast enough?"


38:42 预填充与解码阶段拆分优化

本节重点

详细精要

💬 精华片段(中文)

一些杰出的研究人员在多篇论文中意识到,如果将这两个阶段分开,实际上能获得不少收益。

"Some brilliant researchers across multiple different papers essentially made the realization that if you separate these two phases, you actually gain some benefits."


41:05 基于Grove的Kubernetes弹性伸缩

本节重点

详细精要

💬 精华片段(中文)

如果突然解码侧的工作量保持稳定或仅小幅增长,而预填充侧的工作量大幅上升,你肯定不希望两者的比例保持固定,你需要它随时间动态变化。

"Suddenly, like the amount of work you’re doing on the decode side stays about the same or like scales a little bit, and then the prefilled side like jumps up a lot. You actually don’t want that ratio to be the same. You want it to change over time."


43:20 上下文长度与软硬协同设计

本节重点

详细精要

💬 精华片段(中文)

我不会惊讶于我们通过新的技术突破,将上下文长度提升到1000万、2000万甚至1亿token级别,这就是科学的魅力。

"I wouldn’t be surprised if we do see the ability to like, break through to like 10 million, 20 million, a hundred million context through the an un hobbler showing up. I see. And it’s just science."


57:34 Agent安全与推理网关实践(含58:01 Agent权限模型、59:10 NVIDIA推理网关建设)

本节重点

详细精要

💬 精华片段(中文)

NVIDIA的安全团队非常出色,他们很有前瞻性,知道这是真正重要的技术,你必须把它引入进来。

"Security team and Nvidia is incredible. Like, shout out to them. They’re, they’re, they’re trying to, we have a, we have an amazing security team ‘cause they’re progressive and they know that this is really important technology and you have to bring it in."


01:01:52 黑客松与自动化梦想

本节重点

详细精要

💬 精华片段(中文)

计算始于终端shell,我们曾经认为它对人类不够友好,所以构建了漂亮的用户界面。现在我们让大模型导航这些用户界面,讽刺的是,我们现在对机器不够友好了。

"It’s kind of funny, right? Like we, like computing began with a terminal with a shell, but we said that it’s not empathetic to, uh, humans. So we built these nice user interfaces and then now we have LMS navigating our user interfaces. And ironically, we’re not empathetic to the machine anymore."


01:10:26 本地GPU与推理规模扩展

本节重点

详细精要

💬 精华片段(中文)

规模经济能让你同时获得速度和吞吐量的提升。举个例子,Wide EP优化在DeepSeek的推理性能提升中起到了核心作用,对于MoE模型来说基本是必备技术。

"The big learning economy of scale allows you to do things that allow you to get both speed and throughput. Like you can run. I’ll give you an example. There’s an optimization called Wide ep. I’m not gonna go into it fully, but like it featured heavily in, in inference Maxim for Deep seek."


01:15:31 长时运行Agent与旧金山创业回忆

本节重点

详细精要

💬 精华片段(中文)

我预计我们会看到对数线性甚至超对数线性的增长,2026年底之前我们就会看到能够连续运行超过24小时、全程保持一致性的Agent。

"I expect that we’ll just see like log linear, if not log super linear growth. We will see before the end of the year an agent that is capable of running for longer than 24 hours with like self consistency the entire time."


专业术语注释

术语(英文) 解释
Brev NVIDIA推出的GPU资源管理工具,支持一键申请、接入云GPU与本地GPU,降低开发者使用GPU的门槛
Dynamo NVIDIA推出的数据中心级推理编排框架,可在vLLM、TRT-LLM等单节点推理引擎之上实现分布式调度、弹性伸缩等优化
SOL (Speed of Light) NVIDIA核心企业文化,指基于第一性原理推导任务的理论极限速度,再逐层叠加现实约束,打破流程冗余提升效率;硬件层面指GPU的理论最高运行速度
KV Cache 键值缓存,大模型推理过程中存储已计算的注意力键值对,避免重复计算,大幅提升解码阶段的效率
Prefill(预填充) 大模型推理的第一阶段,处理用户输入的prompt,生成KV缓存,计算量随输入长度呈二次方增长,属于计算密集型任务
Decode(解码) 大模型推理的第二阶段,基于已生成的KV缓存逐token生成输出,计算量随上下文长度线性增长,属于显存密集型任务
Grove Dynamo内置的Kubernetes调度扩展组件,专门支持预填充/解码阶段的动态配比、弹性伸缩,提升推理集群的资源利用率
GQA (Grouped Query Attention) 分组查询注意力,大模型架构优化技术,通过共享注意力头的KV值降低75%的KV缓存开销,是当前主流大模型的标配技术
MLA (Multi-head Latent Attention) 多头潜在注意力,DeepSeek提出的架构优化技术,大幅降低长上下文场景的KV缓存占用,128k上下文的KV缓存仅需8GB
MoE (Mixture of Experts) 混合专家模型,大模型架构的一种,由多个专家子模型组成,每次推理仅激活部分专家,可在更高参数规模下保持较低的推理成本
NIM NVIDIA面向企业推出的推理部署套件,打包了Dynamo等所有优化技术,提供企业级支持服务
MFU (Model Flops Utilization) 模型浮点运算利用率,衡量GPU在模型训练/推理过程中的算力使用效率,越高代表硬件利用率越好
NVLink NVIDIA推出的GPU间高速通信技术,H100的NVLink单向带宽约500GB/s,比InfiniBand快一个数量级,通信域上限为8卡
InfiniBand 数据中心常用的高速网络通信技术,单向带宽约50GB/s,用于超过8卡的多节点GPU集群通信
Speculative Decoding 投机解码,推理优化技术,用小模型提前预测输出token,大模型仅做验证,可在不损失质量的前提下提升解码速度2-3倍
DGX Spark NVIDIA推出的小型桌面级GPU系统,支持远程管理,适合个人开发者、小型团队运行本地推理任务
Blackwell NVIDIA新一代GPU架构,相比上一代Hopper架构在能效比、显存容量等方面有大幅提升
GB200 NVIDIA基于Blackwell架构推出的数据中心级GPU,专为大规模AI推理和训练设计

延伸思考

  1. NVIDIA的SOL文化在万亿市值规模下仍能保持高效落地,其「使命优先、层级扁平化」的组织模式对大型科技公司的管理创新有重要参考价值,值得其他企业研究借鉴。
  2. 预填充/解码拆分、阶段专用硬件的趋势下,推理产业链将进一步细化,专用加速器、弹性调度框架等细分领域将出现新的创业机会。
  3. Agent权限管控的三类能力边界原则已在NVIDIA内部验证可行,未来可能成为行业通用的Agent安全规范,相关的细粒度权限管控工具将迎来需求爆发。
  4. CLI标准化、模型路由等技术的普及,将推动本地小模型与云端大模型的混合部署成为主流,用户可根据场景灵活选择最优的推理方案,无需绑定单一部署形态。
  5. 软硬协同设计成为大模型迭代的核心竞争力,拥有硬件栈的厂商将在长上下文、Agent等场景获得显著优势,纯软件大模型厂商需要与硬件厂商深度合作才能保持竞争力。

原文发表:Mar 10, 2026  ·  纪要生成:2026-03-11