深入拆解NVIDIA Dynamo端到端架构设计

来源： NVIDIA | Eli（Dynamo首席架构师） | 日期未提供 分类： NVIDIA 原文发表： 未提供 纪要生成： 2026-03-09

全集重点

全链路推理系统：NVIDIA Dynamo是端到端大模型推理服务系统，兼顾灵活性、可扩展性与容错性
离线配置工具：配套AI Configurator仿真工具无需GPU，可快速生成最优部署配置
K8s原生适配：支持预填充/解码工作负载独立弹性扩缩容，降低落地门槛
性能优化组件：内置KV缓存感知路由、Nixle传输库，大幅降低推理延迟
全链路容错：请求级容错+状态一致性设计，保障服务高可用

嘉宾/话题简介

本次分享嘉宾Eli是NVIDIA Dynamo项目的首席架构师。本次分享聚焦Dynamo端到端架构设计思路，回应大模型推理服务平衡吞吐量与交互延迟的核心痛点，覆盖从预部署配置、集群调度、请求路由到故障容错的全链路实现逻辑，为大模型推理大规模落地提供完整方案参考。

分节详述

[00:00] Dynamo架构设计的核心挑战

本节重点

推理系统需平衡交互延迟与吞吐量的帕累托最优，不存在通用适配方案
需适配流量动态变化，支持KV缓存感知调度
内置原生容错能力应对网络故障、OOM、过载等突发场景

详细精要

推理服务的帕累托平衡无通用解：帕累托曲线上每个点对应不同部署配置，Dynamo同时支持聚合与解离部署模式适配不同需求
帕累托曲线上每个点对应不同的并行策略、预填充（Prefill）/解码（Decode）worker配比，初始配置选型难度高
聚合与解离部署模式各自适用于帕累托曲线的不同区间，Dynamo同时支持两类模式，最大化部署灵活性
系统需适配流量动态变化：架构设计支持动态调整配置与调度策略，匹配实时流量特征
可根据实时流量调整预填充/解码worker配比，动态调整帕累托曲线上的部署位置，满足首token延迟、token间延迟SLA要求
支持KV缓存感知路由，优先将请求调度到已有对应缓存的节点，降低重复计算开销
原生容错是核心设计目标：容错能力从架构设计初期内置，而非后期补充
需应对临时网络故障、节点OOM、集群过载排队等多种非预期场景
全链路内置容错机制，避免单点故障导致服务整体不可用

💬 精华片段（中文）

"So as we look at Dynamo, we need to be able to support not only disaggregated serving, but also aggregated serving. Right. And some some areas of the curve aggregated serving will be better than disaggregated. So it's not really a one size fits all."

[02:58] 预部署阶段：AI Configurator离线配置工具

本节重点

AI Configurator可通过仿真快速生成初始部署配置，无需GPU
输入包含模型、硬件、SLA要求等参数，输出并行策略、worker配比等完整配置
比在线profiling效率更高，可搭配在线profiling使用

详细精要

AI Configurator基于仿真生成配置，无GPU依赖：离线仿真即可完成配置选型，适配任意环境
核心逻辑是离线仿真，无需实际GPU资源即可运行，适配任意部署环境
输出结果既可以直接导入Dynamo使用，也可以作为独立配置文件供其他系统使用
输入输出覆盖全链路部署需求：参数覆盖所有核心部署维度，输出直接可用
输入参数包含模型规格、目标硬件、输入输出序列长度、首token延迟要求、token间延迟要求
输出内容包含TP（张量并行）配置、并行策略、预填充/解码worker配比，同时明确推荐采用聚合或解离部署模式
与在线profiling形成互补：大幅缩短配置选型周期，降低调优成本
仿真效率远高于在线性能profiling，大幅缩短配置选型周期
可作为在线profiling的前置环节，缩小参数调优范围，降低在线profiling开销

💬 精华片段（中文）

你可以在任意环境运行这个工具，因为它不需要GPU，完全基于仿真实现，能够快速给出准确的配置结果。

"The idea here is that this allows you to basically do offline configuration for your performance, choosing your particular latency targets and offline be able to quickly determine what is a good starting point. So this will tell you exactly what TP settings to give, what parallelism strategies, also how to match pre-fill and decode workers. And the idea is that you can do it, you can run it anywhere, because it doesn't really require GPU, just because it's done through simulation."

[06:00] 集群调度与服务发现：K8s原生设计

本节重点

Dynamo控制平面完全适配K8s生态，降低落地门槛
自研Grove调度器支持拓扑感知，预填充/解码worker可独立扩缩
采用K8s原生endpoint slice实现服务发现，无需额外组件

详细精要

控制平面基于K8s Operator实现：适配K8s生态，降低用户接入成本
Dynamo Operator是集群部署的核心组件，实现CRD（自定义资源定义），管控所有Pod的全生命周期
选择K8s原生设计的核心原因是K8s已经成为大模型推理大规模部署的事实标准
Grove调度器实现更灵活的弹性扩缩：兼顾拓扑亲和性与扩缩容灵活性
相比传统leader-worker架构只能按固定单元扩缩，Grove支持更细粒度的Pod调度
具备拓扑感知能力，可要求预填充、解码worker处于同一网络域，同时支持两类worker独立扩缩，兼顾性能与灵活性
服务发现复用K8s原生能力：兼容K8s与非K8s部署场景
K8s环境下通过endpoint slice实现Pod间互相发现，模型路径、分词器配置等信息存储在worker生成的CRD中
非K8s环境仍支持etcd等传统服务发现方案，兼容不同部署场景

💬 精华片段（中文）

我们采用标准的K8s技术实现服务发现，用户无需在集群中部署额外服务即可接入，大幅降低了落地门槛。

"So the information is shared between everything during discovery. And again, the main thing to mention is that we're using standard Kubernetes techniques for this. So it makes it easier for people to adopt without needing any additional services within their cluster."

[08:50] 运行时动态调优：Planner与Model Express

本节重点

Planner组件基于推理专属指标自动扩缩容，兼容标准HPA方案
Model Express实现模型快速加载，降低扩缩容冷启动开销
支持集群内模型缓存、GPU间直接内存传输两种加速加载方式

详细精要

Planner实现大模型推理专属自动扩缩容：基于推理业务特征做扩缩容决策，兼容通用扩缩容方案
实时监听流量与SLA达标情况，首token延迟过高时扩容预填充worker，token间延迟过高时扩容解码worker
基于K8s标准扩缩容资源实现，可兼容HPA（水平Pod扩缩容）、Keda等通用扩缩容方案，支持用户自定义扩缩容逻辑
Model Express降低模型加载冷启动开销：从多个维度优化模型加载速度
内置集群级模型缓存，从Hugging Face等平台下载的模型仅需下载一次，无需PVC也可正常运行
正在迭代GPU间直接内存传输功能，已加载模型的GPU可直接向其他GPU传输权重，大幅提升集群启动速度

💬 精华片段（中文）

如果首token延迟开始上升，我们可以增加预填充worker的数量；如果token间延迟成为瓶颈，我们则可以增加解码worker的数量。

"So if your time to first token is starting to increase, we can increase the number of prefill workers. If the intertoken latency is really the challenge, then we can increase the number of decode workers."

[11:10] 请求链路：路由、worker与KV缓存传输

本节重点

前端与路由基于Rust开发，兼容OpenAI、vLLM等标准接口
预填充、解码worker独立优化，支持vLLM、TensorRT-LLM、SGLang等多推理引擎
Nixle高性能传输库作为KV缓存与数据传输底座，支持多介质低延迟传输

详细精要

前端路由基于Rust实现，兼顾性能与兼容性：高性能低延迟，适配主流业务接口
前端与路由可合并部署实现最低延迟，采用Rust作为核心开发语言，保障网络与线程调度性能
兼容OpenAI标准接口与vLLM服务接口，内置分词能力，降低用户适配成本
worker分层设计兼顾性能与灵活性：不同阶段worker独立优化，支持多推理引擎
预填充、解码worker独立部署，分别针对各自计算特征优化：预填充worker并行度更低、数量更多，优先保障延迟；解码worker并行度更高，优先保障内存带宽
worker内核基于Rust实现，推理引擎层抽象统一，适配vLLM、TensorRT-LLM、SGLang等主流引擎，KV事件、扩缩容等逻辑统一处理
Nixle与KV感知路由提升缓存利用率：最大化KV缓存复用率，降低计算开销
Nixle作为统一传输底座，支持CPU-GPU、GPU-GPU、CPU-存储等多介质低延迟传输，支撑预填充与解码worker间的KV缓存迁移、KV缓存离线卸载场景
路由维护全局KV缓存精确索引，worker的KV块存储、驱逐事件实时同步到路由，无需近似判断即可优先将请求调度到有对应缓存的节点，提升缓存命中率，降低首token延迟

💬 精华片段（中文）

路由会维护一个全局索引，记录KV缓存在所有worker上的分布情况，这个索引的信息直接来自worker上报的KV事件，所以完全精确，不需要近似判断缓存是否存在。

"So when blocks are stored or evicted from particular workers, the router keeps track of that and contains a global index for the way the KV cache is distributed across the worker. We call this precise thing because it really gets events directly from the worker so it doesn't have to approximate whether something's in the cache or not."

[16:00] 容错与高可用设计

本节重点

实现请求级容错，支持请求执行过程中迁移、随时取消、过载前置拒绝
所有状态最终一致性，多路由副本状态同步，单副本故障不影响服务
迭代快速重启技术，通过进程checkpoint恢复、影子内存等方式降低故障恢复时间

详细精要

请求级容错保障业务不中断：单个节点故障不会导致请求失败
单worker故障时，正在处理的序列可迁移到健康worker上重启执行，不会直接返回失败
支持全链路请求取消，任意环节触发取消后后续所有阶段都终止执行，避免资源浪费；集群过载时可前置拒绝请求，避免级联故障
状态最终一致性保障组件高可用：有状态组件多副本同步，无单点故障
所有有状态组件的状态都支持多副本同步，比如多个路由实例的KV缓存索引会实时同步
单路由副本故障后，其余副本可直接接管所有流量，无状态不一致问题
快速恢复技术降低故障停机时间：多维度优化故障恢复速度
基于Model Express的GPU间内存传输能力实现权重快速加载
正在迭代进程级checkpoint恢复、影子内存进程等技术，大幅降低冷启动、热启动时间，故障后可最快速度恢复服务

💬 精华片段（中文）

我们现在投入大量精力研发的方向之一是利用Model Express和其他技术实现快速重启，尽可能降低故障后的恢复时间。

"One of the other pieces that we're spending a lot of time on now is using model express and other technologies to do fast restart. So again, we talked about low latency GPU to GP way transfer. We're also looking at different ways to do checkpoint and restore of complete processes to really reduce that cold start and warm start time."

专业术语注释

术语	解释
Dynamo（NVIDIA）	本集指NVIDIA推出的端到端大模型推理服务系统，覆盖部署、调度、路由、容错全链路
AI Configurator	Dynamo配套的离线配置仿真工具，可快速生成推理部署最优配置
TP（Tensor Parallelism）	张量并行，一种大模型分布式推理并行策略，将模型参数拆分到多个GPU上计算
K8s（Kubernetes）	开源容器编排系统，是当前大规模云服务部署的事实标准
CRD（Custom Resource Definition）	自定义资源定义，K8s提供的扩展能力，用户可自定义资源类型
Grove	Dynamo自研的K8s调度器，支持拓扑感知与细粒度扩缩容
HPA（Horizontal Pod Autoscaler）	K8s原生水平Pod扩缩容组件
KV Cache	键值缓存，大模型推理中存储已计算的token注意力键值对，避免重复计算，降低延迟
Prefill Worker	预填充worker，大模型推理中负责处理用户输入prompt预计算阶段的工作节点
Decode Worker	解码worker，大模型推理中负责逐token生成输出序列阶段的工作节点
Nixle	Dynamo内置的高性能多介质传输库，支持CPU、GPU、存储间的低延迟数据传输
Rust	高性能、内存安全的系统级编程语言，本集中用于开发Dynamo的路由、worker内核等核心组件
OpenAI Compatible Interface	兼容OpenAI标准的API接口，用户无需修改适配OpenAI的代码即可切换到Dynamo服务
vLLM	主流开源大模型推理服务框架，支持PagedAttention等内存优化技术
TensorRT-LLM（TRT-LLM）	NVIDIA推出的大模型推理加速引擎，针对NVIDIA GPU做了深度优化
SGLang	主流开源大模型推理服务框架，支持快速结构输出等特性
SLA（Service Level Agreement）	服务等级协议，本集中指推理服务的延迟、可用性等服务承诺

延伸思考

Dynamo的多推理引擎抽象设计是否会引入额外性能开销，不同引擎的特性适配完整度是落地时需要重点验证的内容
KV缓存全局精确索引在超大规模集群（上万GPU）下的同步开销、路由性能是否会成为瓶颈，有待进一步测试
解离部署模式下预填充与解码worker间的KV缓存传输延迟对推理性能的影响，需要结合实际业务流量评估收益
AI Configurator的仿真准确度与实际硬件、模型的适配度，会直接影响初始配置的有效性，需要针对特定场景做调优
请求迁移功能需要传输KV缓存，对于长序列请求来说迁移开销是否可控，适合的故障触发阈值需要针对性设置

原文发表：未提供 · 纪要生成：2026-03-09