AI推理的未来——UCSD张灏分享

来源： Dynamo Day活动 | 张灏（Hao Zhang，UCSD教授） | 未标注 分类： 其他 原文发表： 未标注 纪要生成： 2026-03-09

全集重点

2025年推理核心进展：预填充-解码拆分架构全面落地，单GPU吞吐量较连续批处理提升1倍
AFD架构新趋势：Transformer层内注意力与FFN/MOE拆分调度，无额外开销下吞吐量提升1.9倍
视频扩散推理痛点：13B参数DIT生成5秒720p内容需16分钟，80%算力消耗于长序列注意力
生产级落地标杆：NVIDIA Dynamo是当前最完善的预填充-解码拆分生产实现，支持数据中心级部署

嘉宾/话题简介

张灏是加州大学圣迭戈分校（UCSD）教职，长期深耕AI推理系统领域，曾参与VRM、Dynamo等多个主流推理引擎的研发工作。本次分享是Dynamo Day活动的压轴演讲，分为两部分：第一部分复盘2025年大语言模型推理的核心技术进展，第二部分展望2026年及以后AI推理的两大核心发展趋势。

分节详述

[00:00] 开场与分享框架介绍

本节重点 - 本次分享分为2025年推理技术复盘、2026年推理趋势展望两大部分 - 大语言模型推理核心优化目标为在低延迟约束下实现高吞吐量 - 推理服务的核心SLO指标为首包延迟TTFT和单token输出延迟TPOT

详细精要 - 分享背景与框架：本次为Dynamo Day活动压轴演讲，内容覆盖推理领域的过往进展与未来趋势 - 演讲者张灏为UCSD教职，长期从事推理系统研发，曾参与VRM、Dynamo等主流推理引擎的开发工作 - 第一部分复盘2025年预填充-解码拆分架构的落地进展，第二部分展望AI推理的两大核心趋势

大语言模型推理核心矛盾：推理优化需同时兼顾吞吐量与延迟两大指标，平衡难度远高于常规计算任务
吞吐量指固定GPU数量下每秒可处理的请求数，直接决定服务成本；延迟指用户等待响应的时间，直接影响用户体验
常规计算任务中延迟越低吞吐量越高，但大语言模型推理中批量处理可提升吞吐量，但会显著抬升延迟，二者存在明显冲突
推理服务核心SLO指标：行业通用两类SLO指标定义用户体验约束，基于此衍生出有效吞吐量（goodput）概念
TTFT（Time To First Token） 指用户发起请求到收到第一个token的延迟，聊天类应用对该指标要求极高
TPOT（Time Per Output Token） 指生成每个后续输出token的平均延迟，摘要类应用对该指标要求更高
有效吞吐量指满足所有SLO约束的实际每秒处理请求数，若10RPS中仅3个满足SLO，则有效吞吐量仅为3RPS

💬 精华片段（中文）

"So basically, what we want is a system that can deliver a high throughput while making sure each request stays within these two SLOs, service-level objective. And we call this portion of this throughput a goodput."

[04:13] 2025年核心进展：预填充-解码拆分架构落地

本节重点 - 连续批处理架构存在预填充与解码阶段的资源冲突，导致资源浪费、SLO达标率低 - 预填充-解码拆分架构消除阶段间干扰，支持独立资源配置，单GPU吞吐量提升1倍 - 2025年该架构已全面覆盖主流生产推理系统，NVIDIA Dynamo是当前最成熟的生产实现

详细精要 - 连续批处理的核心缺陷：2025年之前主流的连续批处理架构将预填充与解码阶段耦合部署，存在严重的资源冲突问题 - 预填充阶段（处理用户输入prompt）与解码阶段（生成输出token）的计算特征差异极大，耦合部署时会互相干扰，新请求的预填充会显著抬升已有请求的解码延迟 - 为满足严格的SLO约束，耦合架构需要额外配置3倍以上的GPU资源，造成严重的算力浪费 - 耦合架构无法为两个阶段单独配置最优并行策略：预填充阶段适合张量并行降低延迟，解码阶段适合数据/流水线并行提升吞吐量，耦合架构只能选择折中方案

预填充-解码拆分架构的核心优势：将两个阶段拆分到不同GPU节点部署，彻底消除阶段间干扰，支持独立优化，有效吞吐量大幅提升
两个阶段可分别选择最优并行策略与资源配置：预填充节点优化TTFT，采用张量+数据并行处理长prompt；解码节点优化TPOT，采用大批次、专家并行提升每秒生成token数
实测显示单GPU下耦合架构有效吞吐量仅为1.6 RPS，拆分后预填充节点可达5.6 RPS、解码节点可达10 RPS，采用2个预填充+1个解码的3GPU配置，总有效吞吐量达10RPS，单GPU吞吐量3.3RPS，较耦合架构提升1倍
拆分架构的核心待解决问题：架构落地需解决资源分配与KV缓存传输两大核心问题，衍生出大量优化空间
资源分配问题：需根据workload特征动态决定预填充与解码节点的GPU数量与部署位置，满足峰值算力要求
通信问题：需高效完成预填充节点到解码节点的KV缓存传输，在异构硬件集群下最小化传输延迟是大规模部署的核心瓶颈
该问题覆盖调度、通信、存储、并行策略等多个领域，催生了大量的研究与工程创新
2025年落地进展与标杆项目：拆分架构2025年已全面实现生产落地，多个头部厂商推出成熟的优化实现
2023年末UCSD开源原型系统D-SERV，与微软Split-Wise论文同期发布，2024年字节跳动、Google等头部厂商率先试点替换连续批处理
2025年初DeepSync with Ray公开支持拆分架构，NVIDIA GTC 2025重点推介该架构与Dynamo实现，到2025年末几乎所有生产级推理系统均采用该架构
标杆优化包括：ARM Cache优化KV缓存传输流水线，支持千级GPU规模高效部署；DeepSync with Ray支持MOE模型的专家并行优化；NVIDIA Dynamo是当前最完善的生产实现，将预填充与解码作为独立微服务，整合低延迟传输层、GPU规划器与KV感知路由器，适配GP200等最新硬件，支持数据中心级部署

💬 精华片段（中文）

"And a desegregated prefill and decoding basically unlocks a natural divide and conquer optimization. Because the two phases have different performance characteristics, we can choose the most suitable parallelism and resource allocation for each."

[16:52] 趋势一：Transformer层内拆分AFD架构

本节重点 - AFD架构将Transformer层内注意力模块与FFN/MOE模块拆分部署，独立配置并行策略 - MOE模型中AFD的通信开销可与现有专家路由通信重叠，几乎无额外延迟开销 - 实测AFD架构较串行实现单GPU吞吐量最高提升1.9倍，还支持异构硬件部署

详细精要 - AFD架构的核心思路：将拆分思路从推理阶段下沉到Transformer层内部，拆分注意力模块与FFN/MOE模块独立部署 - 注意力模块与FFN/MOE模块的计算特征差异极大：注意力适合用数据并行、大批次部署，FFN/MOE适合用更小批次、专家并行部署 - 字节跳动开发的原型系统Mega-Scale Infer最早验证该思路，MOE模型下单GPU吞吐量较串行实现最高提升1.9倍

AFD的通信开销可行性：MOE场景下AFD的层间通信开销可与现有专家路由通信完全重叠，几乎无额外延迟
初看AFD需要每层都进行模块间通信，远高于预填充-解码拆分的单次通信，似乎会严重抬升延迟
MOE模型中本身存在跨并行组的token重分发通信（专家路由），AFD的通信可以和该通信合并完成，只要合并后的通信速度不低于原有路由速度，AFD就不会带来额外延迟
该特性使得AFD在当前主流的MOE大模型场景下具备极高的落地可行性
AFD的进阶优化方向：可通过乒乓流水线调度进一步掩盖剩余通信开销，实现资源利用率最大化
将批次拆分为多个宏批次，在注意力GPU与FFN/MOE GPU之间来回调度，通信与计算完全重叠：注意力GPU处理完一个宏批次后传给FFN模块，立即开始处理下一个宏批次，FFN模块同步处理上一个宏批次
该架构需要底层GPU编程的深度优化，也体现了模型设计与系统设计协同演进的核心趋势
AFD还支持异构硬件部署，可将注意力与FFN模块部署在不同类型的GPU上，进一步降低成本

💬 精华片段（中文）

"So the key insight here is this AFD communication, which is per-layer. It can be merged with that existing MOE all-to-all. So basically, we move activation and we do expert routing in one go, the communication combined. So as long as the combined communication is not slower than the original all-to-all, then AFD is basically free, right? From a latency perspective."

[22:32] 趋势二：视频扩散模型推理

本节重点 - 视频生成需求爆发式增长，当前生成1分钟视频平均成本达10美元，远高于大语言模型推理成本 - 13B参数视频DIT生成5秒720p内容需16分钟，80%算力消耗在长序列3D注意力计算 - 行业正在研发专用视频推理引擎，目标2026年实现实时1080P/4K视频生成

详细精要 - 视频扩散推理的市场与成本现状：视频生成需求快速爆发，但当前推理成本极高，是大语言模型的数百倍 - 当前主流视频生成API的平均成本为每分钟10美元，而大语言模型推理的token成本已接近免费，高成本严重制约视频生成的落地 - 视频扩散模型的计算量远高于大语言模型：序列更长、注意力计算量更大、需要多次迭代采样，是推理系统的全新严苛测试场景

视频DIT架构的核心性能瓶颈：视频扩散推理的算力开销主要来自多步采样与长序列3D注意力计算
典型视频DIT架构分为三部分：VAE编码器压缩输入为长隐序列、多层DIT块完成扩散迭代、VAE解码器恢复为视频，其中扩散过程需要重复运行DIT栈50-100次，直接将成本放大数十倍
实测13B参数开源模型生成5秒720P视频，单A100 GPU需要16分钟，算力开销中80%来自长序列3D注意力计算：视频隐序列长度达115K，注意力计算随序列长度平方增长
VAE编解码器的计算特征与Transformer差异极大，也对推理引擎的内核适配提出了全新要求
视频推理的优化方向与目标：行业正在研发专用视频推理引擎，目标2026年实现高分辨率实时视频生成
张灏团队正在开发Fast Video系统，从注意力内核、内存布局、系统架构全栈优化视频扩散推理，已实现1.3B模型下的实时480P视频生成
优化目标包括2026年实现1080P、4K分辨率的实时视频生成，同时适配更大参数规模的视频模型
行业正在推进视频扩散引擎与大语言模型推理引擎的融合，未来多模态大模型可同时支持文本与视频生成，统一推理架构

💬 精华片段（中文）

"And generating this five second clip takes roughly 16 minutes on a single A100, right? And it's basically a real bottleneck for practical use. So if you look at the Flops breakdown on the right, so basically attention dominates the computation and over 80% of the total time is spent basically on just doing your attention."

专业术语注释

术语	解释
Inference（推理）	本集指AI模型部署后接收用户输入、生成输出的计算过程，是AI服务的核心成本来源
Prefill（预填充）	大语言模型推理的第一阶段，处理用户输入的prompt文本，生成初始KV缓存
Decode（解码）	大语言模型推理的第二阶段，基于预填充生成的KV缓存，迭代生成输出token
TTFT（Time To First Token）	首包延迟，指用户发起请求到收到第一个输出token的时间，是聊天类应用的核心SLO指标
TPOT（Time Per Output Token）	单token生成延迟，指生成每个后续输出token的平均时间，是摘要、生成类应用的核心SLO指标
SLO（Service Level Objective）	服务水平目标，指服务对外承诺的性能约束，不符合SLO的请求视为无效请求
Goodput（有效吞吐量）	指满足所有SLO约束的前提下，系统每秒可处理的请求数，是衡量推理系统性能的核心指标
Continuous Batching（连续批处理）	2025年之前主流的推理调度技术，将预填充与解码阶段的请求合并批量处理
KV Cache（KV缓存）	预填充阶段生成的注意力键值对缓存，解码阶段复用可避免重复计算，大幅降低延迟
D-SERV	UCSD张灏团队2023年开源的预填充-解码拆分架构原型系统，是当前主流生产推理架构的原型
Dynamo	NVIDIA推出的生产级推理引擎，是当前预填充-解码拆分架构最成熟的生产实现
AFD（Attention FFN Desegregation）	注意力与FFN拆分架构，将Transformer层内的注意力模块与FFN/MOE模块拆分独立部署，是2026年的核心推理趋势
MOE（Mixture of Experts）	混合专家模型，大语言模型的主流架构之一，将FFN层拆分为多个专家，每个token仅激活部分专家，大幅提升模型容量
DIT（Diffusion Transformer）	扩散Transformer，当前视频生成模型的主流架构，基于Transformer实现扩散采样过程
VAE（Variational Autoencoder）	变分自编码器，视频生成模型中用于压缩原始视频为隐序列、将隐序列恢复为视频的模块

延伸思考

预填充-解码拆分架构已全面落地，未来可进一步关注动态资源配比、跨节点KV缓存高效传输的优化进展，可大幅降低推理服务成本。
AFD架构在MOE模型上的落地性价比极高，头部云厂商与推理服务提供商大概率会在2026年下半年推出支持AFD的推理引擎，可提前关注相关技术的兼容性。
视频生成成本当前是大语言模型的数百倍，全栈优化空间极大，2026年如果实现实时视频生成，将催生大量全新的C端应用场景。
推理架构的拆分趋势从阶段下沉到层内，未来可能进一步拆分到算子级别，系统设计与模型设计的协同演进会越来越紧密，模型设计阶段就需要考虑推理部署的效率。

原文发表：未标注 · 纪要生成：2026-03-09