来源: Dynamo Day活动 | 张灏(Hao Zhang,UCSD教授) | 未标注 分类: AI 工程 原文发表: 未标注 纪要生成: 2026-03-09
张灏是加州大学圣迭戈分校(UCSD)教职,长期深耕AI推理系统领域,曾参与VRM、Dynamo等多个主流推理引擎的研发工作。本次分享是Dynamo Day活动的压轴演讲,分为两部分:第一部分复盘2025年大语言模型推理的核心技术进展,第二部分展望2026年及以后AI推理的两大核心发展趋势。
本节重点
详细精要
第一部分复盘2025年预填充-解码拆分架构的落地进展,第二部分展望AI推理的两大核心趋势
大语言模型推理核心矛盾:推理优化需同时兼顾吞吐量与延迟两大指标,平衡难度远高于常规计算任务
常规计算任务中延迟越低吞吐量越高,但大语言模型推理中批量处理可提升吞吐量,但会显著抬升延迟,二者存在明显冲突
推理服务核心SLO指标:行业通用两类SLO指标定义用户体验约束,基于此衍生出有效吞吐量(goodput)概念
💬 精华片段(中文)
"So basically, what we want is a system that can deliver a high throughput while making sure each request stays within these two SLOs, service-level objective. And we call this portion of this throughput a goodput."
本节重点
详细精要
耦合架构无法为两个阶段单独配置最优并行策略:预填充阶段适合张量并行降低延迟,解码阶段适合数据/流水线并行提升吞吐量,耦合架构只能选择折中方案
预填充-解码拆分架构的核心优势:将两个阶段拆分到不同GPU节点部署,彻底消除阶段间干扰,支持独立优化,有效吞吐量大幅提升
实测显示单GPU下耦合架构有效吞吐量仅为1.6 RPS,拆分后预填充节点可达5.6 RPS、解码节点可达10 RPS,采用2个预填充+1个解码的3GPU配置,总有效吞吐量达10RPS,单GPU吞吐量3.3RPS,较耦合架构提升1倍
拆分架构的核心待解决问题:架构落地需解决资源分配与KV缓存传输两大核心问题,衍生出大量优化空间
该问题覆盖调度、通信、存储、并行策略等多个领域,催生了大量的研究与工程创新
2025年落地进展与标杆项目:拆分架构2025年已全面实现生产落地,多个头部厂商推出成熟的优化实现
💬 精华片段(中文)
"And a desegregated prefill and decoding basically unlocks a natural divide and conquer optimization. Because the two phases have different performance characteristics, we can choose the most suitable parallelism and resource allocation for each."
本节重点
详细精要
字节跳动开发的原型系统Mega-Scale Infer最早验证该思路,MOE模型下单GPU吞吐量较串行实现最高提升1.9倍
AFD的通信开销可行性:MOE场景下AFD的层间通信开销可与现有专家路由通信完全重叠,几乎无额外延迟
该特性使得AFD在当前主流的MOE大模型场景下具备极高的落地可行性
AFD的进阶优化方向:可通过乒乓流水线调度进一步掩盖剩余通信开销,实现资源利用率最大化
💬 精华片段(中文)
"So the key insight here is this AFD communication, which is per-layer. It can be merged with that existing MOE all-to-all. So basically, we move activation and we do expert routing in one go, the communication combined. So as long as the combined communication is not slower than the original all-to-all, then AFD is basically free, right? From a latency perspective."
本节重点
详细精要
视频扩散模型的计算量远高于大语言模型:序列更长、注意力计算量更大、需要多次迭代采样,是推理系统的全新严苛测试场景
视频DIT架构的核心性能瓶颈:视频扩散推理的算力开销主要来自多步采样与长序列3D注意力计算
VAE编解码器的计算特征与Transformer差异极大,也对推理引擎的内核适配提出了全新要求
视频推理的优化方向与目标:行业正在研发专用视频推理引擎,目标2026年实现高分辨率实时视频生成
💬 精华片段(中文)
"And generating this five second clip takes roughly 16 minutes on a single A100, right? And it's basically a real bottleneck for practical use. So if you look at the Flops breakdown on the right, so basically attention dominates the computation and over 80% of the total time is spent basically on just doing your attention."
| 术语 | 解释 |
|---|---|
| Inference(推理) | 本集指AI模型部署后接收用户输入、生成输出的计算过程,是AI服务的核心成本来源 |
| Prefill(预填充) | 大语言模型推理的第一阶段,处理用户输入的prompt文本,生成初始KV缓存 |
| Decode(解码) | 大语言模型推理的第二阶段,基于预填充生成的KV缓存,迭代生成输出token |
| TTFT(Time To First Token) | 首包延迟,指用户发起请求到收到第一个输出token的时间,是聊天类应用的核心SLO指标 |
| TPOT(Time Per Output Token) | 单token生成延迟,指生成每个后续输出token的平均时间,是摘要、生成类应用的核心SLO指标 |
| SLO(Service Level Objective) | 服务水平目标,指服务对外承诺的性能约束,不符合SLO的请求视为无效请求 |
| Goodput(有效吞吐量) | 指满足所有SLO约束的前提下,系统每秒可处理的请求数,是衡量推理系统性能的核心指标 |
| Continuous Batching(连续批处理) | 2025年之前主流的推理调度技术,将预填充与解码阶段的请求合并批量处理 |
| KV Cache(KV缓存) | 预填充阶段生成的注意力键值对缓存,解码阶段复用可避免重复计算,大幅降低延迟 |
| D-SERV | UCSD张灏团队2023年开源的预填充-解码拆分架构原型系统,是当前主流生产推理架构的原型 |
| Dynamo | NVIDIA推出的生产级推理引擎,是当前预填充-解码拆分架构最成熟的生产实现 |
| AFD(Attention FFN Desegregation) | 注意力与FFN拆分架构,将Transformer层内的注意力模块与FFN/MOE模块拆分独立部署,是2026年的核心推理趋势 |
| MOE(Mixture of Experts) | 混合专家模型,大语言模型的主流架构之一,将FFN层拆分为多个专家,每个token仅激活部分专家,大幅提升模型容量 |
| DIT(Diffusion Transformer) | 扩散Transformer,当前视频生成模型的主流架构,基于Transformer实现扩散采样过程 |
| VAE(Variational Autoencoder) | 变分自编码器,视频生成模型中用于压缩原始视频为隐序列、将隐序列恢复为视频的模块 |