来源: Dynamo Day活动 | 张灏(Hao Zhang,UCSD教授) | 未标注 分类: 其他 原文发表: 未标注 纪要生成: 2026-03-09
张灏是加州大学圣迭戈分校(UCSD)教职,长期深耕AI推理系统领域,曾参与VRM、Dynamo等多个主流推理引擎的研发工作。本次分享是Dynamo Day活动的压轴演讲,分为两部分:第一部分复盘2025年大语言模型推理的核心技术进展,第二部分展望2026年及以后AI推理的两大核心发展趋势。
本节重点 - 本次分享分为2025年推理技术复盘、2026年推理趋势展望两大部分 - 大语言模型推理核心优化目标为在低延迟约束下实现高吞吐量 - 推理服务的核心SLO指标为首包延迟TTFT和单token输出延迟TPOT
详细精要 - 分享背景与框架:本次为Dynamo Day活动压轴演讲,内容覆盖推理领域的过往进展与未来趋势 - 演讲者张灏为UCSD教职,长期从事推理系统研发,曾参与VRM、Dynamo等主流推理引擎的开发工作 - 第一部分复盘2025年预填充-解码拆分架构的落地进展,第二部分展望AI推理的两大核心趋势
常规计算任务中延迟越低吞吐量越高,但大语言模型推理中批量处理可提升吞吐量,但会显著抬升延迟,二者存在明显冲突
推理服务核心SLO指标:行业通用两类SLO指标定义用户体验约束,基于此衍生出有效吞吐量(goodput)概念
💬 精华片段(中文)
"So basically, what we want is a system that can deliver a high throughput while making sure each request stays within these two SLOs, service-level objective. And we call this portion of this throughput a goodput."
本节重点 - 连续批处理架构存在预填充与解码阶段的资源冲突,导致资源浪费、SLO达标率低 - 预填充-解码拆分架构消除阶段间干扰,支持独立资源配置,单GPU吞吐量提升1倍 - 2025年该架构已全面覆盖主流生产推理系统,NVIDIA Dynamo是当前最成熟的生产实现
详细精要 - 连续批处理的核心缺陷:2025年之前主流的连续批处理架构将预填充与解码阶段耦合部署,存在严重的资源冲突问题 - 预填充阶段(处理用户输入prompt)与解码阶段(生成输出token)的计算特征差异极大,耦合部署时会互相干扰,新请求的预填充会显著抬升已有请求的解码延迟 - 为满足严格的SLO约束,耦合架构需要额外配置3倍以上的GPU资源,造成严重的算力浪费 - 耦合架构无法为两个阶段单独配置最优并行策略:预填充阶段适合张量并行降低延迟,解码阶段适合数据/流水线并行提升吞吐量,耦合架构只能选择折中方案
实测显示单GPU下耦合架构有效吞吐量仅为1.6 RPS,拆分后预填充节点可达5.6 RPS、解码节点可达10 RPS,采用2个预填充+1个解码的3GPU配置,总有效吞吐量达10RPS,单GPU吞吐量3.3RPS,较耦合架构提升1倍
拆分架构的核心待解决问题:架构落地需解决资源分配与KV缓存传输两大核心问题,衍生出大量优化空间
该问题覆盖调度、通信、存储、并行策略等多个领域,催生了大量的研究与工程创新
2025年落地进展与标杆项目:拆分架构2025年已全面实现生产落地,多个头部厂商推出成熟的优化实现
💬 精华片段(中文)
"And a desegregated prefill and decoding basically unlocks a natural divide and conquer optimization. Because the two phases have different performance characteristics, we can choose the most suitable parallelism and resource allocation for each."
本节重点 - AFD架构将Transformer层内注意力模块与FFN/MOE模块拆分部署,独立配置并行策略 - MOE模型中AFD的通信开销可与现有专家路由通信重叠,几乎无额外延迟开销 - 实测AFD架构较串行实现单GPU吞吐量最高提升1.9倍,还支持异构硬件部署
详细精要 - AFD架构的核心思路:将拆分思路从推理阶段下沉到Transformer层内部,拆分注意力模块与FFN/MOE模块独立部署 - 注意力模块与FFN/MOE模块的计算特征差异极大:注意力适合用数据并行、大批次部署,FFN/MOE适合用更小批次、专家并行部署 - 字节跳动开发的原型系统Mega-Scale Infer最早验证该思路,MOE模型下单GPU吞吐量较串行实现最高提升1.9倍
该特性使得AFD在当前主流的MOE大模型场景下具备极高的落地可行性
AFD的进阶优化方向:可通过乒乓流水线调度进一步掩盖剩余通信开销,实现资源利用率最大化
💬 精华片段(中文)
"So the key insight here is this AFD communication, which is per-layer. It can be merged with that existing MOE all-to-all. So basically, we move activation and we do expert routing in one go, the communication combined. So as long as the combined communication is not slower than the original all-to-all, then AFD is basically free, right? From a latency perspective."
本节重点 - 视频生成需求爆发式增长,当前生成1分钟视频平均成本达10美元,远高于大语言模型推理成本 - 13B参数视频DIT生成5秒720p内容需16分钟,80%算力消耗在长序列3D注意力计算 - 行业正在研发专用视频推理引擎,目标2026年实现实时1080P/4K视频生成
详细精要 - 视频扩散推理的市场与成本现状:视频生成需求快速爆发,但当前推理成本极高,是大语言模型的数百倍 - 当前主流视频生成API的平均成本为每分钟10美元,而大语言模型推理的token成本已接近免费,高成本严重制约视频生成的落地 - 视频扩散模型的计算量远高于大语言模型:序列更长、注意力计算量更大、需要多次迭代采样,是推理系统的全新严苛测试场景
VAE编解码器的计算特征与Transformer差异极大,也对推理引擎的内核适配提出了全新要求
视频推理的优化方向与目标:行业正在研发专用视频推理引擎,目标2026年实现高分辨率实时视频生成
💬 精华片段(中文)
"And generating this five second clip takes roughly 16 minutes on a single A100, right? And it's basically a real bottleneck for practical use. So if you look at the Flops breakdown on the right, so basically attention dominates the computation and over 80% of the total time is spent basically on just doing your attention."
| 术语 | 解释 |
|---|---|
| Inference(推理) | 本集指AI模型部署后接收用户输入、生成输出的计算过程,是AI服务的核心成本来源 |
| Prefill(预填充) | 大语言模型推理的第一阶段,处理用户输入的prompt文本,生成初始KV缓存 |
| Decode(解码) | 大语言模型推理的第二阶段,基于预填充生成的KV缓存,迭代生成输出token |
| TTFT(Time To First Token) | 首包延迟,指用户发起请求到收到第一个输出token的时间,是聊天类应用的核心SLO指标 |
| TPOT(Time Per Output Token) | 单token生成延迟,指生成每个后续输出token的平均时间,是摘要、生成类应用的核心SLO指标 |
| SLO(Service Level Objective) | 服务水平目标,指服务对外承诺的性能约束,不符合SLO的请求视为无效请求 |
| Goodput(有效吞吐量) | 指满足所有SLO约束的前提下,系统每秒可处理的请求数,是衡量推理系统性能的核心指标 |
| Continuous Batching(连续批处理) | 2025年之前主流的推理调度技术,将预填充与解码阶段的请求合并批量处理 |
| KV Cache(KV缓存) | 预填充阶段生成的注意力键值对缓存,解码阶段复用可避免重复计算,大幅降低延迟 |
| D-SERV | UCSD张灏团队2023年开源的预填充-解码拆分架构原型系统,是当前主流生产推理架构的原型 |
| Dynamo | NVIDIA推出的生产级推理引擎,是当前预填充-解码拆分架构最成熟的生产实现 |
| AFD(Attention FFN Desegregation) | 注意力与FFN拆分架构,将Transformer层内的注意力模块与FFN/MOE模块拆分独立部署,是2026年的核心推理趋势 |
| MOE(Mixture of Experts) | 混合专家模型,大语言模型的主流架构之一,将FFN层拆分为多个专家,每个token仅激活部分专家,大幅提升模型容量 |
| DIT(Diffusion Transformer) | 扩散Transformer,当前视频生成模型的主流架构,基于Transformer实现扩散采样过程 |
| VAE(Variational Autoencoder) | 变分自编码器,视频生成模型中用于压缩原始视频为隐序列、将隐序列恢复为视频的模块 |