▶ 原文链接

AI推理的未来——UCSD张灏分享

来源: Dynamo Day活动 | 张灏(Hao Zhang,UCSD教授) | 未标注 分类: 其他 原文发表: 未标注 纪要生成: 2026-03-09


全集重点


嘉宾/话题简介

张灏是加州大学圣迭戈分校(UCSD)教职,长期深耕AI推理系统领域,曾参与VRM、Dynamo等多个主流推理引擎的研发工作。本次分享是Dynamo Day活动的压轴演讲,分为两部分:第一部分复盘2025年大语言模型推理的核心技术进展,第二部分展望2026年及以后AI推理的两大核心发展趋势。


分节详述

[00:00] 开场与分享框架介绍

本节重点 - 本次分享分为2025年推理技术复盘、2026年推理趋势展望两大部分 - 大语言模型推理核心优化目标为在低延迟约束下实现高吞吐量 - 推理服务的核心SLO指标为首包延迟TTFT和单token输出延迟TPOT

详细精要 - 分享背景与框架:本次为Dynamo Day活动压轴演讲,内容覆盖推理领域的过往进展与未来趋势 - 演讲者张灏为UCSD教职,长期从事推理系统研发,曾参与VRM、Dynamo等主流推理引擎的开发工作 - 第一部分复盘2025年预填充-解码拆分架构的落地进展,第二部分展望AI推理的两大核心趋势

💬 精华片段(中文)

"So basically, what we want is a system that can deliver a high throughput while making sure each request stays within these two SLOs, service-level objective. And we call this portion of this throughput a goodput."


[04:13] 2025年核心进展:预填充-解码拆分架构落地

本节重点 - 连续批处理架构存在预填充与解码阶段的资源冲突,导致资源浪费、SLO达标率低 - 预填充-解码拆分架构消除阶段间干扰,支持独立资源配置,单GPU吞吐量提升1倍 - 2025年该架构已全面覆盖主流生产推理系统,NVIDIA Dynamo是当前最成熟的生产实现

详细精要 - 连续批处理的核心缺陷:2025年之前主流的连续批处理架构将预填充与解码阶段耦合部署,存在严重的资源冲突问题 - 预填充阶段(处理用户输入prompt)与解码阶段(生成输出token)的计算特征差异极大,耦合部署时会互相干扰,新请求的预填充会显著抬升已有请求的解码延迟 - 为满足严格的SLO约束,耦合架构需要额外配置3倍以上的GPU资源,造成严重的算力浪费 - 耦合架构无法为两个阶段单独配置最优并行策略:预填充阶段适合张量并行降低延迟,解码阶段适合数据/流水线并行提升吞吐量,耦合架构只能选择折中方案

💬 精华片段(中文)

"And a desegregated prefill and decoding basically unlocks a natural divide and conquer optimization. Because the two phases have different performance characteristics, we can choose the most suitable parallelism and resource allocation for each."


[16:52] 趋势一:Transformer层内拆分AFD架构

本节重点 - AFD架构将Transformer层内注意力模块与FFN/MOE模块拆分部署,独立配置并行策略 - MOE模型中AFD的通信开销可与现有专家路由通信重叠,几乎无额外延迟开销 - 实测AFD架构较串行实现单GPU吞吐量最高提升1.9倍,还支持异构硬件部署

详细精要 - AFD架构的核心思路:将拆分思路从推理阶段下沉到Transformer层内部,拆分注意力模块与FFN/MOE模块独立部署 - 注意力模块与FFN/MOE模块的计算特征差异极大:注意力适合用数据并行、大批次部署,FFN/MOE适合用更小批次、专家并行部署 - 字节跳动开发的原型系统Mega-Scale Infer最早验证该思路,MOE模型下单GPU吞吐量较串行实现最高提升1.9倍

💬 精华片段(中文)

"So the key insight here is this AFD communication, which is per-layer. It can be merged with that existing MOE all-to-all. So basically, we move activation and we do expert routing in one go, the communication combined. So as long as the combined communication is not slower than the original all-to-all, then AFD is basically free, right? From a latency perspective."


[22:32] 趋势二:视频扩散模型推理

本节重点 - 视频生成需求爆发式增长,当前生成1分钟视频平均成本达10美元,远高于大语言模型推理成本 - 13B参数视频DIT生成5秒720p内容需16分钟,80%算力消耗在长序列3D注意力计算 - 行业正在研发专用视频推理引擎,目标2026年实现实时1080P/4K视频生成

详细精要 - 视频扩散推理的市场与成本现状:视频生成需求快速爆发,但当前推理成本极高,是大语言模型的数百倍 - 当前主流视频生成API的平均成本为每分钟10美元,而大语言模型推理的token成本已接近免费,高成本严重制约视频生成的落地 - 视频扩散模型的计算量远高于大语言模型:序列更长、注意力计算量更大、需要多次迭代采样,是推理系统的全新严苛测试场景

💬 精华片段(中文)

"And generating this five second clip takes roughly 16 minutes on a single A100, right? And it's basically a real bottleneck for practical use. So if you look at the Flops breakdown on the right, so basically attention dominates the computation and over 80% of the total time is spent basically on just doing your attention."


专业术语注释

术语 解释
Inference(推理) 本集指AI模型部署后接收用户输入、生成输出的计算过程,是AI服务的核心成本来源
Prefill(预填充) 大语言模型推理的第一阶段,处理用户输入的prompt文本,生成初始KV缓存
Decode(解码) 大语言模型推理的第二阶段,基于预填充生成的KV缓存,迭代生成输出token
TTFT(Time To First Token) 首包延迟,指用户发起请求到收到第一个输出token的时间,是聊天类应用的核心SLO指标
TPOT(Time Per Output Token) 单token生成延迟,指生成每个后续输出token的平均时间,是摘要、生成类应用的核心SLO指标
SLO(Service Level Objective) 服务水平目标,指服务对外承诺的性能约束,不符合SLO的请求视为无效请求
Goodput(有效吞吐量) 指满足所有SLO约束的前提下,系统每秒可处理的请求数,是衡量推理系统性能的核心指标
Continuous Batching(连续批处理) 2025年之前主流的推理调度技术,将预填充与解码阶段的请求合并批量处理
KV Cache(KV缓存) 预填充阶段生成的注意力键值对缓存,解码阶段复用可避免重复计算,大幅降低延迟
D-SERV UCSD张灏团队2023年开源的预填充-解码拆分架构原型系统,是当前主流生产推理架构的原型
Dynamo NVIDIA推出的生产级推理引擎,是当前预填充-解码拆分架构最成熟的生产实现
AFD(Attention FFN Desegregation) 注意力与FFN拆分架构,将Transformer层内的注意力模块与FFN/MOE模块拆分独立部署,是2026年的核心推理趋势
MOE(Mixture of Experts) 混合专家模型,大语言模型的主流架构之一,将FFN层拆分为多个专家,每个token仅激活部分专家,大幅提升模型容量
DIT(Diffusion Transformer) 扩散Transformer,当前视频生成模型的主流架构,基于Transformer实现扩散采样过程
VAE(Variational Autoencoder) 变分自编码器,视频生成模型中用于压缩原始视频为隐序列、将隐序列恢复为视频的模块

延伸思考

  1. 预填充-解码拆分架构已全面落地,未来可进一步关注动态资源配比、跨节点KV缓存高效传输的优化进展,可大幅降低推理服务成本。
  2. AFD架构在MOE模型上的落地性价比极高,头部云厂商与推理服务提供商大概率会在2026年下半年推出支持AFD的推理引擎,可提前关注相关技术的兼容性。
  3. 视频生成成本当前是大语言模型的数百倍,全栈优化空间极大,2026年如果实现实时视频生成,将催生大量全新的C端应用场景。
  4. 推理架构的拆分趋势从阶段下沉到层内,未来可能进一步拆分到算子级别,系统设计与模型设计的协同演进会越来越紧密,模型设计阶段就需要考虑推理部署的效率。

原文发表:未标注  ·  纪要生成:2026-03-09