▶ 原文链接

AI推理的未来——UCSD张灏分享

来源: Dynamo Day活动 | 张灏(Hao Zhang,UCSD教授) | 未标注 分类: AI 工程 原文发表: 未标注 纪要生成: 2026-03-09


全集重点


嘉宾/话题简介

张灏是加州大学圣迭戈分校(UCSD)教职,长期深耕AI推理系统领域,曾参与VRM、Dynamo等多个主流推理引擎的研发工作。本次分享是Dynamo Day活动的压轴演讲,分为两部分:第一部分复盘2025年大语言模型推理的核心技术进展,第二部分展望2026年及以后AI推理的两大核心发展趋势。


分节详述

[00:00] 开场与分享框架介绍

本节重点

详细精要

💬 精华片段(中文)

"So basically, what we want is a system that can deliver a high throughput while making sure each request stays within these two SLOs, service-level objective. And we call this portion of this throughput a goodput."


[04:13] 2025年核心进展:预填充-解码拆分架构落地

本节重点

详细精要

💬 精华片段(中文)

"And a desegregated prefill and decoding basically unlocks a natural divide and conquer optimization. Because the two phases have different performance characteristics, we can choose the most suitable parallelism and resource allocation for each."


[16:52] 趋势一:Transformer层内拆分AFD架构

本节重点

详细精要

💬 精华片段(中文)

"So the key insight here is this AFD communication, which is per-layer. It can be merged with that existing MOE all-to-all. So basically, we move activation and we do expert routing in one go, the communication combined. So as long as the combined communication is not slower than the original all-to-all, then AFD is basically free, right? From a latency perspective."


[22:32] 趋势二:视频扩散模型推理

本节重点

详细精要

💬 精华片段(中文)

"And generating this five second clip takes roughly 16 minutes on a single A100, right? And it's basically a real bottleneck for practical use. So if you look at the Flops breakdown on the right, so basically attention dominates the computation and over 80% of the total time is spent basically on just doing your attention."


专业术语注释

术语 解释
Inference(推理) 本集指AI模型部署后接收用户输入、生成输出的计算过程,是AI服务的核心成本来源
Prefill(预填充) 大语言模型推理的第一阶段,处理用户输入的prompt文本,生成初始KV缓存
Decode(解码) 大语言模型推理的第二阶段,基于预填充生成的KV缓存,迭代生成输出token
TTFT(Time To First Token) 首包延迟,指用户发起请求到收到第一个输出token的时间,是聊天类应用的核心SLO指标
TPOT(Time Per Output Token) 单token生成延迟,指生成每个后续输出token的平均时间,是摘要、生成类应用的核心SLO指标
SLO(Service Level Objective) 服务水平目标,指服务对外承诺的性能约束,不符合SLO的请求视为无效请求
Goodput(有效吞吐量) 指满足所有SLO约束的前提下,系统每秒可处理的请求数,是衡量推理系统性能的核心指标
Continuous Batching(连续批处理) 2025年之前主流的推理调度技术,将预填充与解码阶段的请求合并批量处理
KV Cache(KV缓存) 预填充阶段生成的注意力键值对缓存,解码阶段复用可避免重复计算,大幅降低延迟
D-SERV UCSD张灏团队2023年开源的预填充-解码拆分架构原型系统,是当前主流生产推理架构的原型
Dynamo NVIDIA推出的生产级推理引擎,是当前预填充-解码拆分架构最成熟的生产实现
AFD(Attention FFN Desegregation) 注意力与FFN拆分架构,将Transformer层内的注意力模块与FFN/MOE模块拆分独立部署,是2026年的核心推理趋势
MOE(Mixture of Experts) 混合专家模型,大语言模型的主流架构之一,将FFN层拆分为多个专家,每个token仅激活部分专家,大幅提升模型容量
DIT(Diffusion Transformer) 扩散Transformer,当前视频生成模型的主流架构,基于Transformer实现扩散采样过程
VAE(Variational Autoencoder) 变分自编码器,视频生成模型中用于压缩原始视频为隐序列、将隐序列恢复为视频的模块

延伸思考

  1. 预填充-解码拆分架构已全面落地,未来可进一步关注动态资源配比、跨节点KV缓存高效传输的优化进展,可大幅降低推理服务成本。
  2. AFD架构在MOE模型上的落地性价比极高,头部云厂商与推理服务提供商大概率会在2026年下半年推出支持AFD的推理引擎,可提前关注相关技术的兼容性。
  3. 视频生成成本当前是大语言模型的数百倍,全栈优化空间极大,2026年如果实现实时视频生成,将催生大量全新的C端应用场景。
  4. 推理架构的拆分趋势从阶段下沉到层内,未来可能进一步拆分到算子级别,系统设计与模型设计的协同演进会越来越紧密,模型设计阶段就需要考虑推理部署的效率。

原文发表:未标注  ·  纪要生成:2026-03-09