对话Tri Dao：Flash Attention作者谈AI芯片竞争、推理优化与下一代架构

来源： YouTube | Tri Dao | 2025年9月10日 分类： AI 工程 原文发表： Sep 10, 2025 纪要生成： 2026-04-22

全集重点

英伟达生态竞争：未来2-3年AI芯片市场将从英伟达一家独大转向多厂商差异化竞争
推理成本下降：ChatGPT发布以来推理成本已降100倍，未来1年还有10倍下降空间
架构创新价值：Transformer不是终极架构，新架构可大幅降低AGI落地成本
AI编程效率：AI编码工具可让资深研究人员效率提升50%，未来还有更大空间
未来核心场景：Agent和实时视频生成将成为未来1-2年核心AI工作负载

嘉宾/话题简介

Tri Dao是全球顶尖AI系统研究者，Flash Attention、Mamba核心作者，现任Together首席科学家、普林斯顿大学助理教授，其研究成果直接推动了大模型推理成本的量级下降。本集播客中，他围绕AI芯片市场竞争、大模型推理优化路径、下一代AI架构、AI工具对研发效率的影响、AI落地的核心未来场景等话题展开深度分享，同时披露了自己当前的研究方向和对行业的判断。

分节详述

00:00 开场与嘉宾介绍

本节重点

主持人介绍Tri Dao的核心贡献与行业影响力
首个讨论话题聚焦英伟达生态的潜在竞争格局
预告本集覆盖AI硬件、推理优化、架构创新等核心话题

详细精要

嘉宾核心贡献：Tri Dao是AI系统领域最具影响力的研究者之一
作为Flash Attention第一作者，其成果是过去3年大模型推理成本大幅下降的核心原因之一
主导研发Transformer替代架构Mamba，在长序列推理场景下性能优势显著
行业分析机构Semi Analysis指出，Tri在英伟达生态的优化工作是英伟达护城河的重要组成部分
本集讨论核心范围：本次对话覆盖多个行业高度关注的热点方向
包括AI硬件的未来发展与创业机会
AI编码工具对研发效率的提升效果
Transformer之外的替代架构的落地前景
未来2-3年英伟达芯片在AI工作负载中的占比变化
开场互动：主持人表达对Tri Dao的邀请意愿由来已久
主持人3年前启动播客时就将Tri列入梦想嘉宾清单，彼时Flash Attention刚发布并引发行业轰动
Tri表示非常荣幸参与本次对话，期待交流行业观点

💬 精华片段（中文）

"I feel like when I started this podcast, two and a half, three years ago, you were on my like dream guest list and so I think that was like when kind of Flash Attention, you know, was was initially making the rounds and people were uh just ooing and aing over the impact you were having on the space."

02:04 AI芯片市场竞争格局

本节重点

英伟达当前的领先优势来自芯片设计与软件生态的双重壁垒
推理芯片创业机会多于训练芯片，AMD、Cerebras等厂商已开始抢占细分市场
架构和工作负载的快速变化是芯片创业的核心风险

详细精要

英伟达的核心壁垒：英伟达当前占据90%左右的AI芯片市场，优势来自两方面
芯片硬件设计性能领先，尤其在训练场景的网络通信瓶颈解决上优势显著
CUDA等软件生态完善，形成开发者锁定效应，大量上层应用基于英伟达生态开发
竞品的突破机会：当前已有多家厂商开始切入AI芯片市场，推理场景突破难度更低
AMD拥有更大显存等优势，已经开始获得推理场景客户的采用
Cerebras、Grock、燧原等厂商主打极低延迟推理，已获得对延迟敏感的客户的付费意愿
高吞吐量场景（如合成数据生成、RL训练）也有差异化厂商进入
芯片创业的核心风险：AI架构和工作负载的快速变化给芯片设计的前置下注带来挑战
宏观上架构已稳定在Transformer周边，但细节仍在快速变化，比如混合专家的稀疏化趋势、DeepSeek提出的多头潜在注意力等，都可能让此前为稠密模型设计的芯片性能打折
工作负载也在快速迭代，从传统聊天机器人到编码、Agent等新场景，对芯片的IO、宿主连接能力提出新要求
未来市场格局预测：未来2-3年AI芯片市场将从英伟达一家独大转向多元化
推理场景会首先出现多厂商共存的格局，不同细分场景匹配不同厂商的芯片
训练场景突破难度更高，但也会逐步出现竞品，长期市场将走向多硅共存

💬 精华片段（中文） 我认为未来几年部分工作负载会变成多硅运行，它们会跑在不同的芯片上，而不是像现在这样90%都跑在英伟达芯片上。

"So I would expect in the next couple years maybe some of the workload will become multi-silicon. They they'll probably run on on on different chips rather than uh right now I'd say I don't know 90% on on Nvidia."

09:17 跨硬件抽象层的发展现状

本节重点

Tri与多家芯片厂商都有合作，当前聚焦通用硬件抽象层的设计
Triton、Mojo等领域特定语言是当前抽象层的主流探索方向
硬件可移植性本质是性能与开发效率的权衡，完全可移植并不现实

详细精要

多厂商合作情况：Tri的优化工作并不局限于英伟达生态
他当前主要在英伟达芯片上做优化是因为后者是市场主流，生态完善容易落地创新
已经和AMD合作将Flash Attention适配到AMD芯片并开源到公共仓库
当前核心研究方向是构建通用GPU和加速器的抽象层，降低不同硬件的开发门槛
现有抽象层的发展情况：当前已有多个成熟的跨硬件抽象层项目，各有权衡
Triton支持英伟达、AMD、英特尔等多厂商GPU，Meta的PyTorch 2编译已经直接生成Triton代码，再由Triton生成不同硬件的目标代码
抽象层的通用程度和性能成反比，放弃5%性能换来3倍开发效率是普遍可接受的权衡，但性能损失过大就会被市场拒绝
硬件可移植性甚至在英伟达同厂不同代芯片之间都不存在，英伟达每一代新芯片都要重写几乎全部底层内核才能释放性能
新兴抽象层的探索方向：当前行业正在快速迭代多个领域特定语言项目
Modular开发的Mojo语言拥有合理的抽象设计，当前核心挑战是要在英伟达芯片上跑出足够有竞争力的性能才能获得市场认可
斯坦福的Thunder Kittens、谷歌的Mosaic GPU等项目也在探索不同的抽象层设计
行业已经普遍意识到缺乏合适抽象层的痛点，训练工程师编写高性能GPU内核的门槛极高，抽象层是解决这个问题的核心路径
未来抽象层的演化方向：抽象层的设计会来自两个方向的融合
从机器学习工作负载出发，提炼内存移动、矩阵乘法等核心原语进行抽象
从硬件特性出发，暴露芯片的异步执行、流水线等专用组件的抽象接口
预计未来1-2年抽象层的主流方向会逐步清晰

💬 精华片段（中文） 我认为硬件可移植性某种意义上是个伪命题，哪怕是英伟达的芯片，不同代际之间的变化也非常大，他们几乎每两年就要重写所有的软件。

"I would say hardware portability is kind of a myth uh simply you know even for our Nvidia chips like generation to generation they change a lot and I think that's kind of the only way we get more performance out of these chips."

18:08 AI工具对研发效率的提升

本节重点

当前大模型还无法全自动生成高性能GPU内核，核心瓶颈是训练数据不足
AI编码工具已经可以让Tri的研发效率提升50%，核心价值是降低实现环节的工作量
大模型的Agent能力是下一阶段核心突破点，决定了效率提升的天花板

详细精要

全自动内核生成的发展现状：当前大模型还无法实现高性能GPU内核的全自动生成
仅能生成简单的逐元素运算、归约、归一化等基础内核，复杂度稍高就会生成错误代码
核心瓶颈是训练数据不足，互联网上的GPU内核代码大多是课程作业、旧硬件的过时文档，高质量专家级数据稀缺
解决路径是基于少量专家数据生成合成数据，结合编译器、性能分析器等工具生成训练数据，预计1-2年内可取得突破
AI辅助编程的落地效果：AI编码工具已经成为资深研究者的重要效率工具
GPT-4o在高层推理上表现优异，可帮忙 brainstorm 优化方向、梳理需要关注的核心问题
Cloud Code在生成Triton内核上表现出色，大幅降低了Tri在代码实现环节的工作量，整体效率提升1.5倍
辅助编程的落地效果远好于全自动生成，是当前AI工具在系统研发领域的主流落地方式
下一阶段的核心突破点：大模型的Agent能力是未来效率提升的核心
Agent能力指大模型可自主判断何时需要调用工具，比如查API、查看编译器报错、从性能分析器获取优化信息
核心判断标准是大模型能否准确认知自己的知识边界，知道什么时候需要主动寻求外部信息
当前行业已经开始构建Agent能力的基准测试，整体还处于非常早期的阶段

💬 精华片段（中文） 我现在的效率大概提升了1.5倍，我已经是Cloud Code的重度用户了。如果你让模型和人类协同工作，而不是指望它们全自动生成内核，它们的用处要大得多。

"I would say you know it makes me maybe 1.5x more productive. If you have these models working alongside with with with humans maybe um they are a lot more helpful rather than just relying on them fully automatically generating kernels."

23:51 大模型推理成本的下降路径

本节重点

ChatGPT发布以来推理成本已下降至少100倍，来自模型架构和推理优化的双重贡献
未来1年推理成本还有10倍下降空间，来自硬件、架构、内核优化的共同贡献
推理优化的核心方向是减少数据移动，量化、KV缓存优化、软硬件协同设计是核心手段

详细精要

过去3年推理成本下降的核心原因：ChatGPT发布以来推理成本已经下降至少100倍，来自两个维度的贡献
模型架构维度：同等参数量的模型效果大幅提升，同时出现了高效注意力、混合专家等新架构，降低了实际计算量
推理优化维度：行业逐步明确推理的核心瓶颈是数据移动，而非计算，诞生了大量针对性优化技术
量化技术已经从2-3年前的16bit主流，演进到当前8bit普及、4bit大规模落地，甚至出现1-2bit的前沿探索，量化带来的显存占用下降大幅降低了数据移动开销
软硬件协同设计贡献巨大，Flash Attention就是典型代表，通过重写注意力算法大幅降低内存访问开销，直接释放了硬件性能
未来1年推理成本的下降空间：未来1年推理成本还有至少10倍的下降空间，来自三个维度的贡献
硬件维度：随着架构逐步稳定，芯片厂商可针对性优化推理场景，低精度硬件支持、网络通信优化可带来2-3倍提升
模型架构维度：Mamba等状态空间模型可将长序列历史压缩为更小的状态向量，替代KV缓存，在大batch推理、多轨迹推理等场景下可带来2-3倍提升
内核优化维度：越来越多的开发者进入高性能内核开发领域，更优的内核实现可带来2倍左右的提升
混合专家架构的优化价值：稀疏化混合专家架构是当前推理优化的核心方向之一
早期开源混合专家模型的激活率为25%（8个专家激活2个），当前GPT-4o等模型的激活率已经降到3%左右（128个专家激活4个）
稀疏化大幅降低了单token推理的实际计算量，尤其适合多用户高并发的推理场景
DeepSeek提出的多头潜在注意力通过压缩KV缓存大小，也大幅降低了长序列推理的开销
GPT-4o的量化实践：OpenAI最新发布的GPT-4o大部分层都采用4bit量化
GPT-4o总参数量为1200亿，4bit量化后仅需60GB显存即可运行，推理性能提升显著

💬 精华片段（中文） 我认为过去几年推理成本大概下降了100倍，未来1年我们大概率还能再获得10倍的下降。

"I think in the last couple years, inference cost has probably come down maybe 100x. So taken together, I think even in just probably just one year, we would probably get another 10x."

32:39 推理工作负载的分化与行业格局

本节重点

当前AI推理工作负载可分为三类：通用聊天、低延迟交互、高吞吐量批处理
规模效应是推理服务商的核心优势，可通过动态集群调度提升资源利用率
未来1-2年Agent和实时视频生成将成为新增核心工作负载，带来全新优化需求

详细精要

当前核心推理工作负载分类：当前主流推理场景可分为三类，各有不同的优化优先级
通用聊天场景：对延迟要求适中，兼顾交互体验和成本，不需要极端性能
低延迟交互场景：如编码辅助、实时Agent等，用户对延迟高度敏感，愿意为更低延迟支付溢价，延迟直接影响用户的工作流状态和效率
高吞吐量批处理场景：如合成数据生成、RL训练的轨迹采样等，对延迟不敏感，核心要求是单位成本的吞吐量最大化
大模型生成模拟人类用户的训练数据是高吞吐量场景的典型需求，比如生成航空公司客户投诉的对话数据用于训练客服Agent
推理服务商的核心竞争力：规模效应是推理服务商的核心竞争壁垒
大规模集群可实现 fleet 级调度，在交互式请求低峰期调度批处理任务填充空闲算力，提升资源利用率
主流推理服务商都对批处理API提供50%左右的折扣，就是动态调度的直接成果
开源推理工具链的成熟度不断提升，VLLM、TensorRT-LLM等已经达到生产级质量，推理服务商的核心竞争力转向对新兴场景的定制化优化能力
未来核心工作负载预测：未来1-2年将出现两个新的核心推理场景
Agent场景：企业级和专业级场景的核心需求，要求模型可自主调用工具、访问垂直领域数据库、与专业软件交互，带来大量系统层面的新优化需求
实时视频生成：消费级场景的核心需求，Pika、Hedra等公司已经在布局，对算力的要求远高于文本推理，将带来大量新增算力需求和优化需求

💬 精华片段（中文） 我们可以给批处理API提供50%的折扣，OpenAI也是这么做的，规模化运营真的非常有帮助。

"We can uh provide uh I think we give like 50% discount on on batch API and I think OpenAI does does the same, right? Right. Having it at scale really really helps."

43:34 未来AI研究方向与个人选择

本节重点

Tri当前最关注的核心问题是如何让AI达到专家级水平，这是经济价值的核心来源
Transformer架构足够支撑AGI，但更好的架构可大幅降低落地成本，混合专家、状态空间模型是核心探索方向
Tri同时在工业界和学术界任职，前者负责短期落地，后者探索长期前沿问题，当前重点研究方向是机器人

详细精要

核心行业问题：Tri未来几年的核心研究目标是让AI达到人类专家的水平
当前大模型在互联网数据丰富的任务上已经达到甚至超过人类平均水平，比如前端编程、数据分析
经济价值最高的专家任务（如硬件设计、航空工程、医生、律师）缺乏公开互联网数据，大模型还无法达到专家水平
解决这个问题将释放巨大的经济价值，同时也会带来全新的硬件和系统优化需求
下一代AI架构的发展方向：Transformer不是终极解决方案，架构创新可大幅降低AGI的落地成本
Tri认为当前Transformer架构已经包含实现AGI的所有必要要素，仅靠 scaling 也能达到目标，但成本会非常高
更优的架构可让AGI提前1-2年到来，或者将落地成本降低10倍，大幅提升技术的可及性
稀疏化混合专家、Transformer与Mamba的混合架构是当前最有前景的探索方向，可在同等算力下获得更高的模型智能水平
当前架构研究已经进入“推理优先”的设计阶段，因为90%以上的算力都消耗在推理环节，架构设计要优先考虑推理效率
当前重点研究方向：Tri当前的研究重点之一是机器人领域的AI系统问题
机器人的核心挑战是缺乏真实世界的交互数据，当前主流解决方案是仿真数据生成和遥操作数据采集
机器人需要处理多时间尺度的任务，关节控制需要极低延迟的轻量计算，路径规划需要高延迟的复杂推理，和状态空间模型的特性高度匹配
机器人系统需要融合语言模型、视觉模型、世界模型等多个组件，如何打通这些组件是核心研究问题
职业选择逻辑：Tri同时任职于工业界和学术界，两者形成互补
工业界（Together）节奏快，可在几天到几个月的周期内落地想法，快速验证技术的实际价值
学术界（普林斯顿）时间周期更长，可探索更具前瞻性的长期问题，不需要考虑短期落地需求，和学生合作探索前沿方向自由度更高
这种组合正好匹配技术发展的探索和落地两个环节，学术界负责探索大量前沿想法，工业界负责将可行的想法快速落地到市场
很多当前的核心技术都来自学术界，包括注意力机制、Adam优化器、LayerNorm等，都是先由学术团队提出，再由工业界落地优化

💬 精华片段（中文） 我认为当前的架构已经拥有了所有正确的要素，如果你持续 scaling 确实可以达到AGI，但成本可能会高得离谱。

"I think the current architecture sort of have all the right ingredients um and if you keep scaling which people have been doing you could get there but maybe you know the cost is just a little uh is like astronomical."

56:59 快问快答环节

本节重点

Tri过去1年改变的想法是大模型对专家级工作的辅助效果远超预期
未来1年开源模型和闭源模型的质量差距会进一步缩小
数据是当前行业被低估的核心方向，合成数据的价值还没有被充分认知

详细精要

过去1年认知变化：Tri过去1年最大的认知改变是大模型对专家级工作的辅助效果
原本以为大模型只能处理简单任务，现在发现其在数学、编码等专家级工作上的表现远超预期，可显著提升资深研究者的效率
开源模型发展判断：未来1年开源模型和闭源模型的质量差距会持续缩小
现在大模型的性能提升核心来自RLHF等环节，对工具链的依赖高于对 raw 算力的依赖，开源社区在这一领域有很强的创新能力
被低估的行业方向：数据是当前行业最被低估的方向，尤其是合成数据
行业的关注重点大多在模型和硬件上，用模型生成合成数据的价值还没有被充分认知，这一方向会对模型性能提升带来巨大影响
最喜欢的落地应用：Tri最喜欢的基于Together的应用是Pika和Hedra的视频生成产品
这些产品在Together的平台上训练和推理，生成的视频内容已经成为Tik Tok上的爆款内容，展现了AI技术的消费级价值
个人信息渠道：用户可通过三个渠道了解Tri的工作
Together的官方博客会发布团队的技术进展
Twitter账号@tree_dow会分享日常研究动态
个人网站treedao.me会发布深度博客文章

💬 精华片段（中文） 我认为最被低估的方向肯定是数据，数据一直都没得到足够的关注，合成数据领域已经发生了很多进展，可能大家还没注意到。

"Definitely data. I think data is always uh a little bit uh under hype. Uh I think lots lots have happened on the data side. you know, synthetic data using models to rephrase that has huge impact that maybe people have pay less attention to."

专业术语注释

术语	解释
Flash Attention（英文）	Tri Dao主导研发的注意力优化算法，通过重构注意力计算逻辑减少内存访问，是大模型推理成本下降的核心技术之一
Mamba（英文）	Tri Dao主导研发的状态空间模型架构，是Transformer的替代方案，在长序列推理场景下延迟和显存占用优势显著
Transformer（英文）	2017年提出的大模型基础架构，是当前绝大多数大模型的底层架构，核心组件是注意力机制
Mixture of Experts (MoE，混合专家)（英文）	大模型稀疏架构的一种，模型包含多个专家模块，单token推理仅激活少量专家，大幅降低计算量
KV缓存（英文）	注意力推理过程中存储历史键值对的缓存，避免重复计算，是长序列推理的主要显存开销来源
量化（Quantization）	降低大模型参数存储位宽的优化技术，可减少显存占用和数据移动开销，常见位宽包括8bit、4bit等
Triton（英文）	OpenAI开源的GPU编程语言，支持跨厂商硬件，可简化高性能GPU内核的开发流程
Mojo（英文）	Modular公司开发的面向AI场景的编程语言，兼顾Python的易用性和C++的性能，目标是成为AI系统开发的通用语言
Agent（英文）	具备自主决策和工具调用能力的大模型系统，可自主完成复杂任务，不需要人类逐步骤指令
RLHF (基于人类反馈的强化学习)（英文）	大模型对齐的核心技术之一，通过人类反馈排序训练奖励模型，再用强化学习微调大模型，提升模型输出的人类满意度
状态空间模型 (State Space Model, SSM)（英文）	一类序列建模架构，通过隐状态存储历史信息，不需要维护KV缓存，长序列推理效率远高于Transformer
推理 (Inference)（英文）	训练好的大模型接收输入生成输出的过程，是当前大模型算力消耗的主要环节
训练 (Training)（英文）	大模型基于海量数据学习参数的过程，算力消耗高，周期长
FLOPS（英文）	每秒浮点运算次数，是衡量AI芯片算力的核心指标

延伸思考

随着AI芯片市场走向多元化，英伟达的软件生态护城河会逐步被Triton等跨硬件抽象层削弱，未来2-3年会不会出现市占率超过10%的非英伟达AI芯片厂商？
合成数据的大规模应用会不会改变当前大模型训练的数据源格局，成为未来大模型性能提升的核心驱动力？
当推理成本再下降10倍后，Agent的落地成本会大幅降低，会不会催生大量面向垂直领域的专业Agent产品，重构企业软件的形态？
状态空间模型等新架构会不会在长序列、机器人等场景下逐步替代Transformer，形成多架构共存的大模型技术格局？
学术界和工业界的边界正在变得模糊，大量风险资本进入早期研究领域，会不会改变未来AI技术创新的路径？

原文发表：Sep 10, 2025 · 纪要生成：2026-04-22