▶ 原文链接

对话Tri Dao:Flash Attention作者谈AI芯片竞争、推理优化与下一代架构

来源: YouTube | Tri Dao | 2025年9月10日 分类: AI 工程 原文发表: Sep 10, 2025 纪要生成: 2026-04-22


全集重点


嘉宾/话题简介

Tri Dao是全球顶尖AI系统研究者,Flash AttentionMamba核心作者,现任Together首席科学家、普林斯顿大学助理教授,其研究成果直接推动了大模型推理成本的量级下降。本集播客中,他围绕AI芯片市场竞争、大模型推理优化路径、下一代AI架构、AI工具对研发效率的影响、AI落地的核心未来场景等话题展开深度分享,同时披露了自己当前的研究方向和对行业的判断。


分节详述

00:00 开场与嘉宾介绍

本节重点

详细精要

💬 精华片段(中文)

"I feel like when I started this podcast, two and a half, three years ago, you were on my like dream guest list and so I think that was like when kind of Flash Attention, you know, was was initially making the rounds and people were uh just ooing and aing over the impact you were having on the space."


02:04 AI芯片市场竞争格局

本节重点

详细精要

💬 精华片段(中文) 我认为未来几年部分工作负载会变成多硅运行,它们会跑在不同的芯片上,而不是像现在这样90%都跑在英伟达芯片上。

"So I would expect in the next couple years maybe some of the workload will become multi-silicon. They they'll probably run on on on different chips rather than uh right now I'd say I don't know 90% on on Nvidia."


09:17 跨硬件抽象层的发展现状

本节重点

详细精要

💬 精华片段(中文) 我认为硬件可移植性某种意义上是个伪命题,哪怕是英伟达的芯片,不同代际之间的变化也非常大,他们几乎每两年就要重写所有的软件。

"I would say hardware portability is kind of a myth uh simply you know even for our Nvidia chips like generation to generation they change a lot and I think that's kind of the only way we get more performance out of these chips."


18:08 AI工具对研发效率的提升

本节重点

详细精要

💬 精华片段(中文) 我现在的效率大概提升了1.5倍,我已经是Cloud Code的重度用户了。如果你让模型和人类协同工作,而不是指望它们全自动生成内核,它们的用处要大得多。

"I would say you know it makes me maybe 1.5x more productive. If you have these models working alongside with with with humans maybe um they are a lot more helpful rather than just relying on them fully automatically generating kernels."


23:51 大模型推理成本的下降路径

本节重点

详细精要

💬 精华片段(中文) 我认为过去几年推理成本大概下降了100倍,未来1年我们大概率还能再获得10倍的下降。

"I think in the last couple years, inference cost has probably come down maybe 100x. So taken together, I think even in just probably just one year, we would probably get another 10x."


32:39 推理工作负载的分化与行业格局

本节重点

详细精要

💬 精华片段(中文) 我们可以给批处理API提供50%的折扣,OpenAI也是这么做的,规模化运营真的非常有帮助。

"We can uh provide uh I think we give like 50% discount on on batch API and I think OpenAI does does the same, right? Right. Having it at scale really really helps."


43:34 未来AI研究方向与个人选择

本节重点

详细精要

💬 精华片段(中文) 我认为当前的架构已经拥有了所有正确的要素,如果你持续 scaling 确实可以达到AGI,但成本可能会高得离谱。

"I think the current architecture sort of have all the right ingredients um and if you keep scaling which people have been doing you could get there but maybe you know the cost is just a little uh is like astronomical."


56:59 快问快答环节

本节重点

详细精要

💬 精华片段(中文) 我认为最被低估的方向肯定是数据,数据一直都没得到足够的关注,合成数据领域已经发生了很多进展,可能大家还没注意到。

"Definitely data. I think data is always uh a little bit uh under hype. Uh I think lots lots have happened on the data side. you know, synthetic data using models to rephrase that has huge impact that maybe people have pay less attention to."


专业术语注释

术语 解释
Flash Attention(英文) Tri Dao主导研发的注意力优化算法,通过重构注意力计算逻辑减少内存访问,是大模型推理成本下降的核心技术之一
Mamba(英文) Tri Dao主导研发的状态空间模型架构,是Transformer的替代方案,在长序列推理场景下延迟和显存占用优势显著
Transformer(英文) 2017年提出的大模型基础架构,是当前绝大多数大模型的底层架构,核心组件是注意力机制
Mixture of Experts (MoE,混合专家)(英文) 大模型稀疏架构的一种,模型包含多个专家模块,单token推理仅激活少量专家,大幅降低计算量
KV缓存(英文) 注意力推理过程中存储历史键值对的缓存,避免重复计算,是长序列推理的主要显存开销来源
量化(Quantization) 降低大模型参数存储位宽的优化技术,可减少显存占用和数据移动开销,常见位宽包括8bit、4bit等
Triton(英文) OpenAI开源的GPU编程语言,支持跨厂商硬件,可简化高性能GPU内核的开发流程
Mojo(英文) Modular公司开发的面向AI场景的编程语言,兼顾Python的易用性和C++的性能,目标是成为AI系统开发的通用语言
Agent(英文) 具备自主决策和工具调用能力的大模型系统,可自主完成复杂任务,不需要人类逐步骤指令
RLHF (基于人类反馈的强化学习)(英文) 大模型对齐的核心技术之一,通过人类反馈排序训练奖励模型,再用强化学习微调大模型,提升模型输出的人类满意度
状态空间模型 (State Space Model, SSM)(英文) 一类序列建模架构,通过隐状态存储历史信息,不需要维护KV缓存,长序列推理效率远高于Transformer
推理 (Inference)(英文) 训练好的大模型接收输入生成输出的过程,是当前大模型算力消耗的主要环节
训练 (Training)(英文) 大模型基于海量数据学习参数的过程,算力消耗高,周期长
FLOPS(英文) 每秒浮点运算次数,是衡量AI芯片算力的核心指标

延伸思考

  1. 随着AI芯片市场走向多元化,英伟达的软件生态护城河会逐步被Triton等跨硬件抽象层削弱,未来2-3年会不会出现市占率超过10%的非英伟达AI芯片厂商?
  2. 合成数据的大规模应用会不会改变当前大模型训练的数据源格局,成为未来大模型性能提升的核心驱动力?
  3. 当推理成本再下降10倍后,Agent的落地成本会大幅降低,会不会催生大量面向垂直领域的专业Agent产品,重构企业软件的形态?
  4. 状态空间模型等新架构会不会在长序列、机器人等场景下逐步替代Transformer,形成多架构共存的大模型技术格局?
  5. 学术界和工业界的边界正在变得模糊,大量风险资本进入早期研究领域,会不会改变未来AI技术创新的路径?

原文发表:Sep 10, 2025  ·  纪要生成:2026-04-22