来源: Substack | 黄仁勋(Jensen Huang) | 2026-04 分类: 其他 原文发表: Apr 15, 2026 纪要生成: 2026-04-20
黄仁勋(Jensen Huang)是英伟达(Nvidia)创始人兼CEO,主导了GPU与CUDA生态的搭建,是全球AI计算产业的核心推动者。本期播客中,他全面回应了英伟达供应链护城河、TPU等竞品威胁、是否下场做云服务商、对华AI芯片出口等外界高度关注的核心争议,首次披露了英伟达对大模型公司的投资逻辑与下一代芯片的迭代规划,信息量极大。
本节重点 - 英伟达核心价值是实现“电子到Token”的转换,技术复杂度极高,难以被 commoditize。 - 供应链优势是生态协同的结果,而非刻意垄断,全产业信息对齐是产能匹配的核心。 - 短期硬件瓶颈均可在2-3年内解决,长期制约AI发展的核心是能源政策。 - AI普及将带动工具类软件需求爆发,而非导致软件 commoditize。
详细精要
他不认同“AI将 commoditize 软件”的观点,认为未来AI Agent数量将指数级增长,工具类软件(如Synopsys EDA工具、Excel等)的使用实例将大幅提升,相关软件厂商的市场空间反而会扩大。
供应链优势是生态协同的结果而非刻意垄断
GTC大会的核心作用之一是打通上下游信息差,让全生态清晰看到AI产业的发展节奏,统一扩产预期,避免供需错配。
短期硬件瓶颈均可在2-3年内解决,长期瓶颈是能源
黄仁勋认为长期制约AI产业发展的核心瓶颈是能源政策,无论是芯片制造、数据中心建设还是AI工厂落地,都需要充足的能源供给,而能源相关审批与建设周期远长于硬件产能扩张。
产业扩张的核心制约是下游需求确定性而非上游产能
💬 精华片段(中文)
"In the end, something has to transform electrons to tokens. The transformation of electrons to tokens and making those tokens more valuable over time is hard to completely commoditize."
本节重点 - 英伟达的核心产品是通用加速计算,适用场景远广于TPU等专用ASIC。 - CUDA的可编程性支持AI算法快速迭代,性能提升空间远高于单纯硬件升级。 - 英伟达的TCO、性能功耗比全球领先,没有竞品可证明其综合成本优势。 - Anthropic使用TPU是早期投资绑定的特例,而非行业普遍趋势。
详细精要
目前英伟达的算力已覆盖所有主流云厂商,包括谷歌、AWS、Azure、OCI,是唯一实现全云覆盖的AI算力供应商。
CUDA的可编程性是AI快速迭代的核心基础
英伟达深度参与Triton等开源算子框架的开发,CUDA生态的稳定性与成熟度可帮助开发者减少底层调试成本,将更多精力放在上层算法创新上。
生态安装基数与全云覆盖构成难以突破的壁垒
面向云厂商的英伟达算力中,超过60%的需求来自外部客户而非云厂商自用,云厂商愿意优先采购英伟达算力的核心原因是其可覆盖最广泛的客户群体。
英伟达的TCO与性能功耗比优势没有竞品可及
英伟达的技术团队可为客户提供深度优化支持,通常可帮助客户将模型性能提升2-3倍,直接转化为客户的收入增长。
Anthropic使用TPU是早期投资绑定的特例而非趋势
💬 精华片段(中文)
"Nvidia’s computing stack is the best performance per TCO in the world, bar none. Nobody can demonstrate to me that any single platform in the world today has a better performance-TCO ratio. Not one company."
本节重点 - 英伟达核心战略是“做必要且最少的事”,云服务赛道已有充足参与者,无需下场竞争。 - 英伟达通过投资AI新云厂商的方式补充生态,而非亲自运营云业务,避免与客户竞争。 - 对大模型公司的投资遵循“不押注单一赢家”原则,维护生态的开放性与公平性。 - 芯片分配遵循先到先得、定价稳定的原则,核心目标是成为AI产业的可靠基础设施。
详细精要
英伟达过往20年投入CUDA生态时长期处于亏损状态,这种投入强度是其他公司无法做到的,也是英伟达核心壁垒的来源。
投资生态而非亲自下场,维护全行业公平性
英伟达不会介入金融业务,会与专业金融机构合作解决客户的融资需求,核心精力仍放在技术研发与生态建设上。
稳定的供给与定价策略是英伟达作为产业基础设施的核心责任
英伟达每年的产品迭代节奏稳定,客户可提前数年规划算力采购,确定性远高于其他ASIC厂商,这也是英伟达生态粘性的重要组成部分。
早期未投资大模型是认知与能力局限,未来会持续支持生态创新
💬 精华片段(中文)
"This is a philosophy of the company, and I think it’s wise. We should do as much as needed, as little as possible. What that means is, the work that we do with building our computing platform, if we don’t do it, I genuinely believe it doesn’t get done."
本节重点 - 中国已具备充足的AI算力基础,过度限制出口无法阻止其AI技术发展。 - 限制出口将迫使中国发展自主生态,长期损害美国科技领导地位。 - 应对AI安全风险的核心是建立全球对话机制,而非单纯技术封锁。 - 应平衡监管与市场竞争,避免主动放弃全球第二大科技市场。
详细精要
HBM2等存储芯片无需EUV光刻机即可生产,中国可通过规模堆叠的方式弥补内存带宽差距,不存在无法解决的硬件瓶颈。
算法创新的权重远高于硬件,限制出口反而会加速中国自主生态发展
过往美国对电信行业的过度管制已导致美国失去全球电信市场主导权,对芯片行业的类似管制最终会带来同样的后果。
应对AI安全风险的核心是全球对话而非技术封锁
美国应通过优先为本土实验室提供最先进算力、加大本土AI研究投入的方式保持领先地位,而非通过封锁对手的方式维持优势。
平衡监管与市场竞争才符合美国长期利益
💬 精华片段(中文)
"The single most important thing to our company is the richness of our ecosystem, which is about developers. 50% of the AI developers are in China. The United States should not give that up. Comparing AI to anything that you just mentioned is lunacy."
本节重点 - 现有架构已通过仿真验证为最优,其他架构的综合性能均不如现有方案。 - 收购Groq是为了适配推理市场分层需求,覆盖高响应速度的premium Token场景。 - 即便没有深度学习革命,英伟达也会通过加速计算在科学计算等领域取得成功。
详细精要
如果未来AI workload发生根本性变化,英伟达会考虑新增专用架构,但目前没有相关必要。
收购Groq是为了适配推理市场的分层需求
未来英伟达会根据市场需求的变化持续扩充产品线,覆盖更多细分场景,而非局限于单一架构。
加速计算是英伟达的核心使命,AI只是其中一个应用场景
💬 精华片段(中文)
"If there were no AI, I would be very sad. But because of the advances that we made in computing, we democratized deep learning. Our mission was really to bring accelerated computing to the world and advance the type of applications that general purpose computing can’t do."
| 术语 | 解释 |
|---|---|
| CUDA(Compute Unified Device Architecture) | 英伟达推出的通用并行计算平台和编程模型,允许开发者使用GPU进行通用计算,是英伟达生态的核心基础 |
| TPU(Tensor Processing Unit) | 谷歌推出的专用张量处理器,专为AI矩阵运算优化,适用场景相对单一 |
| ASIC(Application Specific Integrated Circuit) | 专用集成电路,为特定 workload 定制设计的芯片,通用性差但特定场景下性能/功耗比更高 |
| CoWoS(Chip on Wafer on Substrate) | 台积电推出的先进2.5D封装技术,可将多个逻辑芯片与HBM内存集成在同一封装内,是高端AI芯片的核心封装技术 |
| HBM(High Bandwidth Memory) | 高带宽内存,专为AI、HPC等场景设计,带宽远高于普通DRAM,是高端AI芯片的核心组件 |
| EUV(Extreme Ultraviolet) | 极紫外光刻机,是制造7nm及以下先进工艺芯片的核心设备 |
| TCO(Total Cost of Ownership) | 总拥有成本,包含硬件采购、运维、能耗等全生命周期成本,是企业采购算力的核心评估指标 |
| MoE(Mixture of Experts) | 混合专家模型,一种大模型架构,通过激活部分专家模块提升模型效率,是当前大模型的主流演进方向之一 |
| KV cache(Key-Value cache) | 键值缓存,用于存储大模型推理过程中的中间状态,大幅提升推理速度降低延迟 |
| TTFT(Time to First Token) | 首Token生成时间,是衡量大模型推理响应速度的核心指标 |
| vLLM | 开源大模型推理框架,主打高吞吐量与低延迟 |
| GDS2(Graphic Design System II) | 芯片设计的标准文件格式,是芯片设计公司交付给代工厂的核心生产文件 |
| TSMC(Taiwan Semiconductor Manufacturing Company) | 台积电,全球最大的先进工艺芯片代工厂 |
| N3/N2节点 | 台积电的3nm、2nm先进工艺节点,当前高端AI芯片主要采用N3节点,下一代将采用N2节点 |
| CUDA-X | 英伟达推出的领域专用加速库集合,覆盖AI、科学计算、图形学等多个领域 |
| cuLitho | 英伟达推出的计算光刻加速库,可将光刻掩模制备速度提升40倍以上 |
| NVLink | 英伟达推出的高速GPU互联技术,可实现多GPU之间的高带宽低延迟通信 |
| Spectrum-X | 英伟达推出的AI专用以太网交换机,主打AI集群的高带宽低延迟通信 |
| MLPerf | 全球权威的AI性能基准测试,用于评估不同AI硬件/软件的性能 |
| Trainium | AWS推出的自研AI训练专用芯片 |
| Blackwell | 英伟达2026年推出的最新一代数据中心GPU,相对上一代Hopper性能提升30-50倍 |
| Hopper | 英伟达2022年推出的数据中心GPU,是当前大模型训练的主流算力硬件 |
| Ampere | 英伟达2020年推出的数据中心GPU,仍广泛应用于推理与中低端训练场景 |
| Feynman | 英伟达规划中的下一代GPU架构,预计2028年推出,将采用1.6nm工艺 |
| Vera Rubin | 英伟达2026年推出的下一代AI算力集群名称,基于Blackwell GPU构建 |
| Groq | 低延迟AI推理芯片厂商,2026年被英伟达收购,用于补充高响应速度推理场景的产品矩阵 |
| Dojo | 特斯拉推出的自研AI训练超级计算机,采用大封装专用架构 |
| Cerebras | 晶圆级AI芯片厂商,主打超大单芯片面积降低通信延迟 |