▶ 原文链接
2026年AI现状:大语言模型、编码、缩放定律、中国、智能体、GPU、通用人工智能
来源: Lex Fridman Podcast | 嘉宾:Nathan Lambert、Sebastian Raschka | 日期:无
分类: AI 资讯
原文发表: Jan 31, 2026
纪要生成: 2026-02-25
全集重点
- 中美AI竞争格局:中美在AI研发和产品层面竞争加速,中国开源大模型发展迅猛,美国闭源大模型在用户体验和商业化上暂时领先,短期无绝对赢家。
- 大模型技术演进:当前SOTA模型仍以Transformer架构为基础,后训练技术尤其是RLVR成为2025年最大突破,缩放定律在训练、推理多个维度依然有效。
- 开源与闭源竞争:中国开源大模型凭借宽松许可和优异性能抢占市场,美国开源生态正加速追赶,二者将长期共存分别覆盖不同场景需求。
- AI落地与就业:AI已经大幅提升编码等领域的生产效率,短期不会完全替代程序员,反而会重构软件开发流程,推动开发者转向系统设计和需求定义。
- 行业发展趋势:2026年AI领域将迎来整合,硬件端NVIDIA仍保持领先,软件端工具调用、长上下文、连续学习是核心研发方向。
嘉宾/话题简介
本次对话邀请了两位AI领域兼具技术实力与科普能力的权威人士:Sebastian Raschka是畅销书《从零构建大语言模型》《从零构建推理模型》作者,深耕大模型架构与AI教育;Nathan Lambert是艾伦人工智能研究所(AI2)后训练负责人,RLHF领域权威,著有该领域的权威专著。本次对话围绕2025-2026年AI领域的技术突破、行业竞争、未来趋势展开,覆盖技术、商业、政策、伦理多个维度,是当前AI行业现状的全景式梳理。
分节详述
0:00 引言
本节重点
- 本次对话聚焦2025-2026年AI领域的技术突破与未来趋势,兼顾专业性与科普性。
- 介绍两位嘉宾的背景与核心贡献。
- 提及本次对话将覆盖技术、竞争、应用、伦理等多个维度的热门话题。
详细精要
- 对话定位:本次对话是2026年AI技术现状的全景式讨论,覆盖过去一年的技术突破与未来一年的趋势预测,兼顾技术深度与非专业人士的可理解性,不会降低技术表述的严谨性。
- 对话涉及大模型竞争、技术架构、训练方法、应用落地、行业文化、伦理风险等多个维度的话题。
- 讨论过程中会对专业术语进行解释,降低普通听众的理解门槛。
- 嘉宾背景介绍:两位嘉宾均是AI领域兼具技术实力与科普能力的权威人士。
- Sebastian Raschka:著有面向入门者与专家的两本核心畅销书《从零构建大语言模型》《从零构建推理模型》,主张通过亲手实现来理解AI技术的底层逻辑。
- Nathan Lambert:艾伦人工智能研究所(AI2)后训练负责人,是人类反馈强化学习(RLHF)领域的权威,著有该领域的权威专著,同时运营播客与专栏输出AI内容。
💬 精华片段(中文)
"在机器学习和计算机科学领域,理解某件事的最佳方式就是亲手从零开始构建它。"
"I truly believe in the machine learning and computer science world, the best way to learn and understand something is to build it yourself from scratch."
1:57 中美AI竞赛:谁会胜出?
本节重点
- 2025年1月DeepSeek R1的发布是中国大模型发展的标志性事件,大幅加速了全球AI竞争节奏。
- 中美AI发展各有优势:中国开源大模型性能优异、许可宽松,美国闭源大模型商业化成熟、用户基数大。
- 短期不存在绝对赢家,技术迭代速度快,头部厂商呈现互相追赶的格局,开源模式将是未来竞争的核心变量之一。
详细精要
- DeepSeek效应:2025年1月中国公司DeepSeek发布的开源大模型DeepSeek R1以远低于预期的算力成本达到接近SOTA的性能,震惊全球AI行业,直接推动了中国开源大模型的爆发式增长。
- 该事件后中国涌现出大量优秀的开源大模型厂商,包括Z.ai(GLM系列)、MiniMax、Moonshot(Kimi K2 Thinking)等,DeepSeek已不再是中国唯一的头部开源大模型厂商。
- 中国开源大模型普遍采用无限制的开源许可,相比Meta Llama、Google Gemma等带使用限制的模型更受开发者欢迎。
- 中美优势对比:中美AI发展路径不同,各有不可替代的优势。
- 美国闭源大模型在用户体验、商业化、生态整合上领先,ChatGPT、Gemini拥有庞大的C端用户基础,Anthropic Claude在企业级编码场景优势明显。
- 中国大模型厂商的核心优势是开源生态,大量性能优异的开源模型已经对美国闭源厂商的商业模式构成潜在威胁,且大量中国厂商正在通过开源模式抢占全球开发者心智。
- 竞争格局判断:当前不存在也不会出现赢家通吃的局面,技术迭代速度快,头部厂商互相追赶。
- 技术知识流通性极强,研究人员频繁跨公司流动,不存在某一家厂商长期独占独家技术的可能,未来核心竞争点在于预算、硬件资源与组织文化。
- 中国厂商将在未来几年持续发布开源大模型,政府层面也会将开源作为提升全球AI影响力的重要手段,2026年中国开源大模型厂商数量将进一步增加。
- 用户视角差异:当前美国用户对中国开源大模型的使用率较低,核心原因是美国闭源模型的用户体验、速度、准确性暂时领先,且用户存在使用习惯的路径依赖。
- 中国大模型的推理成本更低,未来可能通过免费或低价策略切入市场,倒逼美国厂商调整定价策略。
💬 精华片段(中文)
"我认为现在2026年不会有任何一家公司拥有其他公司完全无法获得的技术,核心原因是研究人员会频繁换工作、换实验室,人员是流动的。"
"One thing I know for sure is that I don't think nowadays, in 2026, that there will be any company having access to a technology that no other company has access to. And that is mainly because researchers are frequently changing jobs, changing labs. They rotate."
10:38 ChatGPT vs Claude vs Gemini vs Grok:谁处于领先?
本节重点
- 2025年Gemini增长势头强劲,但OpenAI作为 incumbent 仍拥有巨大的用户规模与品牌优势,Anthropic在企业级编码场景增长迅猛。
- 不同大模型各有场景优势:Gemini长上下文能力突出,Claude Opus 4.5编码与推理能力强,Grok适合实时信息查询与深度调试,ChatGPT用户习惯与生态最成熟。
- 用户选择大模型存在阈值效应:某款模型在某一个场景的出色表现会获得用户长期青睐,直到出现重大故障才会更换。
详细精要
- 2025年头部模型表现:2025年各头部闭源大模型各有胜负,没有绝对领先者。
- Google Gemini从之前Bard的低谷中恢复,2025年增长势头强劲,TPU基础设施带来的成本优势是其核心竞争力。
- OpenAI虽然组织管理较为混乱,但产品落地能力极强,GPT-5引入的路由功能大幅降低了推理成本,巩固了其市场领先地位。
- Anthropic Claude Opus 4.5凭借出色的编码与推理能力,在开发者群体与企业级市场获得极高口碑,是2025年下半年热度最高的大模型。
- 场景化优势差异:不同大模型在细分场景各有不可替代的优势,用户普遍同时使用多款模型满足不同需求。
- 快速查询场景:Gemini、GPT-5非思考模式速度快,适合简单的脚本生成、常识查询等对响应速度要求高的场景。
- 复杂推理与编码场景:Claude Opus 4.5、GPT-5.2思考模式准确率高,适合论文查询、公式校验、复杂代码编写等对准确性要求高的场景。
- 长上下文场景:Gemini曾是长上下文场景的首选,GPT-5.2发布后长上下文准确率从30%提升至70%,成为有力竞争者。
- 实时信息与调试场景:Grok 4 Heavy适合查询X平台的实时信息,且在硬核代码调试场景表现优于其他模型。
- 用户选择逻辑:用户对大模型的选择存在明显的路径依赖与阈值效应。
- 品牌认知与使用习惯是核心影响因素,ChatGPT进入市场早,用户形成肌肉记忆后很难被替代。
- 某款模型在特定场景的出色表现会获得用户的长期信任,直到出现重大错误才会尝试其他模型,与用户选择浏览器、编辑器的逻辑一致。
💬 精华片段(中文)
"你会一直用它直到它出错,遇到问题后再换其他大模型,这和我们使用文本编辑器、操作系统、浏览器的逻辑完全一样。"
"This is exactly it. You use it until it breaks, until you have a problem, and then you change the LLM. I think it's the same way we use anything, like our favorite text editor, operating system, or browser."
21:38 最佳AI编码工具
本节重点
- 当前AI编码工具呈现多元化格局,不同工具适合不同开发习惯:Codeium适合轻量级辅助,Cursor适合精细的代码编辑与Diff查看,Claude Code适合宏观层面的项目级开发。
- AI编码工具大幅提升了开发效率,将开发者从重复、枯燥的低价值工作中解放出来,让开发者可以聚焦更有创造性的任务。
- 亲手从零构建大模型是学习AI技术的最佳路径,代码的可运行性可以消除理解偏差,是最严谨的知识验证方式。
详细精要
- 主流编码工具对比:不同AI编码工具的产品定位与使用体验差异明显,覆盖不同的开发场景需求。
- Codeium:VS Code插件,可访问本地代码库,辅助粒度适中,适合希望保留代码控制权、仅需要AI做辅助的开发者。
- Cursor:集成大模型的IDE,支持精细的Diff查看与代码编辑,适合需要逐行核对代码的开发场景。
- Claude Code:智能体属性更强,可独立完成整个项目的开发工作,适合从宏观层面指导项目、希望用自然语言完成编程的开发者。
- AI编码的价值:AI编码工具的核心价值是降低低价值重复劳动的成本,提升开发效率与体验。
- 可快速完成Bash脚本编写、数据爬取、网站搭建等枯燥的基础工作,大幅缩短项目周期。
- 编程体验从单人独立工作转变为有搭档协作的模式,降低了调试过程的孤独感与挫败感。
- 技术学习方法论:从零构建大模型是学习AI技术的最有效路径,代码的可运行性是消除理解偏差的最佳方式。
- 概念解释与图表可能存在错误或歧义,但可运行的代码是100%准确的,能够帮助学习者建立严谨的技术认知。
- 不同学习者有不同的学习节奏:可以先离线专注学习核心内容,再用大模型补充背景知识;也可以先用大模型搭建整体知识框架,再深入学习细节。
💬 精华片段(中文)
"代码不会说谎,它本质上就是数学。就算是数学,你在书中看到的公式也可能有错误,你阅读时不会运行它所以很难发现,但代码你一运行就知道是否正确。"
"I think that's the beauty behind coding. It doesn't lie. It's math, basically. Even with math, you can have mistakes in a book you would never notice because you aren't running the math while reading, so you can't verify it. And with code, what's nice is you can verify it."
28:29 开源 vs 闭源大模型
本节重点
- 2025年开源大模型生态爆发式增长,中国厂商在大参数开源MoE模型上领先,美国厂商在小参数开源模型与完全开源(含数据、训练代码)的模型上有布局。
- 开源大模型的核心价值是降低使用门槛、支持本地化部署与定制化、保护数据隐私,适合对数据安全要求高的企业与开发者。
- 工具调用能力是当前开源大模型与闭源大模型的核心差距之一,2026年开源生态将重点突破这一能力。
详细精要
- 开源大模型格局:全球开源大模型生态已经形成中美双轮驱动的格局,不同模型各有定位。
- 中国头部开源模型包括DeepSeek系列、Qwen 3、Kimi K2 Thinking、MiniMax系列、GLM系列等,以大参数混合专家(MoE)模型为主,峰值性能优异,许可宽松无使用限制。
- 美国头部开源模型包括Mistral系列、Gemma、GPT-OSS、NVIDIA Nemotron、AI2 OLMo系列、Hugging Face SmolLM等,小参数模型成熟,部分模型完全开放训练数据与代码,透明度极高。
- 2026年美国厂商将推出更多大参数开源MoE模型,包括NVIDIA 4000亿参数级别的Nemotron、Mistral Large 3等,缩小与中国开源模型的性能差距。
- 开源大模型的核心优势:开源模式相比闭源模式有不可替代的价值,覆盖不同场景的需求。
- 支持本地化部署,用户数据无需上传到云端,适合金融、医疗、法律等对数据隐私要求极高的行业。
- 可自由定制、微调,企业可基于开源模型训练专属的领域模型,构建核心竞争力。
- 许可宽松无使用限制,无需向模型厂商上报用户规模与财务数据,降低企业的合规风险。
- 开源与闭源的差距:当前开源大模型与闭源大模型的核心差距在于工具调用能力与生态整合。
- 闭源大模型已经深度整合工具调用能力,可通过搜索引擎、Python解释器等工具大幅降低幻觉,而开源大模型的工具调用能力尚不成熟,存在信任与安全问题。
- 闭源厂商的基础设施、用户体验、生态整合能力暂时领先,开源模型的推理速度与用户体验仍有提升空间。
- 厂商开源的核心动机:不同厂商选择开源模型的动机差异明显,均是符合自身商业利益的选择。
- 中国厂商开源是为了抢占全球开发者心智,突破美国企业的软件付费壁垒,通过开源模式切入全球市场。
- OpenAI开源GPT-OSS是为了利用用户的GPU资源进行分布式部署,降低自身的算力压力,同时扩大市场占有率。
💬 精华片段(中文)
"解决幻觉的最佳方式之一不是让模型记住所有信息,而是让它学会调用工具:数学问题用计算器,事实查询用搜索引擎,这样就能大幅提升结果的可靠性。"
"One of the most common complaints about LLMs is, for example, hallucinations, right? And so, in my opinion, one of the best ways to solve hallucinations is to not try to always remember information or make things up. For math, why not use a calculator app or Python?"
本节重点
- 当前SOTA大模型的架构仍然以GPT-2为代表的自回归Transformer decoder为基础,没有发生根本性的架构变革,核心改进集中在细节优化。
- 混合专家(MoE)、注意力机制优化(分组查询注意力、滑动窗口注意力、多头潜在注意力)是近年来大模型架构的核心改进方向,主要目标是提升推理效率、降低显存占用。
- 系统层面的优化(低精度训练、分布式训练框架)是大模型性能提升的重要来源,大幅降低了大模型训练与推理的成本。
详细精要
- Transformer架构的延续性:当前所有主流大模型的架构均源自GPT-2的自回归Transformer decoder,没有发生根本性的变革。
- 核心结构仍然是嵌入层、Transformer块(注意力模块+全连接层)、归一化层,仅在细节层面做优化。
- 开发者可基于GPT-2的基础实现,通过添加少量组件即可复现当前主流大模型的架构,包括OLMo、Gemini 3等。
- 核心架构改进:近年来大模型的架构改进主要集中在效率优化,解决自回归Transformer的高算力、高显存需求问题。
- 混合专家(MoE):将Transformer块中的全连接层替换为多个并行的专家层,每次推理仅激活部分专家,在不增加推理算力的前提下大幅提升模型参数量与知识容量,是当前大参数模型的主流架构。
- 注意力机制优化:包括分组查询注意力(降低KV缓存占用)、滑动窗口注意力(仅关注最近的部分token,提升长上下文效率)、多头潜在注意力(DeepSeek提出的注意力优化,降低显存占用)等,核心目标是提升长上下文推理的效率。
- 归一化与激活函数优化:用RMSNorm替换LayerNorm,优化激活函数,提升模型训练的稳定性与收敛速度。
- 系统层面的优化:除了架构改进,系统层面的优化是大模型性能提升的重要来源。
- 低精度训练(FP8、FP4)大幅降低了显存占用,提升了训练与推理的吞吐量,相同GPU集群的训练速度可提升30%以上。
- 分布式训练框架的成熟让大模型可在数万甚至数十万张GPU上并行训练,大幅缩短了大模型的训练周期。
💬 精华片段(中文)
"当前没有任何架构能够替代自回归Transformer成为SOTA模型的首选,虽然已有文本扩散模型、Mamba等替代架构出现,但仅适用于特定的低成本场景。"
"But what's true is there's nothing that has replaced the autoregressive transformer as the state-of-the-art model. So, for state-of-the-art, you would still go with that thing, but there are now alternatives for the cheaper end—alternatives that are kind of making compromises, but it's not just one architecture anymore."
48:05 AI缩放定律:已经失效还是仍然有效?
本节重点
- 缩放定律在预训练、后训练、推理三个维度仍然有效,算力投入的增加仍然可以带来模型性能的线性提升。
- 预训练缩放的边际效益已经下降,后训练(尤其是RLVR)与推理时缩放是当前性能提升的核心来源,投入产出比更高。
- 大模型训练与推理的成本结构中,推理成本远高于预训练成本,厂商会根据自身用户规模与商业化能力选择最优的缩放策略。
详细精要
- 缩放定律的定义与扩展:经典缩放定律指模型性能与预训练算力、数据量呈幂律关系,当前已经扩展到三个维度。
- 预训练缩放:增大模型参数量、增加训练数据量仍然可以提升基础模型的性能,已经连续13个数量级的算力提升下保持有效,没有明显的天花板。
- 后训练缩放:强化学习训练的算力投入与模型性能呈线性关系,RLVR的出现让后训练缩放的效益大幅提升。
- 推理时缩放:增加推理时的算力投入(让模型生成更多思考token、调用工具等)可以大幅提升复杂任务的准确率,是2025年最核心的性能突破来源。
- 缩放策略的选择:不同缩放路径的投入产出比不同,厂商会根据自身情况选择最优策略。
- 预训练的固定成本极高,但训练完成后模型能力永久保留,适合用户规模大、模型生命周期长的厂商。
- 后训练与推理时缩放的成本是可变的,按查询付费,适合用户规模较小、需要快速迭代的厂商,当前阶段投入产出比高于预训练缩放。
- 推理成本已经达到预训练成本的数倍甚至数十倍,是当前厂商成本的核心构成部分,如何降低推理成本是2026年的核心优化方向。
- 未来趋势:2026年随着吉瓦级算力集群的上线,预训练缩放将再次迎来进展,同时后训练与推理缩放的技术也将持续优化。
- xAI预计2026年初建成1吉瓦算力集群,年底达到2吉瓦,将主要用于预训练与后训练,推动模型性能进一步提升。
- 缩放定律的核心瓶颈已经从技术层面转向系统层面:如何在十万级GPU的集群上稳定运行训练任务,解决GPU故障、通信延迟等问题是当前的核心挑战。
💬 精华片段(中文)
"缩放定律已经在13个数量级的算力提升下保持有效,为什么会突然停止呢?从根本上来说它失效的可能性极低,只是随着规模增大,测试更大尺度的缩放会变得越来越难。"
"And this sometimes comes off as almost disillusioned from leadership at AI companies saying this, but they're like, 'It's held for 13 orders of magnitude of compute; why would it ever end?' So I think fundamentally it is pretty unlikely to stop. It's just like eventually we're not even going to be able to test the bigger scales because of all the problems that come with more compute."
1:04:12 AI如何训练:预训练、中训练、后训练
本节重点
- 大模型训练已经形成预训练、中训练、后训练的三阶范式,不同阶段的目标与算法不同,共同决定模型的最终性能。
- 数据质量是预训练阶段的核心竞争力,高质量数据的收益远高于单纯增加数据量,专有领域数据是未来的核心护城河。
- 数据版权问题已经成为大模型训练的核心法律风险,2025年Anthropic因盗版书籍训练被判赔偿15亿美元,是该领域的标志性判例。
详细精要
- 三阶训练范式:当前大模型训练分为三个明确的阶段,各有不同的目标与技术路径。
- 预训练:基于大规模通用语料(互联网数据、书籍、论文等)做下一词预测,是模型获取通用知识的核心阶段,目标是训练出高性能的基础模型。
- 中训练:介于预训练与后训练之间的阶段,聚焦高质量专用数据(长上下文文档、推理数据、代码数据等)的训练,避免灾难性遗忘,提升模型在特定领域的基础能力。
- 后训练:包括监督微调、DPO、RLHF、RLVR等,核心目标是解锁模型的现有知识,提升模型的技能(推理、编码、工具调用等)与用户体验,属于能力解锁阶段而非知识学习阶段。
- 预训练的数据优化:数据质量比数据量更重要,是当前预训练阶段的核心优化方向。
- 预训练数据规模已经从万亿token级别提升到数十万亿token级别,但单纯增加数据量的边际效益已经下降,优化数据质量、调整数据配比的收益更高。
- 高质量数据包括经过OCR识别的学术论文PDF、结构化的代码数据、高质量的问答数据等,可大幅提升模型的推理与编码能力。
- 专有领域数据(医疗临床数据、金融交易数据、法律判例数据等)是未来的核心护城河,行业大模型的性能将主要由专有数据的质量决定。
- 数据版权风险:大模型训练的版权问题已经成为核心法律风险,对行业发展影响深远。
- 2025年Anthropic因使用盗版书籍训练模型被判赔偿作者15亿美元,是该领域的标志性判例,明确了未经授权使用版权数据的法律责任。
- 当前行业正在探索两种合规路径:一是仅使用明确授权的开源或付费数据训练模型;二是建立类似Spotify的版权分成机制,向数据创作者支付费用。
💬 精华片段(中文)
"如果你想加入前沿AI实验室并产生影响力,最佳路径不是去研究高大上的算法,而是找到更好的训练数据,或者优化基础设施让整个团队的实验速度提升5%。"
"The fancy, glamorous algorithmic things, like figuring out how to make o1, is like the sexiest thought for a scientist. It's like, 'Oh, I figured out how to scale RL.' There's a group that did that, but I think most of the contributions are- 'I’m gonna make the data better,' or, 'I’m gonna make the infrastructure better so that everybody on my team can run experiments 5% faster.'"
1:37:18 后训练详解:大模型的热门新研究方向
本节重点
- 可验证奖励强化学习(RLVR)是2025年后训练领域的最大突破,可大幅提升模型的推理、编码能力,且算力投入与性能提升呈线性关系,缩放性远好于RLHF。
- RLVR的核心逻辑是让模型多次尝试生成答案,通过可验证的奖励(答案是否正确)优化模型,无需人工标注偏好,可实现大规模训练。
- 过程奖励模型、价值函数是RLVR的下一代演进方向,将通过优化推理中间步骤的评分进一步提升模型的推理能力。
详细精要
- RLVR的核心原理与价值:RLVR是当前后训练领域最核心的技术,相比传统RLHF有明显的优势。
- 核心逻辑:模型生成答案后,通过可验证的规则(数学题答案是否正确、代码是否可运行等)给出奖励,无需人工标注偏好,可实现大规模自动化训练。
- 缩放性优异:RLVR的性能与训练算力呈线性关系,训练时间越长、算力投入越大,模型性能越高,而RLHF很快会达到性能天花板,无法通过增加算力持续提升。
- 自动解锁推理能力:RLVR训练会让模型自动学会分步推理、自我纠错,生成更长的思考过程,大幅提升复杂任务的准确率,同时生成的推理步骤也提升了模型的可解释性。
- RLVR的适用场景与扩展方向:RLVR当前在数学、编码等可验证性强的场景已经成熟,正在向更多开放场景扩展。
- 核心适用场景:数学推理、代码编写、工具调用等结果可明确验证的场景,是当前的主要落地领域。
- 扩展方向:通过评分规则(rubrics)与大模型法官(LLM-as-a-judge)将RLVR扩展到写作、创意等开放场景,让模型学会在开放任务中满足用户需求。
- 后训练的未来研究方向:RLVR 2.0是2026年的核心研究方向,聚焦中间过程的优化。
- 过程奖励模型:对推理过程的每一步进行评分,而不仅仅是最终结果,进一步提升模型推理的准确性与可解释性。
- 价值函数:为模型生成的每一个token分配价值,是强化学习领域的经典方法,当前正在大模型后训练中探索应用,预期可大幅提升训练效率。
- RLHF仍然是模型上线前的必要步骤,主要用于优化模型的风格、语气、安全性,提升用户体验,属于最后一公里的优化。
💬 精华片段(中文)
"RLVR不会教模型新的数学知识,它的核心作用是解锁模型在预训练阶段已经学到的知识,让模型学会如何用正确的方式调用这些知识解决问题。"
"Exactly. And so you can see that basically the RL is not teaching the model any new knowledge about math. You can't do that in 50 steps. So the knowledge is already there in the pre-training; you're just unlocking it."
1:58:11 给AI开发与研究入门者的建议
本节重点
- 入门AI的最佳路径是从零实现一个可在单GPU上运行的简单大模型,掌握Transformer的核心逻辑,再逐步扩展到更复杂的场景。
- 掌握基础后选择细分领域深入研究是普通研究者脱颖而出的最佳路径,当前很多细分领域仅有少量研究,很容易做出有影响力的成果。
- 职业选择上需要平衡兴趣、收入与影响力:学术界自由度高但收入低、资源有限; frontier lab收入高、资源多但工作强度大、成果公开受限;创业风险高但回报潜力大。
详细精要
- 入门学习路径:从零构建大模型是入门AI的最有效路径,可快速建立对大模型底层逻辑的认知。
- 先实现一个可在单GPU上运行的小型GPT-2模型,理解嵌入、注意力、前馈网络、训练流程等核心组件的逻辑,再逐步添加MoE、分组查询注意力等进阶组件。
- 用Hugging Face的开源模型作为基准,验证自己实现的模型是否正确,通过对齐输出结果排查实现错误,在调试过程中加深对架构的理解。
- 避免一开始就直接使用Hugging Face Transformers等高封装度的库,这些库的代码复杂度高,不利于理解底层逻辑,适合掌握基础后再使用。
- 研究突破路径:普通研究者不需要追求大而全的研究,选择细分领域深入是脱颖而出的最佳路径。
- 当前AI领域发展速度极快,很多细分领域(如大模型角色塑造、小模型推理优化等)仅有少量研究,投入几周时间深入研究即可做出有影响力的成果。
- 算力有限的研究者可聚焦评估领域,设计能够发现现有模型缺陷的评估基准,如果被前沿实验室采纳,将获得极大的行业影响力。
- 积极与领域研究者交流,很多研究者愿意回复有深度的问题,良好的学术交流能力可大幅提升研究效率。
- 职业选择建议:不同职业路径各有优劣,需要根据自身情况选择。
- 学术界:优势是工作自由度高、成果完全公开、可培养学生,劣势是收入低、算力资源有限、申请项目压力大。
- 前沿闭源实验室(OpenAI、Anthropic等):优势是收入极高、算力资源充足、可参与最前沿的研究,劣势是工作强度大(普遍996)、成果公开受限、容易成为大机器的螺丝钉。
- 开源研究机构(AI2等):平衡了学术自由度与资源,可参与前沿研究同时保持成果公开,是兼顾研究与影响力的不错选择。
- 创业:高风险高回报,适合有明确产品方向与资源整合能力的人。
💬 精华片段(中文)
"你不用试图学习所有领域的知识,那样会非常容易 burnout,聚焦在大模型这一个领域深入研究就足够了。"
"Yeah, I think you can't try to do it all because it would be very overwhelming and you would burn out. For example, I haven't kept up with computer vision in a long time; I've just focused on LLMs."
2:21:03 AI行业的工作文化(每周72小时以上工作)
本节重点
- 996(早9晚9,每周6天,合计72小时)的工作文化已经从中国互联网行业蔓延到硅谷AI公司,前沿AI实验室普遍工作强度极大。
- 高工作强度的核心驱动因素是行业竞争激烈,模型迭代速度快,头部厂商需要不断推出新模型保持竞争力,同时员工普遍对AI技术有极高的热情,自愿投入大量时间。
- 高工作强度带来了严重的 burnout 问题,很多从业者出现健康问题与家庭矛盾,需要行业共同探索更可持续的工作模式。
详细精要
- 996文化的普及:当前前沿AI实验室普遍采用高强度的工作模式,996已经成为行业常态。
- 996指早9点上班、晚9点下班、每周工作6天,合计每周工作72小时,起源于中国互联网行业,现在已经被硅谷AI公司广泛采用。
- 高工作强度的核心驱动因素是行业竞争激烈,模型迭代速度快,头部厂商需要不断追赶竞争对手的技术进展,避免被淘汰。
- 高工作强度的成因:除了外部竞争,内部文化与员工热情也是重要驱动因素。
- 前沿AI公司普遍有极强的文化凝聚力,员工普遍相信AI技术将改变世界,对工作有极高的热情,自愿投入大量时间。
- 行业爆发期的高额回报(股权、薪酬)也吸引了大量从业者愿意接受高强度工作,换取快速的职业成长与财务回报。
- 高工作强度的代价:长期高强度工作带来了严重的负面问题,影响行业的可持续发展。
- 从业者普遍面临 burnout 风险,出现腰背疾病、心理问题等健康问题,同时家庭关系也受到负面影响,部分公司甚至推出了"挽救婚姻"的特殊假期。
- 高强度工作模式不可持续,员工通常只能坚持几年就会选择转岗或离职,造成人才流失。
💬 精华片段(中文)
"这是一个以人力损耗为代价推动技术进步的完美环境,人们真的在玩命工作。"
"It's a perfect environment for creating progress based on human expense. The human expense is the 996 that we started this with, where people do really grind."
2:24:49 硅谷泡沫
本节重点
- 硅谷确实存在AI泡沫,从业者普遍处于信息茧房中,高估AI技术的落地速度与影响力,对真实世界的用户需求理解不足。
- 泡沫并非完全负面,建设型泡沫可推动基础设施的快速落地,加速技术迭代,只要不演变为纯粹的金融投机泡沫就不会产生严重的负面影响。
- 建议硅谷从业者多接触不同地区、不同背景的人,阅读历史书籍,避免陷入信息茧房,做出更符合真实世界需求的技术决策。
详细精要
- 硅谷泡沫的表现:硅谷AI行业存在明显的信息茧房与认知偏差,形成了独特的泡沫文化。
- 从业者普遍高估AI技术的落地速度,2025年甚至出现了"2025年下半年是最后一次建立AI创业公司壁垒的机会,否则将永远成为底层"的极端言论。
- 硅谷从业者的生活与工作环境高度同质化,对美国中西部、其他国家的用户需求理解不足,容易做出脱离实际的产品决策。
- 泡沫的价值与风险:AI泡沫同时存在积极与消极的两面,需要辩证看待。
- 建设型泡沫可吸引大量资金投入AI基础设施建设,加速技术迭代与落地,推动行业快速发展,是技术变革期的正常现象。
- 如果泡沫演变为纯粹的金融投机,出现大量没有实际价值的AI创业公司,将导致资源浪费,泡沫破裂后会对行业造成严重打击。
- 破局建议:硅谷从业者需要主动打破信息茧房,建立更全面的认知。
- 多离开硅谷,接触不同地区、不同背景的用户,了解真实世界的需求,避免脱离实际。
- 阅读历史书籍,了解技术变革的客观规律,避免过度乐观或悲观的极端认知。
💬 精华片段(中文)
"我觉得旧金山是一个不可思议的地方,但确实存在一点泡沫。如果你进入了这个泡沫,它确实能带来极高的生产力,但也要记得走出来,读历史书,去世界其他地方看看,Twitter和Substack不是整个世界。"
"I think SF is an incredible place, but there is a bit of a bubble. And if you go into that bubble, which is extremely valuable, just get out also. Read history books, read literature, and visit other places in the world. Twitter and Substack are not the entire world."
2:28:46 文本扩散模型与其他新研究方向
本节重点
- 文本扩散模型是当前最受关注的非Transformer架构,借鉴了图像扩散模型的去噪思路,可并行生成多个token,推理速度远高于自回归Transformer。
- 文本扩散模型当前在质量上仍落后于自回归Transformer,适合代码Diff生成、快速响应等对速度要求高、对质量容忍度高的场景,不会完全替代自回归Transformer。
- 2026年Google将推出Gemini Diffusion模型,主打快速响应场景,有望推动文本扩散模型的大规模落地。
详细精要
- 文本扩散模型的核心原理:文本扩散模型借鉴了图像扩散模型的思路,是自回归Transformer之外的重要技术路径。
- 核心逻辑:从随机文本出发,通过多轮去噪迭代逐步优化文本质量,可并行生成所有token,推理速度远高于逐token生成的自回归Transformer。
- 技术渊源:与Google的BERT模型思路相似,通过填空的方式并行优化文本,而非逐词生成。
- 文本扩散模型的优劣势与适用场景:文本扩散模型有独特的优势,也有明显的局限性,将与自回归Transformer长期共存。
- 核心优势:推理速度快,可在短时间内生成长文本,适合代码Diff生成、快速查询等对响应速度要求高的场景。
- 局限性:生成质量仍低于自回归Transformer,尤其是复杂推理、工具调用等需要中间步骤的场景难以支持,需要增加去噪轮次才能提升质量,此时推理成本将接近自回归Transformer。
- 未来落地趋势:文本扩散模型将首先在细分场景落地,不会完全替代自回归Transformer。
- 2026年Google将推出Gemini Diffusion模型,主打低延迟快速响应场景,可能会首先应用于免费用户 tier。
- 代码创业公司已经开始尝试用文本扩散模型生成代码Diff,将原本需要几分钟的生成过程缩短到几秒,大幅提升用户体验。
💬 精华片段(中文)
"文本扩散模型不会替代自回归大模型,但会成为快速、低成本、大规模场景的首选,未来的免费 tier 很可能会采用这类模型。"
"I don't think the text diffusion model is going to replace autoregressive LLMs, but it will be something for quick, cheap, at-scale tasks. Maybe the free tier in the future will be something like that."
2:34:28 工具使用
本节重点
- 工具调用能力是大模型能力的核心突破,可大幅降低幻觉,让模型具备访问实时信息、执行计算、操作外部系统的能力。
- 当前闭源大模型的工具调用能力已经相对成熟,开源大模型的工具调用能力仍有较大差距,是2026年开源生态的核心优化方向。
- 工具调用的核心瓶颈是信任与安全问题,用户普遍不愿意给大模型开放邮件、文件系统等高权限接口,需要更完善的安全机制。
详细精要
- 工具调用的核心价值:工具调用是大模型从信息处理系统升级为智能代理的核心能力,大幅扩展了大模型的能力边界。
- 可通过搜索引擎获取实时信息,解决大模型知识截止的问题,降低事实类幻觉。
- 可调用计算器、Python解释器等工具执行计算,解决数学、编码类任务的准确性问题。
- 可操作外部系统(邮件、代码仓库、办公软件等),实现任务的自动化执行。
- 开源与闭源的差距:当前闭源大模型的工具调用能力已经相对成熟,开源大模型仍有较大差距。
- 闭源大模型已经深度整合工具调用能力,OpenAI的GPT-OSS是首个专门针对工具调用优化的开源大模型,但整体开源生态的工具调用能力仍不成熟。
- 闭源厂商可深度整合自有工具生态(如搜索、云服务),提供开箱即用的工具调用体验,而开源模型需要适配不同用户的工具栈,实现难度更高。
- 落地瓶颈与未来趋势:工具调用的核心落地瓶颈是信任与安全问题,2026年将重点突破这一问题。
- 用户普遍不愿意给大模型开放高权限接口,担心数据泄露、误操作等安全风险,需要完善的权限控制、审计、沙箱机制保障安全。
- 递归大模型是重要的发展方向,将复杂任务拆分为子任务,每个子任务调用对应的工具,最后整合结果,大幅提升复杂工具调用任务的准确率。
💬 精华片段(中文)
"工具调用不能完全解决幻觉问题,但可以大幅降低幻觉。大模型仍然需要知道什么时候调用工具,以及如何正确判断工具返回结果的准确性。"
"Not solve it, but reduce it. Still, the LLM needs to know when to ask for a tool call. And second, it doesn't mean the internet is always correct. You can do a web search for who won the World Cup in 1998, but it still needs to find the right website and get the right information."
2:38:44 连续学习
本节重点
- 连续学习指模型可以持续更新权重,从新的信息与反馈中快速学习,是大模型实现类人智能的核心瓶颈之一。
- 当前连续学习的落地成本极高,无法为每个用户单独更新模型权重,主流替代方案是通过上下文窗口注入新信息(上下文学习),无需更新权重即可实现类似学习的效果。
- 边缘设备上的本地大模型是连续学习落地的最佳场景,可利用用户端的算力实现个性化权重更新,无需承担云端的大规模更新成本。
详细精要
- 连续学习的定义与价值:连续学习是让大模型具备自适应能力的核心技术,也是实现通用人工智能的重要前提。
- 核心目标:让大模型可以像人类员工一样,从反馈中快速学习,避免重复犯相同的错误,适应新的场景与需求。
- 当前的大模型只能通过定期重新训练或微调更新能力,无法实时从用户反馈中学习,灵活性远低于人类。
- 连续学习的落地瓶颈:权重更新式的连续学习当前落地成本极高,无法大规模推广。
- 为每个用户单独更新大模型权重的成本极高,即使是OpenAI这样的巨头也无法承担,仅适合小范围的企业级定制场景。
- 连续学习存在灾难性遗忘问题,学习新任务会导致旧任务的性能下降,需要复杂的机制平衡新旧知识的学习。
- 替代方案与落地路径:当前主流的替代方案是上下文学习,未来本地大模型将成为连续学习的核心落地场景。
- 上下文学习通过将新信息、用户偏好注入上下文窗口,让模型具备类似学习的效果,无需更新权重,成本极低,是当前的主流实现方式。
- 苹果等厂商推动的设备端本地大模型是连续学习的最佳落地场景,可利用用户端的算力实现个性化微调,无需云端承担成本,同时保护用户数据隐私。
💬 精华片段(中文)
"我们其实已经有了不同形式的连续学习:从GPT-5到5.1再到5.2的版本迭代,就是一种全局层面的连续学习,吸收社区的反馈优化模型能力。"
"I think, to be honest with you, continual learning—the updating of weights—we already have that in different flavors. I think the distinction here is: do you do that on a personalized custom model for each person, or do you do it on a global model scale? And I think we have that already with going from GPT-5 to 5.1 and 5.2."
2:44:06 长上下文
本节重点
- 大模型的上下文长度已经突破百万token,2026年有望达到200万-500万token,但1亿token级别的上下文仍需要突破性的技术创新。
- 长上下文的核心瓶颈是成本与数据:长上下文推理的显存与算力成本随长度呈二次方增长,同时训练长上下文需要的超长文档数据量有限。
- 智能上下文管理(自动压缩、滑动窗口、稀疏注意力)是当前的核心优化方向,可在不损失太多准确率的前提下大幅降低长上下文的成本。
详细精要
- 长上下文的发展现状:当前大模型的上下文长度已经达到百万token级别,2026年将继续稳步增长。
- 主流大模型的上下文长度已经达到100万token,可支持整本书、整个代码库的输入。
- 2026年随着算力集群的扩容,上下文长度有望提升到200万-500万token,但1亿token级别的上下文仍需要突破性的技术创新,短期难以实现。
- 长上下文的核心瓶颈:长上下文的发展主要受成本与数据两个因素制约。
- 成本瓶颈:自回归Transformer的注意力机制成本随上下文长度呈二次方增长,KV缓存占用的显存也随长度线性增长,超长上下文的推理成本极高。
- 数据瓶颈:可用于训练长上下文的超长文档数据量有限,难以支撑大模型的长上下文能力训练。
- 长上下文的优化方向:智能上下文管理是当前的核心优化方向,可大幅降低长上下文的成本。
- 架构优化:采用混合架构(Transformer与状态空间模型结合)、稀疏注意力、滑动窗口等技术,降低长上下文的算力与显存需求。
- 智能管理:训练模型自主决定什么时候压缩上下文、保留哪些关键信息,在不损失准确率的前提下降低上下文长度,Claude的上下文压缩就是典型案例。
- 任务拆分:将长上下文任务拆分为多个子任务分别处理,最后整合结果,递归大模型是该方向的重要探索。
💬 精华片段(中文)
"当前状态下,想达到SOTA性能还是需要 brute force 的全注意力机制,保证不会遗漏任何信息。2026年的核心优化方向是在保持准确率的前提下,通过更智能的上下文管理降低成本。"
"Occasionally, in some layers you might, but it's wasteful. But right now, I think if you use everything, you're on the safe side; it gives you the best bang for the buck because you never miss information. And right now, I think this year will also be the year of figuring out, like you said, how to be smarter about that."
2:50:21 机器人
本节重点
- 大模型的发展大幅推动了机器人领域的进步,Transformer架构、训练框架、算力基础设施的成熟为机器人学习提供了坚实的基础。
- 机器人领域的落地将首先从工业场景(亚马逊仓储、制造业)开始,家用消费级人形机器人的落地仍需要很长时间,核心瓶颈是安全性、泛化能力与成本。
- 世界模型是机器人领域的核心研究方向,可让机器人在仿真环境中学习,缩小sim-to-real gap,大幅提升机器人的泛化能力。
详细精要
- 大模型对机器人领域的推动:大模型的爆发式发展给机器人领域带来了巨大的溢出效应,加速了机器人技术的迭代。
- Transformer架构、分布式训练框架、大算力集群等大模型领域的基础设施成熟,可直接复用到机器人学习领域,大幅降低了机器人模型的训练成本。
- 大模型可作为机器人的中央大脑,理解自然语言指令、规划任务、调用工具,大幅提升机器人的智能水平。
- 机器人的落地路径:机器人将首先在结构化工业场景落地,家用场景落地仍需要很长时间。
- 工业场景(亚马逊仓储、汽车制造、半导体生产等)环境高度结构化,任务重复度高,机器人的落地难度低,已经开始大规模应用。
- 家用消费级人形机器人的落地难度极高:家庭环境高度非结构化,需要极强的泛化能力,同时对安全性要求极高,一旦出错可能造成人身伤害,短期难以大规模落地。
- 核心研究方向:世界模型是当前机器人领域的核心研究方向,可大幅提升机器人的泛化能力。
- 世界模型通过学习真实世界的物理规则,可在仿真环境中模拟机器人的操作结果,让机器人在仿真中学习大量技能,再迁移到真实世界,缩小sim-to-real gap。
- 开源机器人生态正在逐步形成,RTX等跨厂商的机器人数据集项目已经上线,未来开发者可基于开源模型快速定制特定场景的机器人。
💬 精华片段(中文)
"在大模型领域,出错只是输出错误文本,是好玩的游戏,但在机器人领域,在千家万户的真实场景中,数十亿次交互下几乎不允许出错,这是机器人落地的核心挑战。"
"All the interesting complexities we talk about regarding learning, all the failure modes and failure cases—everything we've been talking about with LLMs where sometimes it fails in interesting ways—all of that is fun and games in the LLM space. In the robotic space, in people's homes, across millions of minutes and billions of interactions, you really are almost allowed to fail never."
2:59:31 AGI的时间线
本节重点
- 业界对AGI的定义尚未达成共识,主流定义包括"可完成大部分远程数字工作"、"超人级程序员"、"超人级AI研究者"等不同层级的里程碑。
- 当前大模型的能力呈锯齿状分布,在某些领域已经达到超人水平,在另一些领域仍很薄弱,没有明确的阈值标志AGI的实现。
- 超人级程序员预计将在未来10年内实现,但完全自动化的AI研究者、通用人工智能的实现时间仍存在巨大争议,可能需要10年以上甚至更久。
详细精要
- AGI的定义争议:当前业界对AGI没有统一的定义,不同机构与研究者的定义差异极大。
- 实用主义定义:可完成大部分远程数字工作,替代普通白领的工作,是相对容易达成的里程碑。
- AI2027报告的定义:分为超人级程序员、超人级AI研究者、超级人工智能三个层级,其中超人级程序员是最基础的里程碑,原预测2027-2028年实现,现推迟到2031年左右。
- 强人工智能定义:具备与人类相当的通用认知能力,可适应任意新场景、学习任意新技能,是最严格的定义,实现时间极不明确。
- 当前进展判断:当前大模型的能力呈锯齿状分布,在特定领域已经达到超人水平,但通用能力仍有很大差距。
- 大模型在网站搭建、数据爬取、简单代码生成等领域已经达到极高的水平,可大幅提升开发者的效率,但在分布式系统开发、复杂故障排查等深度技术领域仍有明显缺陷。
- 大模型的能力提升没有明确的阈值,不会突然从"非AGI"变为"AGI",而是会逐步渗透到更多工作场景,不断提升人类的生产效率。
- 未来时间线预测:不同领域的自动化进度差异极大,通用人工智能的实现仍有很大不确定性。
- 软件领域的自动化进度会非常快,2026年大模型已经可实现大部分前端网站、简单后端、数据分析等任务的自动化,仅需要少量人类参与。
- 科学研究领域的自动化进度会慢很多,需要在RLVR扩展到科学领域、专有领域数据积累等方面取得突破,可能需要10年以上的时间。
- 完全替代人类的通用人工智能的实现时间存在巨大争议,大部分研究者认为至少需要10年以上,部分研究者认为永远无法实现。
💬 精华片段(中文)
"我认为AGI和ASI的阈值没有特别大的实用价值,更值得关注的是AI什么时候会带来明显的经济影响,当前LLM尚未带来显著的GDP跃升,这才是更值得讨论的实际问题。"
"I think the real question, and this relates to the remote worker thing, is when are we going to see a big, obvious leap in economic impact? Because currently there's not been an obvious leap in economic impact from LLM models, for example. Aside from AGI or ASI, there's a real question of when we are going to see a GDP jump. Jump."
3:06:47 AI会替代程序员吗?
本节重点
- AI不会完全替代程序员,但会彻底重构软件开发的流程,程序员的工作将从写代码转向系统设计、需求定义、产品规划等高价值创造性工作。
- 资深开发者比 junior 开发者更愿意使用AI生成代码,因为资深开发者具备代码审核能力,可有效控制AI生成代码的质量,提升效率。
- 教育领域需要平衡AI工具的使用,避免初学者过度依赖AI导致基础不牢,失去成为资深开发者的能力。
详细精要
- AI对程序员的影响:AI将成为程序员的核心生产力工具,大幅提升开发效率,但不会完全替代程序员。
- 当前50%以上的上线代码已经有AI参与生成,资深开发者使用AI生成代码的比例更高,因为他们具备审核AI代码质量的能力,可有效控制风险。
- 程序员的工作内容将发生根本性变化:从逐行写代码、Debug转向定义需求、设计系统架构、审核AI生成的代码、排查复杂问题等高价值创造性工作。
- 软件开发的门槛将大幅降低,普通人通过自然语言描述需求即可生成简单的软件、网站,无需掌握复杂的编程语言。
- 不会完全替代的原因:软件开发的核心难点不是写代码,而是理解需求、处理复杂系统的依赖关系、保障系统的安全性与可靠性,这些能力AI短期内无法具备。
- 复杂系统(如浏览器、操作系统、分布式系统)的开发需要深刻理解系统的底层逻辑与依赖关系,AI生成的代码容易出现隐含的Bug,无法独立完成这类开发任务。
- 需求定义与沟通是软件开发的核心难点,AI无法准确理解用户的隐含需求与业务场景的细微约束,需要人类作为桥梁。
- 安全性要求高的系统(金融、医疗、工业控制)对代码可靠性要求极高,必须有人类开发者负责审核与责任承担,无法完全依赖AI。
- 对教育的影响:编程教育需要平衡AI工具的使用,避免初学者过度依赖AI。
- 初学者仍需要亲自写代码、Debug,掌握编程的底层逻辑,否则无法具备审核AI代码的能力,最终只能做简单的需求描述工作,无法成长为资深开发者。
- 最佳实践是分阶段使用AI:学习阶段尽量少用AI,打牢基础;工作阶段可充分利用AI提升效率,聚焦高价值工作。
💬 精华片段(中文)
"软件工程将更多转向系统设计与目标定义,软件很大程度上会被自动化生成,越来越多的人不需要看代码就能创建软件,只需要理解系统如何工作,能从大模型中提取最佳结果即可。"
"I think software engineering will be driven more to system design and goals of outcomes, where I do think software is largely going to be… I think this has been happening over the last few weeks, where people have gone from a month ago saying, 'Oh yeah, agents are kind of slop,' which is a famous Karpathy quote, to the industrialization of software when anyone can just create software with their fingerprints."
3:25:18 AGI的梦想正在消亡吗?
本节重点
- "大一统通用模型"的梦想确实正在降温,行业逐渐意识到专用模型在特定场景的效率与成本优势更高,未来将是多种专用模型协同的格局,而非单一模型统治所有场景。
- 前沿实验室仍在追求通用人工智能,但商业化优先级逐渐提升,会优先落地能产生实际价值的场景化能力,而非单纯追求通用能力。
- 大模型已经实现了让全人类的知识变得可及的巨大价值,即使无法实现AGI,当前的技术进步已经足以对人类文明产生深远影响。
详细精要
- 大一统模型梦想的降温:行业逐渐从"单一通用模型解决所有问题"的幻想中走出来,开始接受专用模型的价值。
- 不同场景的需求差异极大:推理场景需要高准确率,快速查询场景需要低延迟,生成场景需要高创造性,单一模型无法同时满足所有需求的最优解。
- 专用模型在特定场景的成本、效率、准确率均优于通用大模型,未来将形成多种专用模型协同的格局,分别承担不同的任务。
- AGI研究的现状:前沿实验室仍在追求通用人工智能,但优先级有所调整。
- OpenAI、Anthropic等前沿实验室的长期目标仍然是实现通用人工智能,仍在投入大量资源研究相关技术。
- 商业化压力下,实验室会优先落地能产生实际收入的场景化能力,如编码工具、企业级服务等,通用能力研究的优先级会根据商业化情况调整。
- 当前技术的已有价值:即使无法实现AGI,当前的大模型技术已经产生了巨大的社会价值。
- 大模型让全人类的知识变得可及,全球任何地区的人都可以通过大模型学习任何领域的知识,获得定制化的学习指导,大幅降低了知识获取的门槛。
- 大模型大幅提升了各行业的生产效率,释放了人类的创造力,让人类可以聚焦更有创造性的工作,其影响足以媲美印刷术、互联网等革命性技术。
💬 精华片段(中文)
"我们其实忽略了一个非常明显的巨大价值:大模型让所有人类知识对全世界所有人都变得可及。你可以问大模型任何问题,获得准确的答案,这对整个人类文明的影响是难以估量的。"
"I think we're not saying one actually obvious thing that we're not realizing, that's a gigantic thing that's hard to measure, which is making all of human knowledge accessible… …To the entire world. One of the things that I think is hard to articulate, but there's just a huge difference between Google Search and an LLM. I feel like I can basically ask an LLM anything and get an answer, and it's doing less and less hallucination."
3:32:07 AI如何盈利?
本节重点
- 当前大模型厂商的主要收入来源是订阅付费(to C与to B),未来广告可能成为重要的收入来源,将大幅降低用户的使用成本。
- 垂直领域的定制化模型服务是未来的重要盈利方向,金融、法律、医疗等行业愿意为高性能的专用模型支付高额费用。
- 开源大模型的盈利模式仍在探索中,当前主要通过托管服务、技术支持、定制化微调等方式变现。
详细精要
- 当前主流盈利模式:订阅付费是当前大模型厂商的核心收入来源。
- to C订阅:ChatGPT Plus、Claude Pro、Gemini Advanced等个人订阅服务,价格从每月10美元到200美元不等,是中小厂商的核心收入来源。
- to B订阅与API调用付费:企业级订阅、按调用量付费的API服务是大厂的核心收入来源,针对企业的定制化服务单价极高,是利润最高的业务。
- 未来潜在盈利模式:广告是最具潜力的未来收入来源,垂直领域服务也将快速增长。
- 广告收入:大模型可基于用户的查询场景精准推送相关广告,只要明确标注广告、不影响用户体验,将成为重要的收入来源,Google在这方面有天然优势。
- 垂直领域定制化服务:针对金融、法律、医疗等行业的专用模型,可收取高额的授权费与服务费,是未来增长最快的领域。
- 生态分成:大模型作为平台,为第三方开发者提供工具与流量,收取生态分成,类似苹果App Store的模式。
- 开源模型的盈利模式:开源模型的变现路径逐渐清晰,不再单纯依赖捐赠。
- 托管服务:为用户提供开源模型的云端托管与推理服务,按调用量收费,是当前最主流的开源变现方式。
- 技术支持与定制化服务:为企业提供开源模型的微调、部署、优化等技术服务,收取服务费。
- 商业许可:针对大型企业提供更宽松的商业许可,收取许可费。
💬 精华片段(中文)
"当前大模型的服务之所以这么便宜,是因为厂商在大规模补贴,未来广告模式上线后,可能会出现免费的大模型服务,但会植入标注明确的广告。"
"Well, for now, that's because they're massively subsidized, and eventually they're going to be paid for by ads."
3:36:29 2026年的大型收购
本节重点
- 2026年AI行业将进入整合阶段,会出现大量数十亿级别的收购案,核心标的包括AI基础设施厂商、垂直场景应用、开源模型厂商等。
- 与传统收购相比,当前越来越多的交易采用授权协议而非完全收购,对普通员工不利,无法实现股权的全部价值,可能损害硅谷的创业生态。
- 中国AI公司已经开启IPO进程,MiniMax、Z.ai等已经提交IPO申请,美国AI公司仍倾向于保持私有,避免公开市场的短期业绩压力。
详细精要
- 2026年收购趋势:AI行业将进入整合阶段,收购活动将大幅增加。
- 核心收购标的包括AI芯片厂商(如Groq估值200亿美元)、AI开发工具厂商(如Cursor)、AI应用厂商(如Perplexity)、开源模型厂商等,大量成立仅1-2年的创业公司将获得数十亿级别的估值。
- 科技巨头(Google、微软、苹果、NVIDIA)是收购的主力,目的是补充技术短板、获取人才、扩大生态壁垒。
- 收购模式的变化:当前越来越多的交易采用授权协议、人才收购而非完全收购,对创业生态不利。
- 传统收购会让创业公司的普通员工的股权全部 vested,获得可观的财务回报,是硅谷创业生态的核心激励机制。
- 近年来流行的授权协议、人才收购通常仅惠及创始人与核心团队,普通员工的股权无法兑现,会打击早期员工的积极性,损害创业生态的活力。
- IPO趋势:中美AI公司的IPO路径差异明显。
- 中国AI公司已经开启IPO进程,MiniMax、Z.ai等已经提交IPO申请,利用资本市场的资金扩张业务。
- 美国AI公司(OpenAI、Anthropic、xAI等)仍倾向于保持私有,可轻松获得大额私募融资,无需承受公开市场的短期业绩压力,预计短期内不会IPO。
💬 精华片段(中文)
"创业生态是硅谷的命脉,如果你加入一家创业公司,即使它不算特别成功,也很可能被收购,你的股权会得到回报。而现在的授权协议模式本质上是规避反垄断监管,通常只会带走核心人才,普通员工无法受益,这是硅谷文化需要解决的大问题。"
"There are countless other deals structured in a way that is actually detrimental to the Silicon Valley ecosystem—these licensing deals where not everybody gets brought along, rather than a full acquisition that benefits the rank-and-file employees by getting their stock vested. That's a big issue for Silicon Valley culture to address because the startup ecosystem is the lifeblood. If you join a startup, even if it's not that successful, your startup very well might get acquired at a cheap premium and you'll get paid out for your equity."
本节重点
- AI行业不会出现赢家通吃的格局,头部厂商各有优势,将长期共存,分别覆盖不同的场景与客户群体。
- 纯大模型服务厂商(OpenAI、Anthropic)面临云厂商的竞争压力,需要向上游(硬件、基础设施)或下游(应用、生态)延伸,构建更稳固的壁垒。
- Meta的Llama系列开源模型的发展存在不确定性,内部战略摇摆,未来可能不再推出开源的大参数模型。
详细精要
- 行业竞争格局:AI行业不会出现赢家通吃的局面,头部厂商将长期共存。
- 各头部厂商的技术路径、产品定位、生态优势差异明显:Google有基础设施与搜索生态优势,OpenAI有用户规模与品牌优势,Anthropic有企业级编码与安全优势,xAI有X平台的实时数据优势,不会出现一家厂商垄断市场的情况。
- AI市场的规模足够大,可容纳多家头部厂商共同发展,类似云计算市场的AWS、Azure、GCP长期共存的格局。
- 纯大模型厂商的挑战:OpenAI、Anthropic等纯大模型服务厂商面临云厂商的挤压,需要延伸业务构建壁垒。
- 云厂商(Azure、AWS、GCP)本身也提供大模型服务,同时掌握基础设施,对纯大模型厂商形成挤压。
- 纯大模型厂商需要向上游延伸(投资算力基础设施、自研芯片)或向下游延伸(打造应用生态、切入垂直领域),构建更稳固的壁垒,避免被云厂商替代。
- Meta的开源战略摇摆:Meta的Llama系列曾经是开源大模型的标杆,但当前战略出现明显摇摆。
- Llama 1、2、3曾经是最受欢迎的开源大模型,推动了整个开源生态的发展,但Llama 4追求 benchmark 排名,推出的大参数模型难以落地,受到社区的负面反馈。
- 管理层的变动导致开源战略摇摆,未来Meta可能不再推出开源的大参数Llama模型,转而聚焦自有产品的AI能力集成。
- 美国开源生态的追赶:面对中国开源大模型的快速发展,美国正在推动本土开源生态的建设。
- 艾伦人工智能研究所的Adam项目(美国真正开源模型项目)旨在构建与中国开源模型竞争的本土开源大模型,已经获得政府、产业界的广泛支持。
- NVIDIA、AI2、Reflection AI等厂商与机构都在投入开源大模型研发,2026年美国开源大模型的性能将大幅提升,缩小与中国的差距。
💬 精华片段(中文)
"如果没有更多对开源模型的投资,我们看到的排行榜上就会全是Qwen等中国公司的优秀模型,它们正在美国和全球积累影响力。美国在AI上的投入要大得多,打造领先于闭源实验室半代到一代的开源模型仅需要约1亿美元,和这些公司的投入相比并不算多。"
"Without more investment in open models, we have all the plots on the website where it's like, 'Qwen, Qwen, Qwen, Qwen,' and it's all these models that are excellent from these Chinese companies that are cultivating influence in the US and internationally. And the US is spending way more on AI. The ability to create open models that are half a generation or a generation beyond what the cutting edge of closed labs is costs roughly $100 million, which is a lot of money, but not compared to what these companies have."
3:53:35 AI曼哈顿计划
本节重点
- 美国政府已经意识到开源大模型的战略价值,白宫2025年AI行动计划明确提出鼓励开源与开放权重大模型的发展,将其视为创新与创业的重要动力。
- 禁止开源大模型发布的提议不具备可行性,会严重损害美国的创新生态,且技术扩散无法阻止,类似中国公司已经可以自主研发先进AI芯片与大模型,封锁没有意义。
- 针对开源大模型的曼哈顿计划具备可行性,仅需要少量投入即可构建领先的开源生态,对美国的AI竞争力有巨大的提升作用。
详细精要
- 美国政府的政策支持:美国政府已经将开源大模型提升到战略高度,出台了明确的支持政策。
- 白宫2025年AI行动计划专门设立章节鼓励开源与开放权重大模型,明确其对创新、创业、人才培养的重要价值。
- 美国国家科学基金会(NSF)向AI2拨款1亿美元,支持开源大模型的研发,是NSF有史以来金额最高的计算机科学领域拨款。
- 禁止开源的不可行性:部分安全人士提出的禁止开源大模型发布的提议完全不具备可行性。
- 大模型训练的成本已经降到100万-1亿美元区间,全球大量主体都有能力训练大模型,即使美国禁止,其他国家也会继续研发,无法阻止技术扩散。
- 禁止开源需要搭建类似中国的防火墙,严重损害互联网的开放性与美国的创新生态,成本极高且效果有限。
- 中国开源模型的正面作用:中国开源大模型的发展实际上对美国的AI生态有推动作用。
- 中国开源模型的快速发展倒逼美国厂商加大对开源的投入,推动了整个开源生态的进步。
- 开源技术是全球共享的,任何地区的开源模型进步都会推动全球AI技术的发展,对全人类都有价值。
💬 精华片段(中文)
"开源对教育和人才培养至关重要,如果只有闭源模型,下一代人只有加入公司才能接触到核心技术,我们无法识别和培养有天赋的人才,这是唯一的路径。"
"Also, for education and talent, it's very important. Otherwise, if there are only closed models, how do you get the next generation of people contributing? You would only be able to learn after you joined a company, but at that point, how do you identify and hire talented people? I think open source is essential for educating the population and training the next generation of researchers. It's the only way."
4:00:10 NVIDIA、GPU与AI计算集群的未来
本节重点
- NVIDIA在AI芯片市场的领先地位短期内难以撼动,核心壁垒不是硬件本身,而是经营20多年的CUDA生态,以及Jensen Huang领导下的极强执行力与创新能力。
- 未来AI芯片可能会分化为训练专用与推理专用芯片,推理专用芯片的需求将快速增长,Groq等厂商有望在细分领域获得市场份额。
- 只要AI技术仍在快速迭代,NVIDIA的通用GPU的优势就会保持,只有当技术进入稳定期,定制化芯片才会对NVIDIA构成实质性威胁。
详细精要
- NVIDIA的领先优势:NVIDIA在AI芯片市场的领先地位短期内无法被撼动,核心壁垒是生态与组织能力。
- CUDA生态已经发展了20多年,是深度学习领域的事实标准,开发者已经形成路径依赖,切换成本极高。
- 公司CEO Jensen Huang亲自深入运营细节,组织执行力极强,创新速度快,能够快速响应市场需求,推出符合用户需求的产品。
- AI芯片的分化趋势:未来AI芯片将逐渐分化为训练专用与推理专用,适应不同场景的需求。
- 训练芯片需要极高的算力与通信带宽,NVIDIA的GPU仍将保持主导地位。
- 推理芯片对算力的要求较低,但对成本、能效比、延迟要求更高,Groq等厂商的推理专用芯片已经开始落地,未来市场份额将逐步提升。
- 挑战与不确定性:NVIDIA面临来自云厂商自研芯片的挑战,但短期内压力有限。
- Google TPU、AWS Trainium、微软自研芯片等云厂商自研芯片主要用于自身内部需求,不会完全替代NVIDIA的GPU,外部客户仍会优先选择生态更完善的NVIDIA产品。
- 只要AI技术仍在快速迭代,通用GPU的灵活性优势就会保持,只有当技术进入稳定期,定制化芯片的成本优势才会显现,对NVIDIA构成实质性威胁。
💬 精华片段(中文)
"只要AI的进步速度仍然很高,NVIDIA的平台就是最灵活的,人们会愿意选择它。如果出现停滞,那么就有更多时间来开发定制化芯片,才会对NVIDIA构成威胁。"
"As long as the pace of AI progress is high, NVIDIA's platform is the most flexible and people will want that. But if there's stagnation, then with creating bespoke chips, there's more time to do it."
4:08:15 人类文明的未来
本节重点
- 100年后的历史学家回顾当代,会将计算(包括AI)视为与蒸汽机、电力同等重要的革命性技术,神经网络、深度学习会成为重要的技术里程碑被铭记。
- 未来人类不会被AI替代,人类仍然掌握控制权,AI始终是工具,人类的意识、主观能动性、社区与情感联结是AI无法替代的核心价值。
- AI生成内容的泛滥会提升真实人类创作、面对面交流、实体物品的价值,人类会更加珍惜真实的体验与联结。
详细精要
- 对未来历史的影响:当前的AI革命是人类文明史上最重要的技术革命之一,将被永久铭记。
- 100年后的历史学家会将计算技术的持续进步(包括AI)视为与蒸汽机、电力同等重要的革命性突破,是推动人类文明进入新阶段的核心动力。
- 深度学习、Transformer架构等技术里程碑会被铭记,类似工业革命时期的蒸汽机、内燃机的历史地位。
- 人类的核心地位:人类永远是AI的掌控者,不会被AI替代。
- 当前的AI没有自主意识与主观能动性,所有行为都由人类的指令驱动,人类始终掌握控制权,不存在AI主动统治人类的可能性。
- 人类的意识、情感、创造力、社区联结是AI无法复制的核心价值,AI的发展会解放人类的生产力,让人类有更多时间投入到这些更有价值的活动中。
- 社会层面的挑战与机遇:AI的发展会带来短期的社会阵痛,但长期将提升人类的生活质量。
- 短期的失业、AI生成内容泛滥、虚假信息等问题确实存在,需要社会共同努力完善政策、伦理规范与保障体系,降低转型的阵痛。
- 长期来看,AI会大幅提升生产效率,创造大量物质财富,让更多人摆脱基本生存压力,从事更有创造性的活动,同时真实的人类创作、面对面交流、实体体验的价值会大幅提升。
💬 精华片段(中文)
"我认为人类完全有能力应对这些挑战,人类的本质就是建立社区、找到解决问题的方法,这是我们走到今天的核心原因。AI的机遇非常大,虽然面临很多社会与政治问题需要解决,但我相信我们最终可以实现AI的长久收益。"
"I think we will. I'm definitely a worrier both about AI and non-AI things, but humans do tend to find a way. I think that's what humans are built for—to have community and find a way to figure out problems. And that's what has gotten us to this point. I think the AI opportunity and related technologies is really big. I think that there are big social and political problems to help everybody understand that. I think that's what we're staring at a lot of right now; the world is a scary place, and AI is a very uncertain thing. And it takes a lot of work that is not necessarily building things. It's like telling people and understanding people, things that the people building AI are historically not motivated or wanting to do. But it is something that is probably doable. It just will take longer than people want. And we have to go through that long period of hard, distraught AI discussions if we want to have the lasting benefits."
专业术语注释
| 术语 |
解释 |
| LLM(Large Language Model,大语言模型) |
以Transformer架构为基础,通过大规模语料预训练得到的具备通用语言理解与生成能力的模型,是当前AI技术的核心载体 |
| Transformer |
2017年"Attention Is All You Need"论文提出的架构,基于自注意力机制,是当前所有主流大模型的基础架构 |
| Scaling Laws(缩放定律) |
指大模型的性能与预训练算力、数据量呈幂律关系,投入更多算力与数据可稳定提升模型性能,当前已经扩展到后训练、推理等多个维度 |
| MoE(Mixture of Experts,混合专家) |
大模型架构优化技术,将全连接层替换为多个并行的专家层,每次推理仅激活部分专家,可在不增加推理算力的前提下大幅提升模型参数量 |
| Pre-training(预训练) |
大模型训练的第一阶段,基于大规模通用语料做下一词预测,让模型获取通用知识,形成基础模型 |
| Mid-training(中训练) |
介于预训练与后训练之间的阶段,基于高质量专用数据(长上下文、推理、代码等)进一步训练,提升模型在特定领域的基础能力,避免灾难性遗忘 |
| Post-training(后训练) |
大模型训练的最后阶段,包括监督微调、DPO、RLHF、RLVR等,核心目标是解锁模型的技能、优化用户体验,属于能力解锁阶段而非知识学习阶段 |
| RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习) |
后训练技术的一种,通过人类标注的偏好数据训练奖励模型,再用强化学习优化大模型的输出,提升用户体验与安全性 |
| RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习) |
2025年兴起的后训练技术,通过可验证的客观规则(数学题答案是否正确、代码是否可运行等)给出奖励,无需人工标注,可大规模训练提升模型的推理、编码能力 |
| DPO(Direct Preference Optimization,直接偏好优化) |
后训练技术的一种,无需训练奖励模型,直接基于人类偏好数据优化模型,相比RLHF更简单高效 |
| AGI(Artificial General Intelligence,通用人工智能) |
指具备与人类相当的通用认知能力,可适应任意新场景、学习任意新技能的人工智能,当前没有统一的定义与明确的实现时间线 |
| ASI(Artificial Superintelligence,人工超级智能) |
指在所有领域都远超人类最聪明个体的人工智能,属于远期预测的概念 |
| KV Cache(键值缓存) |
大模型推理优化技术,缓存之前token的注意力键值对,避免重复计算,大幅提升推理速度,降低显存占用 |
| Group Query Attention(分组查询注意力) |
注意力机制优化技术,将查询头分组,每组共享键值头,大幅降低KV缓存的显存占用,提升长上下文推理效率 |
| Sliding Window Attention(滑动窗口注意力) |
注意力机制优化技术,仅关注当前token之前的固定窗口内的token,降低长上下文推理的算力与显存需求 |
| LoRA(Low-Rank Adaptation,低秩适配) |
大模型微调技术,仅更新少量低秩矩阵的参数,无需更新全量模型参数,大幅降低微调的成本与显存需求,适合个性化微调场景 |
| OCR(Optical Character Recognition,光学字符识别) |
将图像中的文本转换为可编辑文本的技术,是大模型训练中提取PDF、扫描件等非结构化文本数据的核心工具 |
| Sim-to-real gap(仿真到真实的差距) |
机器人领域的核心问题,指在仿真环境中训练的模型迁移到真实世界时出现的性能下降,需要世界模型、领域自适应等技术缩小差距 |
| TPU(Tensor Processing Unit,张量处理单元) |
Google自研的AI专用芯片,专为Transformer训练与推理优化,相比GPU有更高的能效比,是Google AI基础设施的核心优势 |
| CUDA |
NVIDIA推出的并行计算平台与编程模型,是深度学习领域的事实标准,经过20多年的发展形成了深厚的生态壁垒,是NVIDIA的核心竞争力 |
| FP8/FP4(8位/4位浮点数) |
低精度训练技术,通过降低数值的精度减少显存占用、提升计算吞吐量,是当前大模型训练与推理的核心优化技术之一 |
延伸思考
- 中国开源大模型的快速崛起已经对全球AI格局产生了深远影响,未来中美在开源生态上的竞争将如何演进?美国的Adam项目等本土开源计划能否缩小与中国的差距?
- RLVR的出现大幅提升了大模型的推理与编码能力,未来将其扩展到开放场景(创意、写作、复杂决策等)的核心瓶颈是什么?何时能实现突破?
- 大模型的版权问题已经成为行业核心风险,类似Spotify的版权分成机制是否适合大模型训练场景?如何平衡创作者权益与AI技术的发展?
- AI带来的短期失业问题已经逐渐显现,如何设计合理的社会保障与职业转型机制,降低技术变革带来的社会阵痛?
- 开源大模型的快速发展是否会改变当前闭源厂商主导的市场格局?未来开源与闭源的市场份额会呈现怎样的比例?
原文发表:Jan 31, 2026 · 纪要生成:2026-02-25