来源: YouTube | Jeff Dean | 2025-11-24 分类: Google DeepMind 原文发表: Nov 24, 2025 纪要生成: 2026-03-03
Jeff Dean是Google DeepMind首席科学家、Google第30号员工,主导研发了MapReduce、BigTable、Spanner等互联网底层基础设施,后创立Google Brain,推出TensorFlow深度学习框架,目前领导Gemini团队。本次分享Jeff Dean梳理了过去15年AI领域的关键技术演进路径,解读技术突破背后的逻辑,同时公开Google Gemini 3.0的最新进展与能力边界,探讨AI未来的发展趋势与社会影响。
本节重点 - 介绍Jeff Dean的职业背景与核心贡献 - 明确本次分享的核心主题是过去15年的AI重要趋势 - 说明分享内容涵盖Google及全球AI社区的研发成果
详细精要 - Jeff Dean核心职业履历:1999年作为第30号员工加入Google,主导研发互联网底层基础设施 - 早期贡献包括MapReduce、BigTable、Spanner等支撑现代互联网运行的核心系统 - 2011年创立Google Brain,推出全球应用最广的深度学习框架之一TensorFlow - 现任Google DeepMind首席科学家、Google研究负责人,领导Gemini团队 - 本次分享的主题与范围:聚焦过去15年AI领域的关键进展及其内在关联 - 内容涵盖Google内部数千名研发人员的成果,也包含全球AI社区的重要突破 - Jeff Dean本人既是部分技术的开发者/合作者,也担任本次分享的成果传递者
💬 精华片段(中文)
我今天想和大家聊聊AI领域的重要趋势,以及过去15年左右的一系列发展是如何共同构建出我们如今拥有的高性能现代模型的。
"what I thought I would do today is talk to you about important trends in AI. sort of a whole bunch of developments that have happened mostly over the past 15 years or so and you know how those kind of have fit together well into building sort of the modern capable models that we have today."
本节重点 - 机器学习彻底改变了人类对计算机能力的预期 - 深度学习+算力规模扩张是AI能力提升的核心路径 - AI发展倒逼计算硬件与产业需求发生根本性转变
详细精要 - AI能力的跨越式提升:过去10年计算机在感知、理解类任务的表现远超预期 - 10年前语音识别、图像识别、自然语言理解的表现远达不到实用水平,当前相关技术已大规模落地 - 核心驱动是深度学习范式+算力规模扩张的组合,叠加算法与模型架构的持续创新,三者协同产生更强的效果 - 计算产业的需求重构:AI发展彻底改变了行业对硬件性能的评估标准 - 15年前硬件评估核心是CPU主频、核心数,能否流畅运行传统办公软件与手动编写的程序 - 当前硬件评估核心是能否高效运行各类机器学习计算任务,满足不同场景的性能、能耗约束
💬 精华片段(中文)
我认为过去十年左右,机器学习彻底改变了我们对计算机能力边界的预期。
"I think in the last decade or so machine learning has really changed completely changed our expectations of what we think is possible with computers, right?"
本节重点 - 梳理神经网络与反向传播的早期技术基础 - 介绍Google Brain项目的诞生背景与早期技术框架DisBelief - 解读2012年"猫神经元"研究的核心价值与突破 - 讲解词向量与Seq2Seq模型的技术意义
详细精要 - 神经网络的早期探索:人工神经元与反向传播技术是现代深度学习的核心基础 - 人工神经元的概念已有50年历史,通过边缘权重学习识别模式,反向传播实现基于误差信号的端到端网络训练 - Jeff Dean1990年本科阶段就开始研究神经网络并行训练,当时受限于算力仅实现32核的并行方案,距离实用所需算力差100万倍 - Google Brain项目的诞生:2012年Jeff Dean与吴恩达(Andrew Ng)在Google微厨房交流时启动项目,目标是大规模扩展神经网络训练 - 当时数据中心无AI加速器,基于CPU开发了分布式训练框架DisBelief,支持数据并行与模型并行两种训练模式 - 采用异步训练机制:多个模型副本独立计算梯度,异步更新参数服务器的共享参数,虽然数学上不严谨但实际训练效果良好 - 2012年依托DisBelief训练出比此前行业最大模型大50~100倍的神经网络 - "猫神经元"研究的突破:首次验证无监督预训练的价值 - 输入1000万张YouTube随机视频帧,采用无监督重建目标函数,无需任何标注数据 - 模型顶层自发涌现出对猫、人脸、行人背部等高层概念敏感的神经元,无监督预训练让ImageNet 22000类基准的准确率相对提升70% - 词向量与Seq2Seq模型的进展:为自然语言处理奠定基础 - 用高维向量表示单词/短语,训练后语义相近的词在向量空间中距离近,且向量方向具备语义含义(如性别、时态变换的方向一致) - 2014年基于LSTM的Seq2Seq模型提出,实现序列到序列的映射,首先应用于机器翻译,用双语平行语料训练即可得到高质量翻译系统
💬 精华片段(中文)
我们发现模型顶层会出现对不同高层概念敏感的神经元,哪怕它从未被教过什么是猫。有一个神经元的最强刺激输入就是猫的图像,它仅仅通过接触数据就自发形成了猫的概念。
"what we found was that at the top of this this model, uh, you'd end up with neurons that were sensitive to whether the image contained different kinds of of sort of high level concepts, even though it had never been taught, you know, what a cat was. There was a neuron where the most the the strongest stimulus you could give that neuron was something like that. And so it had sort of come up with the concept of a cat just by being exposed to to that."
本节重点 - 介绍TPU研发的核心动因:CPU算力无法支撑AI服务的规模化落地 - 梳理TPU系列的演进路径与性能提升 - 说明AI专用硬件的设计核心逻辑
详细精要 - TPU研发的核心动因:2010年代中期语音识别模型的算力需求倒逼硬件创新 - Jeff Dean测算如果1亿用户每天用3分钟语音识别服务,用CPU运行新的高精度模型需要将Google的服务器总量翻倍才能支撑 - 神经网络计算的特性:对低精度计算容忍度高,核心运算为线性代数操作(矩阵乘法、向量乘积),适合专用硬件加速 - TPUv1的突破:2015年上线的第一代张量处理单元(TPUv1)专为推理场景设计 - 性能比同期CPU/GPU高15~30倍,能效比高30~80倍,相关论文成为ISCA成立50年来被引最高的论文 - TPU系列的持续演进:从推理加速扩展到训练超算 - 后续推出的TPUv2是第一代AI训练超算,采用自定义高速网络与编译器,支撑大规模模型训练 - 最新一代TPU命名为Ironwood,单Pod包含9216个芯片,采用3D Torus互连,单Pod峰值性能是TPUv2的3600倍,能效比是TPUv2的30倍 - 性能提升一部分来自制程工艺进步,另一部分来自全链路的能耗优化设计
💬 精华片段(中文)
如果我们想要在当时数据中心的CPU上运行这个高精度语音识别模型,我们需要把Google的计算机总数翻倍,才能推出这项改进的语音识别功能。所以我认为我们真的应该考虑专用硬件。
"if we wanted to run this high-quality model on uh CPUs, which is what we had in the data centers at that time, we would need to double the number of computers Google had in order just to roll out this improved speech recognition features. Uh, so I said, well, we really should think about specialized hardware"
本节重点 - 介绍TensorFlow的诞生背景与开源价值 - 梳理PyTorch、JAX等主流开源框架的特点 - 说明开源框架对AI行业普及的核心作用
详细精要 - TensorFlow的诞生:作为DisBelief的继任者开发,修复了内部框架的诸多问题,从设计之初就确定开源 - 支撑了Google内部数千种不同模型的训练,开源后成为全球应用最广的深度学习框架之一 - 其他主流开源框架的发展:进一步降低AI研发门槛 - 早期Torch框架基于Lua语言,受众较窄;2016年推出的PyTorch基于Python,易用性大幅提升,获得行业广泛采用 - Google内部研发的JAX采用函数式编程范式表达机器学习计算,适合高性能科研场景,获得研究者的广泛认可 - 开源框架的行业价值:极大降低了AI研发的准入门槛,推动全行业创新 - 应用开发者可以依托框架快速落地AI功能,无需从零实现底层训练逻辑 - 研究者可以依托框架快速验证新的算法与模型架构,加速技术迭代
💬 精华片段(中文)
开源工具真正赋能了整个AI社区,研究者和应用开发者都可以依托这些框架开展工作,推动了各类AI应用的落地。
"open source tools have really enabled the whole community. so many different kinds of uh applied ML things are doing uh using those some of those frameworks researchers are using those and so on"
本节重点 - 解读Transformer注意力机制的核心创新 - 介绍自监督学习的两种核心范式与价值 - 说明Transformer架构在CV领域的适配效果
详细精要 - Transformer架构的核心创新:2017年《Attention Is All You Need》论文提出,成为当前大模型的核心架构 - 突破LSTM的单步状态更新限制,保存所有历史状态,任意时刻可以注意力机制访问全部上下文信息 - 同等损失水平下,Transformer模型参数量仅为此前模型的1/10,计算量降低10~100倍,准确率大幅提升 - 自监督学习的规模化应用:为大模型训练提供近乎无限的训练数据 - 自回归范式:给定前文预测下一个词,不需要人工标注,依托互联网海量文本即可生成训练信号 - 掩码语言模型范式:类似填词游戏,同时访问前后文预测被掩码的词,充分利用上下文信息 - 两种范式都不需要人工标注,依托互联网海量数据即可获得无穷多训练样本,是现代大模型的核心训练方式 - Transformer在CV领域的适配:Vision Transformer大幅提升计算机视觉任务的效率 - 2020年提出的Vision Transformer将Transformer架构应用于图像任务,同等准确率下计算量仅为此前CV模型的1/4~1/20 - 算法创新进一步降低了大模型的训练成本,同等算力预算下可以训练更大、能力更强的模型
💬 精华片段(中文)
他们的观察是,我们不需要强迫所有状态压缩到每一步更新的向量里,相反,我们可以保存所有经过的状态,在需要基于过往上下文处理任务时,随时访问所有这些状态。这就是《注意力即全部》这一标题的核心。
"their observation was hey let's not try to force all that state into an a vector that we update every every step. Instead, let's just be able to save all those uh states we go through and then let's be able to attend to the all of them uh whenever we're trying to do something based on the context of the past. Uh and that's really uh kind of at the core of the the attention is all you need uh in the title."
本节重点 - 解读稀疏模型的核心设计思路与效率优势 - 介绍Pathways系统的核心功能与价值 - 说明稀疏模型在当前大模型中的应用情况
详细精要 - 稀疏模型的核心创新:解决稠密模型算力浪费的问题 - 传统稠密模型每一个输入Token都会激活全部参数,算力浪费严重;稀疏模型仅激活1%~5%的参数处理单个输入,大幅提升效率 - 同等准确率下,稀疏模型的训练计算量比稠密模型低8倍,或者同等算力预算下可以训练出能力强得多的模型 - 当前主流大模型包括Gemini系列均采用稀疏模型架构 - Pathways算力调度系统:为大规模稀疏模型提供底层支撑 - 核心功能是跨不同层级网络(Pod内部高速网、数据中心内网、跨园区网、跨城域网)调度计算任务,自动选择最优通信路径,处理硬件故障 - 在JAX框架下提供一层运行时抽象,让单个Python进程可以调用10000个TPU设备,研究者无需关注底层硬件的分布与调度细节
💬 精华片段(中文)
普通神经网络每处理一个样本或一个预测Token都会激活整个模型,这看起来非常浪费。更好的方式是拥有一个非常大的模型,不同部分擅长不同类型的任务,只需要调用对应部分的能力,激活整体模型中很小的一部分参数即可完成预测。
"in a normal neural network you have the entire model activated for every uh example or every token you're trying to predict u and that just seems very uh wasteful. It'd be much better to have a very very large model and then have different parts of it be good at different kinds of things and then when you call upon the expertise that's needed in the model you only activate a very small portion of the overall model."
本节重点 - 介绍思维链提示的核心逻辑与效果 - 解读知识蒸馏技术的价值与应用场景 - 梳理强化学习在大模型后训练阶段的三类应用
详细精要 - 思维链提示(Chain-of-Thought):大幅提升大模型的推理能力 - 核心逻辑是引导模型逐步展示推理过程,而非直接输出答案,让模型可以通过输出更多Token获得更多计算资源来推理问题 - 2022年的研究显示,采用思维链提示后,大模型在初中数学基准GSM8K上的准确率大幅提升 - 知识蒸馏(Knowledge Distillation):实现大模型能力向小模型的迁移 - 核心逻辑是用训练好的大模型作为"教师",输出预测的概率分布作为软标签,而非硬标签,给学生模型提供更丰富的训练信号 - 实验显示,语音识别任务中,用3%的训练数据+蒸馏软标签训练的小模型,准确率达到57%,接近用100%训练数据训练的基线模型(58.9%),远高于仅用3%数据硬标签训练的44%准确率 - 可以用低成本训练出接近大模型能力的小模型,适合端侧部署等低算力场景 - 强化学习在后训练阶段的应用:进一步提升大模型的能力与对齐水平 - 人类反馈强化学习(RLHF):基于人类对模型输出的评分作为奖励信号,优化模型的回复风格、礼貌性、安全性等对齐属性 - 机器反馈强化学习(RLAIF):用专门的奖励模型对输出打分作为奖励信号,降低人类标注成本 - 可验证领域强化学习:在数学、编码等可验证结果的领域,用自动验证器(证明检查器、代码编译器/单元测试)的结果作为奖励信号,大幅提升模型的推理能力
💬 精华片段(中文)
知识蒸馏技术之所以极其重要,是因为你可以先训练一个非常大的模型,然后用蒸馏技术训练一个小得多的模型,用蒸馏目标让小模型获得接近大模型的高质量表现。
"this is why this is such a super important technique because you can train a really really large model and then you can use distillation to take a much smaller model and use the distillation targets to give you a really high quality small model that approximates uh quite closely the performance of a large model."
本节重点 - 介绍Gemini项目的核心目标与最新进展 - 梳理Gemini 3.0的核心能力升级 - 展示Gemini的多模态应用案例
详细精要 - Gemini项目的核心目标:训练全球最好的多模态大模型,对内支撑Google全产品线,对外向用户开放 - 从设计之初就是原生多模态,支持多种输入模态,也支持输出文本、图像、音频、视频等多种模态 - 支持超长上下文长度,可以处理大量输入信息,实现总结、推理、溯源等能力 - 迭代路径:Gemini 2.0、2.5均实现能力突破,2025年11月最新发布Gemini 3.0 Pro - Gemini的核心能力突破: - 数学推理:Gemini 2.5 Pro的变体在2025年国际数学奥林匹克(IMO)竞赛中答对6道题中的5道,获得金牌,仅最难的第6题未答对,解决方案的优雅性得到IMO评委的认可 - 基准表现:在LM Arena匿名偏好评测中排名第一,该评测由用户随机对比两个匿名模型的输出并投票偏好,更贴近实际使用体验 - 代码生成:Web开发类代码能力相比上一代模型实现大幅跃升,可以基于简单的自然语言指令生成可运行的动画、网站等代码 - 多模态处理:支持混合输入扫描件、照片、多语言文本等,自动完成转录、翻译、整理等任务;可以生成高质量图像,支持蓝图转3D效果图、历史资料标注、推理可视化等功能 - Gemini的典型应用案例: - 多模态任务:用户上传韩文、英文混合的手写食谱照片,Gemini自动完成转录、翻译,生成双语食谱网站并配套对应图片 - 可视化推理:解决物理轨迹问题时,会生成中间推理步骤的图像,模拟人类思考过程,逐步推导球的落点 - 图像生成:支持根据用户指令调整生成内容,比如生成太阳系标注图时,可以按用户要求加入冥王星并搭配幽默注释
💬 精华片段(中文)
我们用Gemini 2.5 Pro的变体参加了今年的国际数学奥林匹克竞赛,作为纯语言模型系统答对了6道题中的5道,获得了金牌,评委很喜欢我们解决方案的优雅性。
"we used a variant of the 2.5 pro model uh to compete in the international mathematical olympiad this year and also last year uh but this year it was like a pure language model based system and we solve five of the six IMO problems correct which gets you a gold medal there. I think the judges like the elegance of our solution which is nice"
本节重点 - 总结AI发展是全栈技术协同创新的结果 - 梳理AI未来的核心应用领域与价值 - 指出AI发展需要平衡收益与潜在风险
详细精要 - AI发展的核心逻辑:当前大模型的能力是硬件、软件抽象、模型架构、训练算法等全栈技术协同创新的结果,缺一不可 - AI的未来价值:将大幅降低专业能力的准入门槛,惠及多个领域 - 核心应用领域包括医疗健康、教育、科学研究、媒体创作等,让没有专业训练背景的用户也能实现自己的创意 - 有望让深度专业能力触达更多人群,缩小不同群体的能力差距 - AI的潜在风险与应对:需要关注错误信息(misinformation)等潜在风险,平衡收益与风险 - Jeff Dean与John Hennessy、Dave Patterson等学者2024年联合发布论文,访谈各领域专家,探讨如何最大化AI在医疗、教育、科研等领域的收益,同时最小化错误信息等潜在负面影响 - 只要做好风险防控,AI辅助的未来将非常光明
💬 精华片段(中文)
如果发展得当,我认为AI辅助的未来是光明的,但我也并非完全无视风险,比如错误信息就是一个潜在的值得关注的领域。
"done well I think our AI assisted future is bright but I'm not completely oblivious like the areas like misinformation is a a potential area of concern."
| 术语 | 解释 |
|---|---|
| MapReduce(英文) | Google推出的分布式数据处理编程模型,是现代大数据处理的核心基础架构之一 |
| BigTable(英文) | Google推出的分布式结构化数据存储系统,支撑了Google搜索、广告等核心业务 |
| Spanner(英文) | Google推出的全球分布式关系型数据库,支持强一致性、跨区域部署 |
| Google Brain(英文) | Google 2011年成立的AI研究团队,是DeepMind的前身之一,主导了TensorFlow、Transformer等多项核心AI技术研发 |
| TensorFlow(英文) | Google推出的开源深度学习框架,是全球应用最广泛的AI开发框架之一 |
| Gemini(英文) | Google DeepMind开发的多模态大模型系列,是Google当前的旗舰大模型产品 |
| 神经网络(Neural Network) | 模拟生物神经元连接结构的机器学习模型,是深度学习的核心载体 |
| 反向传播(Back Propagation) | 训练神经网络的核心算法,通过误差信号从输出层向输入层反向传递更新网络权重 |
| 数据并行(Data Parallelism) | 分布式训练的一种方式,将训练数据拆分到多个设备,每个设备持有完整模型副本,独立计算梯度后汇总更新 |
| 模型并行(Model Parallelism) | 分布式训练的一种方式,将大模型拆分到多个设备,每个设备持有部分模型参数,协同完成训练 |
| DisBelief(英文) | Google Brain早期开发的内部分布式深度学习训练框架,是TensorFlow的前身 |
| 无监督预训练(Unsupervised Pre-training) | 不需要人工标注数据,用数据本身的结构作为训练信号的预训练方式 |
| ImageNet(英文) | 全球最知名的图像识别基准数据集,包含超过1400万张标注图像,覆盖1万/2.2万个类别 |
| 词向量(Word Embedding) | 将单词映射为高维稠密向量的技术,语义相近的词在向量空间中距离接近 |
| LSTM(Long Short-Term Memory) | 长短期记忆网络,一种循环神经网络架构,曾广泛应用于序列建模任务 |
| Seq2Seq(Sequence to Sequence) | 序列到序列模型架构,将一个输入序列映射为另一个输出序列,最早应用于机器翻译 |
| TPU(Tensor Processing Unit) | Google自研的AI专用加速芯片,针对张量计算优化,支持模型推理与训练 |
| PyTorch(英文) | Meta开源的深度学习框架,基于Python语言,易用性强,是当前应用最广的AI开发框架之一 |
| JAX(英文) | Google推出的开源数值计算框架,支持自动微分、函数式编程,广泛应用于AI科研场景 |
| Transformer(英文) | 2017年提出的基于注意力机制的模型架构,是当前所有大模型的核心基础架构 |
| 自监督学习(Self-supervised Learning) | 利用数据本身的结构构造监督信号,不需要人工标注的学习方式,是大模型训练的核心方式 |
| 自回归语言模型(Autoregressive Language Model) | 给定前文预测下一个词的语言模型范式,是GPT、Gemini等生成式大模型的核心范式 |
| 掩码语言模型(Masked Language Model) | 随机掩码文本中的部分词,用上下文预测被掩码词的预训练范式,是BERT等模型的核心训练方式 |
| Vision Transformer(ViT) | 将Transformer架构应用于计算机视觉任务的模型,大幅提升了CV任务的训练效率 |
| 稀疏模型(Sparse Model) | 仅激活部分参数处理单个输入的大模型架构,相比稠密模型能效比更高 |
| Pathways(英文) | Google开发的大规模AI计算调度系统,支撑跨数万TPU设备的大规模模型训练 |
| 思维链提示(Chain-of-Thought Prompting) | 引导大模型逐步输出推理过程,提升推理准确率的提示工程技术 |
| GSM8K(英文) | 包含8000道初中数学题的基准数据集,用于评估大模型的数学推理能力 |
| 知识蒸馏(Knowledge Distillation) | 将大模型(教师)的能力迁移到小模型(学生)的技术,用教师模型输出的软标签训练小模型 |
| 强化学习(Reinforcement Learning) | 基于环境反馈的奖励信号优化智能体行为的机器学习范式,广泛应用于大模型对齐与能力提升 |
| RLHF(Reinforcement Learning from Human Feedback) | 人类反馈强化学习,基于人类对模型输出的评分作为奖励信号优化大模型的技术 |
| RLAIF(Reinforcement Learning from AI Feedback) | AI反馈强化学习,用奖励模型对输出的评分作为奖励信号优化大模型的技术 |
| IMO(International Mathematical Olympiad) | 国际数学奥林匹克竞赛,是全球最高水平的中学生数学竞赛 |
| LM Arena(英文) | 大语言模型匿名偏好评测平台,由用户对比两个匿名模型的输出并投票,评估模型的实际使用体验 |