▶ 原文链接

斯坦福AI俱乐部对话Jeff Dean:AI领域的重要趋势

来源: YouTube | Jeff Dean | 2025-11-24 分类: Google DeepMind 原文发表: Nov 24, 2025 纪要生成: 2026-03-03


全集重点


嘉宾/话题简介

Jeff Dean是Google DeepMind首席科学家、Google第30号员工,主导研发了MapReduce、BigTable、Spanner等互联网底层基础设施,后创立Google Brain,推出TensorFlow深度学习框架,目前领导Gemini团队。本次分享Jeff Dean梳理了过去15年AI领域的关键技术演进路径,解读技术突破背后的逻辑,同时公开Google Gemini 3.0的最新进展与能力边界,探讨AI未来的发展趋势与社会影响。


分节详述

00:00 开场与分享主题介绍

本节重点

详细精要

💬 精华片段(中文)

我今天想和大家聊聊AI领域的重要趋势,以及过去15年左右的一系列发展是如何共同构建出我们如今拥有的高性能现代模型的。

"what I thought I would do today is talk to you about important trends in AI. sort of a whole bunch of developments that have happened mostly over the past 15 years or so and you know how those kind of have fit together well into building sort of the modern capable models that we have today."


01:02 近十年AI发展的核心观察

本节重点

详细精要

💬 精华片段(中文)

我认为过去十年左右,机器学习彻底改变了我们对计算机能力边界的预期。

"I think in the last decade or so machine learning has really changed completely changed our expectations of what we think is possible with computers, right?"


02:05 15年AI技术演进速览(从早期神经网络到Google Brain起步)

本节重点

详细精要

💬 精华片段(中文)

我们发现模型顶层会出现对不同高层概念敏感的神经元,哪怕它从未被教过什么是猫。有一个神经元的最强刺激输入就是猫的图像,它仅仅通过接触数据就自发形成了猫的概念。

"what we found was that at the top of this this model, uh, you'd end up with neurons that were sensitive to whether the image contained different kinds of of sort of high level concepts, even though it had never been taught, you know, what a cat was. There was a neuron where the most the the strongest stimulus you could give that neuron was something like that. And so it had sort of come up with the concept of a cat just by being exposed to to that."


12:36 AI专用硬件的研发历程(TPU系列)

本节重点

详细精要

💬 精华片段(中文)

如果我们想要在当时数据中心的CPU上运行这个高精度语音识别模型,我们需要把Google的计算机总数翻倍,才能推出这项改进的语音识别功能。所以我认为我们真的应该考虑专用硬件。

"if we wanted to run this high-quality model on uh CPUs, which is what we had in the data centers at that time, we would need to double the number of computers Google had in order just to roll out this improved speech recognition features. Uh, so I said, well, we really should think about specialized hardware"


16:47 开源ML框架对行业的推动

本节重点

详细精要

💬 精华片段(中文)

开源工具真正赋能了整个AI社区,研究者和应用开发者都可以依托这些框架开展工作,推动了各类AI应用的落地。

"open source tools have really enabled the whole community. so many different kinds of uh applied ML things are doing uh using those some of those frameworks researchers are using those and so on"


17:52 Transformer架构与自监督学习的突破

本节重点

详细精要

💬 精华片段(中文)

他们的观察是,我们不需要强迫所有状态压缩到每一步更新的向量里,相反,我们可以保存所有经过的状态,在需要基于过往上下文处理任务时,随时访问所有这些状态。这就是《注意力即全部》这一标题的核心。

"their observation was hey let's not try to force all that state into an a vector that we update every every step. Instead, let's just be able to save all those uh states we go through and then let's be able to attend to the all of them uh whenever we're trying to do something based on the context of the past. Uh and that's really uh kind of at the core of the the attention is all you need uh in the title."


21:59 稀疏模型与Pathways算力调度系统

本节重点

详细精要

💬 精华片段(中文)

普通神经网络每处理一个样本或一个预测Token都会激活整个模型,这看起来非常浪费。更好的方式是拥有一个非常大的模型,不同部分擅长不同类型的任务,只需要调用对应部分的能力,激活整体模型中很小的一部分参数即可完成预测。

"in a normal neural network you have the entire model activated for every uh example or every token you're trying to predict u and that just seems very uh wasteful. It'd be much better to have a very very large model and then have different parts of it be good at different kinds of things and then when you call upon the expertise that's needed in the model you only activate a very small portion of the overall model."


25:42 大模型训练优化技术(思维链、知识蒸馏、RLHF等)

本节重点

详细精要

💬 精华片段(中文)

知识蒸馏技术之所以极其重要,是因为你可以先训练一个非常大的模型,然后用蒸馏技术训练一个小得多的模型,用蒸馏目标让小模型获得接近大模型的高质量表现。

"this is why this is such a super important technique because you can train a really really large model and then you can use distillation to take a much smaller model and use the distillation targets to give you a really high quality small model that approximates uh quite closely the performance of a large model."


32:07 Gemini系列模型的进展与能力展示

本节重点

详细精要

💬 精华片段(中文)

我们用Gemini 2.5 Pro的变体参加了今年的国际数学奥林匹克竞赛,作为纯语言模型系统答对了6道题中的5道,获得了金牌,评委很喜欢我们解决方案的优雅性。

"we used a variant of the 2.5 pro model uh to compete in the international mathematical olympiad this year and also last year uh but this year it was like a pure language model based system and we solve five of the six IMO problems correct which gets you a gold medal there. I think the judges like the elegance of our solution which is nice"


40:27 总结与AI未来展望

本节重点

详细精要

💬 精华片段(中文)

如果发展得当,我认为AI辅助的未来是光明的,但我也并非完全无视风险,比如错误信息就是一个潜在的值得关注的领域。

"done well I think our AI assisted future is bright but I'm not completely oblivious like the areas like misinformation is a a potential area of concern."


专业术语注释

术语 解释
MapReduce(英文) Google推出的分布式数据处理编程模型,是现代大数据处理的核心基础架构之一
BigTable(英文) Google推出的分布式结构化数据存储系统,支撑了Google搜索、广告等核心业务
Spanner(英文) Google推出的全球分布式关系型数据库,支持强一致性、跨区域部署
Google Brain(英文) Google 2011年成立的AI研究团队,是DeepMind的前身之一,主导了TensorFlow、Transformer等多项核心AI技术研发
TensorFlow(英文) Google推出的开源深度学习框架,是全球应用最广泛的AI开发框架之一
Gemini(英文) Google DeepMind开发的多模态大模型系列,是Google当前的旗舰大模型产品
神经网络(Neural Network) 模拟生物神经元连接结构的机器学习模型,是深度学习的核心载体
反向传播(Back Propagation) 训练神经网络的核心算法,通过误差信号从输出层向输入层反向传递更新网络权重
数据并行(Data Parallelism) 分布式训练的一种方式,将训练数据拆分到多个设备,每个设备持有完整模型副本,独立计算梯度后汇总更新
模型并行(Model Parallelism) 分布式训练的一种方式,将大模型拆分到多个设备,每个设备持有部分模型参数,协同完成训练
DisBelief(英文) Google Brain早期开发的内部分布式深度学习训练框架,是TensorFlow的前身
无监督预训练(Unsupervised Pre-training) 不需要人工标注数据,用数据本身的结构作为训练信号的预训练方式
ImageNet(英文) 全球最知名的图像识别基准数据集,包含超过1400万张标注图像,覆盖1万/2.2万个类别
词向量(Word Embedding) 将单词映射为高维稠密向量的技术,语义相近的词在向量空间中距离接近
LSTM(Long Short-Term Memory) 长短期记忆网络,一种循环神经网络架构,曾广泛应用于序列建模任务
Seq2Seq(Sequence to Sequence) 序列到序列模型架构,将一个输入序列映射为另一个输出序列,最早应用于机器翻译
TPU(Tensor Processing Unit) Google自研的AI专用加速芯片,针对张量计算优化,支持模型推理与训练
PyTorch(英文) Meta开源的深度学习框架,基于Python语言,易用性强,是当前应用最广的AI开发框架之一
JAX(英文) Google推出的开源数值计算框架,支持自动微分、函数式编程,广泛应用于AI科研场景
Transformer(英文) 2017年提出的基于注意力机制的模型架构,是当前所有大模型的核心基础架构
自监督学习(Self-supervised Learning) 利用数据本身的结构构造监督信号,不需要人工标注的学习方式,是大模型训练的核心方式
自回归语言模型(Autoregressive Language Model) 给定前文预测下一个词的语言模型范式,是GPT、Gemini等生成式大模型的核心范式
掩码语言模型(Masked Language Model) 随机掩码文本中的部分词,用上下文预测被掩码词的预训练范式,是BERT等模型的核心训练方式
Vision Transformer(ViT) 将Transformer架构应用于计算机视觉任务的模型,大幅提升了CV任务的训练效率
稀疏模型(Sparse Model) 仅激活部分参数处理单个输入的大模型架构,相比稠密模型能效比更高
Pathways(英文) Google开发的大规模AI计算调度系统,支撑跨数万TPU设备的大规模模型训练
思维链提示(Chain-of-Thought Prompting) 引导大模型逐步输出推理过程,提升推理准确率的提示工程技术
GSM8K(英文) 包含8000道初中数学题的基准数据集,用于评估大模型的数学推理能力
知识蒸馏(Knowledge Distillation) 将大模型(教师)的能力迁移到小模型(学生)的技术,用教师模型输出的软标签训练小模型
强化学习(Reinforcement Learning) 基于环境反馈的奖励信号优化智能体行为的机器学习范式,广泛应用于大模型对齐与能力提升
RLHF(Reinforcement Learning from Human Feedback) 人类反馈强化学习,基于人类对模型输出的评分作为奖励信号优化大模型的技术
RLAIF(Reinforcement Learning from AI Feedback) AI反馈强化学习,用奖励模型对输出的评分作为奖励信号优化大模型的技术
IMO(International Mathematical Olympiad) 国际数学奥林匹克竞赛,是全球最高水平的中学生数学竞赛
LM Arena(英文) 大语言模型匿名偏好评测平台,由用户对比两个匿名模型的输出并投票,评估模型的实际使用体验

延伸思考

  1. 稀疏模型与专用AI硬件的协同优化是未来大模型降本增效的核心路径,如何进一步提升稀疏激活的效率、降低硬件调度开销值得持续关注。
  2. 可验证领域的强化学习已经在数学、编码领域实现了能力的大幅跃升,未来如何将这类技术拓展到医疗、法律等难以完全形式化验证的领域,是AI能力突破的重要方向。
  3. 多模态大模型已经具备了文本、图像、音频、视频的统一理解与生成能力,未来如何实现多模态推理的深度融合,而非简单的模态拼接,是下一代大模型的核心竞争点。
  4. AI降低专业门槛的同时,也带来了错误信息、知识产权等风险,如何建立跨领域的风险治理机制,在鼓励创新的同时最小化负面影响,需要产业界、学术界、政策制定者共同探索。

原文发表:Nov 24, 2025  ·  纪要生成:2026-03-03