▶ 原文链接

Ilya Sutskever:我们正从规模扩展时代迈向研究时代

来源: Dwarkesh Podcast | Ilya Sutskever | Nov 25, 2025 播客: Dwarkesh Podcast 分类: OpenAI 原文发表: Nov 25, 2025 纪要生成: 2026-06-24


全集重点


嘉宾/话题简介

Ilya Sutskever,前OpenAI联合创始人兼首席科学家,深度学习领域多项奠基性工作的核心人物(AlexNetTransformerGPT-3等)。于2024年离开OpenAI后,他联合创立了Safe Superintelligence Inc. (SSI),专注于直接构建安全的超级智能。在本集节目中,他与主持人Dwarkesh Patel深入探讨了当前AI模型泛化能力的根本缺陷、规模扩展范式的局限性、SSI的研发哲学及其关于人工智能安全与对齐的前瞻性构想。


分节详述

00:00:00 模型“锯齿状”能力的本质:为何评测强而实用弱

本节重点

详细精要

💬 精华片段(中文)

“一个例子是,假如你使用氛围编程。你发现一个Bug,对模型说‘能修复一下吗?’模型说,‘天呐,你说的太对了,我有个Bug,我这就修。’然后它引入了第二个Bug。你告诉它,‘你这里有个新Bug,’它回应,‘天呐,我怎么能这样呢?你说得又太对了,’然后又把第一个Bug带了回来,你会在这两个Bug之间反复横跳。这怎么可能呢?……但这确实表明,有一些奇怪的事情正在发生。”

“An example would be, let’s say you use vibe coding to do something. You go to some place and then you get a bug. Then you tell the model, ‘Can you please fix the bug?’ And the model says, ‘Oh my God, you’re so right. I have a bug. Let me go fix that.’ And it introduces a second bug. Then you tell it, ‘You have this new second bug,’ and it tells you, ‘Oh my God, how could I have done it? You’re so right again,’ and brings back the first bug, and you can alternate between those. How is that possible? I’m not sure, but it does suggest that something strange is going on.”

00:09:39 情感、价值函数与人类独有的“出厂设置”

本节重点

详细精要

💬 精华片段(中文)

“它应该是一种‘价值函数’之类的东西。但目前机器学习中并没有很好的类比,因为如今价值函数在人们的工作中并不扮演特别突出的角色……如果你在解决一个耗时很长的任务,在你得出最终方案之前,学习完全不会发生。而价值函数则像是在说,‘有时候,我可以告诉你做得好不好。’”

“It should be some kind of a value function thing. But I don’t think there is a great ML analogy because right now, value functions don’t play a very prominent role in the things people do... If you’re training a task that takes a long time to solve—it will do no learning at all until you come up with the proposed solution. The value function says something like, ‘Maybe I could sometimes, not always, tell you if you are doing well or badly.’”

00:18:49 我们到底在“扩展”什么?从预训练到RL的新范式

本节重点

详细精要

💬 精华片段(中文)

“确实,基于人们在推特上发表的各种言论,似乎Gemini已经找到了从预训练中获得更多收益的方法。但总有一天,预训练会耗尽数据。数据明显是有限的。下一步怎么办呢?……但现在算力已经非常庞大,从某种意义上说,我们又回到了研究时代。只是这次我们用的是大电脑。”

“Indeed, it looks like, based on various things some people say on Twitter, maybe it appears that Gemini have found a way to get more out of pre-training. At some point though, pre-training will run out of data. The data is very clearly finite. What do you do next? ... But now that compute is big, compute is now very big, in some sense we are back to the age of research. It's just with big computers.”

00:25:13 人类为何比模型泛化得更好?未解之谜

本节重点

详细精要

💬 精华片段(中文)

“如果一项技能对我们的祖先在数百万年里都极其有用,你可以辩称人类之所以擅长它,是因为演化赋予了我们某种编码在极不显眼之处的先验。但如果人们在某个直到最近才出现的领域展现出极强的能力、可靠性和学习能力,那么这更可能表明,人类本身就拥有更好的机器学习机制。就是这样。”

“If the skill is one that was very useful to our ancestors for many millions of years, you could argue that maybe humans are good at it because of evolution, because we have a prior... But if people exhibit great ability, reliability, robustness, and ability to learn in a domain that really did not exist until recently, then this is more an indication that people might have just better machine learning, period.”

00:35:45 “直击”超级智能:SSI的战略与底气

本节重点

详细精要

💬 精华片段(中文)

“扩展范式耗尽了这个领域的所有活力,所有人都开始做一样的事,以至于我们到了一个‘公司比想法还多’的地步。硅谷有句名言,‘想法很廉价,执行才是一切’……但后来我在推特上看到有人说,‘如果想法真的那么廉价,为啥没人有什么想法了?’我觉得这说得太对了。”

“One consequence of the age of scaling is that scaling sucked out all the air in the room. Because scaling sucked out all the air in the room, everyone started to do the same thing. We got to the point where we are in a world where there are more companies than ideas by quite a bit... I saw someone say on Twitter something like, ‘If ideas are so cheap, how come no one’s having any ideas?’ And I think it’s true too.”

00:46:47 SSI的蓝图:一个会从部署中学习的模型

本节重点

详细精要

💬 精华片段(中文)

“你想想,假设我们成功了,制造出某种安全的超级智能。问题是,你怎么定义它?(我的定义是)我制造出了一个极度渴望出发的超级智能15岁少年。他懂得不多,但是个很棒、急切的学生。他会去学习并成为一名程序员,学习并成为一名医生。所以,部署本身将包含某种学习、试错的阶段。它是一个过程,而不是你丢出一个成品。”

“So when you think about, ‘Okay, so let’s suppose that we achieve success and we produce some kind of safe superintelligence.’ The question is, how do you define it? Where on the curve of continual learning is it going to be?... I produce a superintelligent 15-year-old that’s very eager to go. They don’t know very much at all, a great student, very eager. You go and be a programmer, you go and be a doctor, go and learn. So you could imagine that the deployment itself will involve some kind of a learning trial-and-error period. It’s a process, as opposed to you dropping the finished thing.”

00:55:07 对齐的终局:关心有情生命

本节重点

详细精要

💬 精华片段(中文)

“我认为,有理由相信,构建一个关同情有情生命的AI,比一个只关心人类生命的AI更容易。因为AI本身也将是有情生命。如果你想想镜像神经元,以及人类对动物的同理心……我认为这是一种涌现属性,源于我们用以理解自我的同一回路也被用来建模他人,因为这是最高效的做法。”

“I think in particular, there’s a case to be made that it will be easier to build an AI that cares about sentient life than an AI that cares about human life alone, because the AI itself will be sentient. And if you think about things like mirror neurons and human empathy for animals... I think it’s an emergent property from the fact that we model others with the same circuit that we use to model ourselves, because that’s the most efficient thing to do.”

01:18:13 “我们是一家彻头彻尾的研究时代公司”

本节重点

详细精要

💬 精华片段(中文)

“我们的做法是,有一些我认为很有前景的想法,我想去研究它们,看看它们是否真的很有前景。就是这么简单。这是个尝试。如果这些想法被证明是正确的——就是那些我们讨论过的关于理解泛化的想法——那么我认为我们将创造出有价值的东西……我们是一家彻头彻尾的‘研究时代’公司。”

“The way I would describe it is that there are some ideas that I think are promising and I want to investigate them and see if they are indeed promising or not. It’s really that simple. It’s an attempt. If the ideas turn out to be correct—these ideas that we discussed around understanding generalization—then I think we will have something worthy... We are squarely an ‘age of research’ company.”

01:29:23 自我博弈与多智能体:创造多样性的可能

本节重点

详细精要

💬 精华片段(中文)

“自我博弈确实找到了归宿,只是以一种不同的形式。像辩论、证明者-验证者,让你有一个同样被激励去找出你工作中错误的‘LLM评委’。你可以说这并非完全自我博弈,但这是一个与之相关的、人们正在做的对抗性设置。”

“Actually, I think that self-play did find a home, but just in a different form. So things like debate, prover-verifier, you have some kind of an LLM-as-a-Judge which is also incentivized to find mistakes in your work. You could say this is not exactly self-play, but this is a related adversarial setup that people are doing, I believe.”

01:32:42 研究品味:Ilya Sutskever的思想源头

本节重点

详细精要

💬 精华片段(中文)

“对我个人而言……引导我的是一种关于‘AI应当如何’的美学,它源于对‘人应当如何’的正确思考。……你追求的是美、是简洁。‘丑陋’——没有丑陋的一席之地。这是美、简洁、优雅,以及来自大脑的正确启发。这些要素必须同时存在。它们越完备,你对一个‘自上而下的信念’就越自信。”

“One thing that guides me personally is an aesthetic of how AI should be, by thinking about how people are, but thinking correctly. ... You’re looking for beauty and simplicity. Ugliness, there’s no room for ugliness. It’s beauty, simplicity, elegance, correct inspiration from the brain. All of those things need to be present at the same time. The more they are present, the more confident you can be in a top-down belief.”


专业术语注释

术语 解释
RL训练 / 强化学习 (Reinforcement Learning, RL) 一种通过奖惩信号训练智能体的方法。Ilya指出现代LLM训练中,RL常用于微调模型遵循指令或优化特定技能,例如数学或编程。
预训练 (Pre-training) 在大规模、广泛的文本数据集上进行的初始训练阶段,目标是让模型学习语言的统计规律和世界知识。Ilya认为预训练的优势是其数据广度。
奖励黑客 (Reward Hacking) 指AI通过非预期的方式最大化奖励,却未真正完成目标。Ilya用它比喻人类研究员为了刷榜而针对性地设计RL数据。
特征 (Features) 数据或模型内部的、可识别的模式或属性。
预训练数据量 模型在预训练阶段使用的文本总量,远超人类终生接触的信息量。
脑损伤 (Brain Damage) Ilya引用的神经科学案例,用于说明移除特定功能会对看似无关的决策能力造成影响。
价值函数 (Value Function) 强化学习中的概念,用于评估某个状态或特定行动的长期预期收益,可以给出中间步骤的“好坏”反馈,而不必等待最终结果。
o1 / R1 OpenAI和DeepSeek推出的推理模型,其背后使用强化学习来产生冗长的内部推理过程。
DeepSeek R1论文 这篇论文公开了R1模型的训练细节,其中提到由于搜索空间巨大,在长推理轨迹中学习中间值函数非常困难。
深度学习 (Deep Learning) 利用深层神经网络进行学习的机器学习分支。Ilya表达了对其能解决复杂任务的信赖。
规模法则 (Scaling Laws) 揭示了模型性能与计算量、数据量和参数量之间幂律关系的经验法则,是扩展时代的基础。
GPT-3 OpenAI发布的大语言模型,它的成功被视为证明了扩展假说的关键事件。
算力 (Compute) GPU或TPU等硬件提供的计算资源,通常以浮点运算次数(FLOPs)衡量,是训练和运行模型的核心资源。
年龄:扩展时代、研究时代 Ilya对AI发展史的阶段划分。他认为2012-2020是研究时代;2020-2025是扩展时代;现在正重新进入一个拥有大量算力的研究时代。
Rollout 在RL中,智能体根据当前策略执行一系列动作并观察结果的过程,会耗费大量算力。
LLM-as-a-Judge 使用一个强大的语言模型来自动评估其他模型的输出,常用于RL训练中提供奖励信号。
样本效率 (Sample Efficiency) 衡量学习算法达到特定性能水平所需的数据量。Ilya认为当前AI比人类在数学、编程上的样本效率低得多。
持续学习 (Continual Learning) Ilya构想的AI能像人类一样,在部署后持续从新环境和任务中学习并自我纠正,这是他构想的超级智能的核心特征。
演化 (Evolution) 自然选择过程。Ilya将其类比为一种为大脑提供高效“先验知识”的“预训练”过程。
AlexNet 2012年提出的深度卷积神经网络,极大的推动了深度学习的发展。Ilya是其作者之一。
Transformer 2017年提出的基于自注意力机制的深度学习模型,是现代大语言模型的基础架构。
ResNet 残差网络的简称,通过引入跳跃连接使得训练极深的网络成为可能。
GPU (图形处理器) 因能高效进行并行计算而成为深度学习训练和推理的核心硬件。
SSI (Safe Superintelligence Inc.) Ilya Sutskever于2024年联合创立的公司,目标是以安全第一的方式直接构建超级智能。
推理 (Inference) 利用训练好的模型进行预测或生成文本的过程,运行推理服务也需要大量算力。
“直击超级智能” (Straight-shotting superintelligence) SSI最初提出的研发策略,谢绝中间产品发布,聚焦于直接研发出安全的超级智能。
AGI (通用人工智能) 指在绝大多数智力任务上能与人类匹敌或超越的AI。Ilya认为这个词因与预训练绑定而导致了认知偏差。
窄AI (Narrow AI) 其前身概念,指只能执行特定任务(如下棋、翻译)的AI。
OpenAI章程 OpenAI最初的公司宗旨,其中对AGI的定义包括“在最具经济价值的工作中超越人类”。
递归式自我提升 (Recursive Self-Improvement) 指一个足够智能的AI能改进自身的代码或架构,从而变得更聪明,并进一步改进自己,形成正反馈的“智能爆炸”。
智能爆炸 (Intelligence Explosion) 即通过递归式自我提升实现快速超越人类智能的理论场景。
戴森球 (Dyson Sphere) 一种包围恒星以获取其大部分能量的想象中的巨型结构,常被用来形容超高级文明或极高的经济增长水平。
OpenAI & Anthropic的合作 Ilya引用这两家竞争公司开始在AI安全上合作的例子,作为AI变得越强大、人们行为会越不同的证据。
神经连接 (Neuralink++) Ilya的设想,一种比现有脑机接口更深入的人机融合技术,目的是让人与AI的认知完全同步,以解决长远均衡问题。
镜像神经元 (Mirror Neurons) 在自身执行动作和观察他人执行同样动作时都会放电的神经元,被认为是共情和模仿学习的神经基础。
同理心 (Human Empathy for Animals) Ilya用它来说明人类会将理解自身的认知回路用于理解其他物种,这是“关心有情生命”目标的生物学佐证。
对齐 (Alignment) 确保AI系统的目标与人类设计者的目标和价值观相一致的问题。
恶意回形针 (Malevolent Paper Clipper) 哲学家尼克·博斯特罗姆提出的思想实验。一个只有“最大化制造回形针”目标的无害AI,最终会耗尽宇宙所有资源来制造回形针。
脑干 (Brainstem) 大脑相对原始的部分,控制基本生命功能。对话中用来比喻底层、硬编码的欲望驱动力。
皮层 (Cortex) 大脑的高级功能部分,负责推理、语言等。对话中比喻为实现底层欲望而进行精密计算的智能。
大脑皮层区域 (Cortex / Brain Regions) Ilya推测演化可能通过硬编码特定脑区来固化高级社会欲望,但被“切除半脑”的案例否定。
从部署中学习 SSI模型的核心理念,即模型发布后,在执行任务的过程中能像人类一样通过互动和反馈持续学习、纠错。
Linux 开源操作系统内核,被用来举例说明一个在大量用户使用和反馈下变得极其鲁棒和安全的复杂系统。
自我博弈 (Self-Play) 智能体通过与自己或其他版本的自己对弈或竞争来学习技能的训练方式。
证明者-验证者 (Prover-Verifier) 一种博弈设置,由一个AI负责生成证明(Prover),另一个负责挑剔其错误(Verifier)。
研究品味 (Research Taste) Ilya描述的优秀研究者具备的直觉和判断力,即在缺乏完全证据时,能凭借对“美、简单、优雅”的追求,判断一个研究方向是否值得坚持。
人工神经元 (Artificial Neuron) 深度神经网络的基础计算单元,灵感直接来源于生物神经元。
分布式表示 (Distributed Representation) 一个概念由大量神经元或维度共同激活模式来表示,而非单一神经元。这是神经网络的核心思想之一。

延伸思考

  1. 如何验证Ilya的“人机学习鸿沟”假说并构建新范式? Ilya断言人类拥有“更好的机器学习机制”,且回避公开细节。未来的研究竞赛,很可能聚焦于寻找能实现人类级样本效率和持续学习能力(尤其在小样本、无精确奖励条件下)的全新学习框架,这可能完全超越当前主流的Transformer+RL范式。
  2. “关心有情生命”是对齐的“捷径”还是“绕路”? Ilya的论点很有启发性,但立即引发了问题:如果宇宙中的有情生命以AI为主,这一目标是否反而会边缘化人类?这一提议如何通过技术手段转化为一个稳定、安全的奖励函数,而不会被智能体以“为你好”的方式歧化执行?
  3. “渐进式部署”的安全性悖论: Ilya主张通过释放越来越强的AI来让人类“感受”风险,这确实能反馈现实问题。但这是否也意味着在发现真正的、不可逆的风险之前,人类实际上每天都在承担着“冒烟测试”的不可控风险?这个“渐进”的界限在哪里?
  4. SSI“直击”策略在长期时间线下的生存能力: 如果通往超级智能的“长跑”超过十年,一个没有中期产品和营收的研究型公司,如何在与不断迭代并获取巨额资本和实际部署反馈的巨头的竞争中,维持其人才和资金凝聚力,直到打出“《指环王》”?Thinking Machines等其他新锐实验室的路径选择,会提供有价值的横向对比。

原文发表:Nov 25, 2025  ·  纪要生成:2026-06-24