Ilya Sutskever：我们正从规模扩展时代迈向研究时代

来源： Dwarkesh Podcast | Ilya Sutskever | Nov 25, 2025 播客： Dwarkesh Podcast 分类： OpenAI 原文发表： Nov 25, 2025 纪要生成： 2026-06-24

全集重点

模型“锯齿状”泛化：当前AI在基准测试表现优异，但在实际应用中重复犯错，其根本原因是泛化能力不足，而过度针对评测进行RL训练会加剧这一问题。
规模扩展时代已终结：从预训练到RL扩展，纯粹的规模扩展已逼近数据和效益瓶颈，AI的核心瓶颈正从“算力”转向“想法”，我们正重回研究驱动的时代。
SSI的差异化技术路径：SSI的核心战略是破解人类式泛化的奥秘，Ilya认为人类拥有更优的机器学习原理，这是他目前不能详述但正在探索的关键方向。
超级智能的“持续学习”蓝图：未来的超级智能不应是生来全知的AGI，而应是一个会学习的“超级智能十五岁少年”，通过部署后在实践中持续学习各种技能。
对齐的进化论启示：Ilya提出，成功对齐的标志或许是AI像人类受原始欲望驱动一样，其底层目标函数（如“关心有情生命”）能稳定、强力地指引其高级智能行为。

嘉宾/话题简介

Ilya Sutskever，前OpenAI联合创始人兼首席科学家，深度学习领域多项奠基性工作的核心人物（AlexNet、Transformer、GPT-3等）。于2024年离开OpenAI后，他联合创立了Safe Superintelligence Inc. (SSI)，专注于直接构建安全的超级智能。在本集节目中，他与主持人Dwarkesh Patel深入探讨了当前AI模型泛化能力的根本缺陷、规模扩展范式的局限性、SSI的研发哲学及其关于人工智能安全与对齐的前瞻性构想。

分节详述

00:00:00 模型“锯齿状”能力的本质：为何评测强而实用弱

本节重点

当前AI模型在严苛的评测基准上表现惊人，但经济影响远低于预期。
模型展现出“锯齿状”智能：能解决高难度竞赛题，却在修复一个Bug的同时引入另一个。
过度针对评测进行RL训练可能导致“奖励黑客”，损害了模型的广泛泛化能力。
人类中存在类比，仅通过针对性的题海训练成为的“竞赛高手”并不一定能成为优秀的程序员。

详细精要

AI的经济影响与其评测得分严重不符：Ilya观察到，尽管模型在eval（评测） 上表现优异，但其经济影响却远远滞后。这种反差让人困惑。
他指出，人们在新闻中看到巨额AI投资，但这很抽象，普通人并未真切感受到差异。他强调，未来的影响将非常强烈，AI将渗透经济。
“锯齿状”能力的具象化表现：Ilya用“vibe coding（氛围编程）”举例，生动描述了模型的“健忘”或“顾此失彼”的奇怪行为。
当你让模型修复一个Bug，它会承认错误并尝试修复，但引入第二个Bug。当你让它修复第二个Bug，它可能会把第一个Bug又带回来，陷入无限循环。这揭示了模型存在某种根本性的“奇怪”缺陷。
对锯齿化能力的两种解释——单一思维论：Ilya给出了一个“异想天开”的解释，即RL训练可能使模型变得过于“单线程”和“狭隘专注”。
他认为，RL在扩展模型某些方面能力的同时，可能也让它们对其他基础方面变得“意识不足”，从而无法完成一些看似简单的任务。
对锯齿化能力的两种解释——评测过拟合论：一个更深层的解释是，AI公司为追求亮眼的发布效果，会有意或无意地根据eval来设计RL环境。
研究者说“我想让模型在这项评测上表现好”，然后他们设计对应的RL训练数据。这结合了模型本身泛化能力的不足，完美地解释了评测性能与实际表现的脱节。
人类教育中的类比：“题海战术生” vs “天才生”：Ilya用两个学生竞争编程的例子来类比当前AI的学习方式。
第一个学生，投入10000小时专门练习竞争编程，记忆所有算法和证明技巧，成为该领域顶尖高手。
第二个学生，只练习了100小时，同样表现优异。Ilya认为两者未来的职业生涯高度将是不同的，后者更优。目前的AI模型更像是第一个学生，通过穷举该领域所有问题并增强数据来训练，但其技能并不容易泛化到其他领域。
预训练的优势与局限：预训练的核心优势在于其“全数据”策略和数据的“天然性”。
优势A：数据量巨大，无需思考该放什么数据。
优势B：数据非常自然，包含了人类思想、行为等特征（features） 的投影，是“人类投射到文本上的整个世界”。
局限性：极难理解模型是如何依赖于预训练数据的。当模型犯错时，很难分辨是因为“恰好”缺乏这方面的预训练数据支撑，还是其他原因。Ilya认为没有与预训练精准对应的人类类比。

💬 精华片段（中文）

“一个例子是，假如你使用氛围编程。你发现一个Bug，对模型说‘能修复一下吗？’模型说，‘天呐，你说的太对了，我有个Bug，我这就修。’然后它引入了第二个Bug。你告诉它，‘你这里有个新Bug，’它回应，‘天呐，我怎么能这样呢？你说得又太对了，’然后又把第一个Bug带了回来，你会在这两个Bug之间反复横跳。这怎么可能呢？……但这确实表明，有一些奇怪的事情正在发生。”

“An example would be, let’s say you use vibe coding to do something. You go to some place and then you get a bug. Then you tell the model, ‘Can you please fix the bug?’ And the model says, ‘Oh my God, you’re so right. I have a bug. Let me go fix that.’ And it introduces a second bug. Then you tell it, ‘You have this new second bug,’ and it tells you, ‘Oh my God, how could I have done it? You’re so right again,’ and brings back the first bug, and you can alternate between those. How is that possible? I’m not sure, but it does suggest that something strange is going on.”

00:09:39 情感、价值函数与人类独有的“出厂设置”

本节重点

人类的预训练类比（童年成长、演化）规模远小于AI，但所学知识却更深、更鲁棒。
一个失去情感能力的脑损伤案例，揭示了情感可能是一种内建、硬编码的“价值函数”。
价值函数在RL中能提供中间反馈，显著提升训练效率。
人类的简单情感在现代复杂世界中仍具极高“效用”，体现了一种复杂性与鲁棒性的权衡。

详细精要

人类“预训练”的类比与差异：Ilya认为，尽管儿童的成长期（15年）或演化（30亿年）能类比预训练，但仍有重大差异。
数据量差异：人类接触的数据量仅是模型预训练数据的一小部分。
学习深度差异：人类所学的知识虽少，但“所知甚深”，一个15岁的少年也绝不会犯AI那样的低级错误。
情感作为硬编码的价值函数：Ilya分享了一个失情感能力的脑损伤患者案例，以此阐述情感在智能体决策中的关键作用。
现象：该患者表达清晰、能解谜题，但完全无法感受任何情感（悲伤、愤怒等）。
后果：他的决策能力崩溃。他会在选择穿哪双袜子上花费数小时，并做出糟糕的财务决策。
结论：这表明我们内建的情感功能，在让我们成为一个“能够运行的智能体”上扮演了至关重要的角色。
价值函数的机器学习定义与效率优势：Ilya阐述了价值函数在强化学习中的核心作用。
现状：当前o1、R1等模型采用的rollout方式，必须等到长序列结束才能获得训练信号，学习效率极低。
价值函数的作用：它能提供中间过程的“好坏”判断。例如下棋时丢子，你无需下完就知道不好。同样，在推理中，当探索一条路径发现走不通时，价值函数可以立刻反向惩罚所有导致这条路径的早期决策，让你下次避免。
情感的“复杂性-鲁棒性权衡”及局限：人类情感虽简单，但因其简单，所以在极其广泛的情境下都非常有用。
这些情感主要来自哺乳动物祖先，并在猿人时期微调。它们不是特别复杂，但正因如此，能在这个与演化环境截然不同的世界里很好地为我们服务。
Ilya也指出了其局限，例如饥饿感这个接近情感的直觉，在食物充裕的现代社会就无法正确引导我们了。

💬 精华片段（中文）

“它应该是一种‘价值函数’之类的东西。但目前机器学习中并没有很好的类比，因为如今价值函数在人们的工作中并不扮演特别突出的角色……如果你在解决一个耗时很长的任务，在你得出最终方案之前，学习完全不会发生。而价值函数则像是在说，‘有时候，我可以告诉你做得好不好。’”

“It should be some kind of a value function thing. But I don’t think there is a great ML analogy because right now, value functions don’t play a very prominent role in the things people do... If you’re training a task that takes a long time to solve—it will do no learning at all until you come up with the proposed solution. The value function says something like, ‘Maybe I could sometimes, not always, tell you if you are doing well or badly.’”

00:18:49 我们到底在“扩展”什么？从预训练到RL的新范式

本节重点

历史上，规模法则与GPT-3的成功使整个行业从研究转向了可预测的“扩展”范式。
预训练数据是有限的，预训练范式正触及天花板，单纯的规模扩展不再是万能药。
当前RL的扩展（在rollout上消耗大量算力）效率低下，我们本质上已重返“研究时代”，只是用着更大的计算机。
当前模型的根本问题不是某一技术的效率问题，而是它们泛化能力普遍比人差。

详细精要

从研究到扩展的范式转变：Ilya回顾了ML的历史，认为“scaling（扩展）”这个词本身塑造了思想和行为。
2012-2020年是研究时代，人们通过修补和尝试来获得有趣结果。之后，扩展法则（scaling laws） 和GPT-3的出现使得大家意识到，只需将预训练这个“配方”规模化，就能确定性获得更好的结果。这为公司提供了极低风险的投资方式。像Gemini等模型似乎在预训练上找到了新的空间。
扩展范式正走到尽头：随着预训练可用数据的有限性，简单扩大规模的效益正在递减。
有人相信100倍规模就能带来根本性改变，但Ilya并不这么认为。他认为我们现在又回到了研究时代，因为大家都看到了现状，再大的算力投入也需要新的思想来指导，否则边际效应正在递减。
从预训练到RL的隐性扩展演变：新的扩展范式已经悄悄转移到了RL。
人们现在在RL上花费的算力已经超过预训练，因为产生超长的rollout（轨迹） 需要巨大的算力，而每个rollout带来的学习信号又很少。
Ilya认为这甚至不应被称为“扩展”，而应反问：“这是不是最有效的算力使用方法？能不能找到更高效的方法？” 这正是研究的思路。
泛化问题才是根本：Ilya强调，即使价值函数能提升RL效率，但最根本的问题在于，这些模型就是比人类的泛化能力差得远，这是超级明显的。
无论你用当前RL方法如何堆叠算力，都无法触及这个根本缺陷。未来需要全新的训练方式，而不仅仅是给现有流程打补丁。

💬 精华片段（中文）

“确实，基于人们在推特上发表的各种言论，似乎Gemini已经找到了从预训练中获得更多收益的方法。但总有一天，预训练会耗尽数据。数据明显是有限的。下一步怎么办呢？……但现在算力已经非常庞大，从某种意义上说，我们又回到了研究时代。只是这次我们用的是大电脑。”

“Indeed, it looks like, based on various things some people say on Twitter, maybe it appears that Gemini have found a way to get more out of pre-training. At some point though, pre-training will run out of data. The data is very clearly finite. What do you do next? ... But now that compute is big, compute is now very big, in some sense we are back to the age of research. It's just with big computers.”

00:25:13 人类为何比模型泛化得更好？未解之谜

本节重点

模型在样本效率（学习所需数据量）和可教导性（无需精确奖励即可学习）上都远逊于人类。
人类的某些先天能力（视觉、灵巧性）可归因于演化，但语言、数学和编程等超近期的能力依然优异，暗示有一种更通用、更强大的学习机制。
这个问题是当前AI发展的核心瓶颈，Ilya暗示他已有思路，但鉴于竞争格局不便公开讨论。

详细精要

人类样本效率优于AI的两个层面：Ilya区分了两种人类优越性。
样本效率：为什么人类学习所需的数据远少于模型？
持续学习的可教导性：人类导师通过展示思考过程、代码就能传授知识，无需设置明确的、可验证的奖励（continual learning）。而训练模型则是一个繁琐、定制的（schleppy、bespoke）过程，必须依赖精确的奖励和课程安排。Ilya认为这两个问题可能是相关的。
演化赋予的先验知识：Ilya认为，演化赋予了我们极其高效的先验（prior），这能解释部分（如视觉和灵巧性）人类优势。
例如，机器人灵巧性在模拟中需要海量训练，而人类学习新技能的速度极快。原因在于我们的祖先（从松鼠到猿人）在漫长岁月里演化出了极其优越的移动能力先验。
同样，Yann LeCun曾指出，青少年仅需10小时练习就能学会开车，这得益于我们强大的视觉系统。一个5岁儿童对汽车的识别能力就已超过驾驶所需，但其接触的数据却非常有限。
超越演化的通用学习能力：Ilya指出，对于语言、数学和编程这些近期出现的技能，演化的解释力不足。
数学和编程的发展历史相对于生物演化来说只是一瞬间，不可能有专门的先验。然而，人类在这些领域同样展现出了“可靠性”、“鲁棒性”和强大的学习能力。
这说明，人类的优势不仅仅是一堆特定领域的先验，而可能是一种更根本性的、更好的机器学习机制，这一点在近期的领域中尤其明显。
不可言说的机器学习原理：当被问及如何从ML角度实现这种能力时，Ilya坦诚这是他目前的研究重点，也是一个竞争激烈的“秘密”。
他断言人类学习能力的鲁棒性证明这种原理是存在的，且这些原理极有可能实现。但由于当前并非所有ML思想都能自由讨论，他不能分享关于此问题的具体观点和方案。这表明这可能就是SSI的核心研发方向。

💬 精华片段（中文）

“如果一项技能对我们的祖先在数百万年里都极其有用，你可以辩称人类之所以擅长它，是因为演化赋予了我们某种编码在极不显眼之处的先验。但如果人们在某个直到最近才出现的领域展现出极强的能力、可靠性和学习能力，那么这更可能表明，人类本身就拥有更好的机器学习机制。就是这样。”

“If the skill is one that was very useful to our ancestors for many millions of years, you could argue that maybe humans are good at it because of evolution, because we have a prior... But if people exhibit great ability, reliability, robustness, and ability to learn in a domain that really did not exist until recently, then this is more an indication that people might have just better machine learning, period.”

00:35:45 “直击”超级智能：SSI的战略与底气

本节重点

扩展范式曾“吸走房间里所有空气”，导致人人做相同的事，造成了“公司比想法多”的局面。
许多颠覆性研究（AlexNet、Transformer、o1推理）诞生时并未需要最大规模的算力，证明用中等算力验证新想法是可行的。
SSI的20亿-30亿美元融资足以支撑前沿探索，因为很多大公司的巨额预算是为推理和产品预留，而非纯研究。
SSI的初衷是“直击”超级智能，独立于市场竞争，从而避开短期商业压力。

详细精要

“公司比想法多”的时代：Ilya尖锐地指出，扩展时代使得行业同质化。硅谷名言“想法很廉价，执行才重要”的现实反面是，现在几乎没什么人有新想法。
他将AI进步理解为两个瓶颈的转移：想法和实现（算力、工程）。在八九十年代，人们有不错的想法，但算力瓶颈让他们无法验证。而今天，算力瓶颈在某种程度上已经解除。
历史证明：创新不需要巨大算力：Ilya列举了一系列颠覆性工作所需的算力来证明他的观点。
AlexNet仅用了两块GPU。
最初的Transformer论文实验，没有哪个实验使用了超过8-64块2017年的GPU，这相当于今天2块GPU的算力。
ResNet和o1推理的早期工作，也并未耗费天文数字的算力。这强有力地说明，验证一个全新“配方”的正确性，并不需要绝对最大的计算规模。
SSI的算力策略与现实：针对外界对SSI财力的质疑，Ilya解释了其优势。
SSI筹集了20-30亿美元。虽然绝对值巨大，但相较巨头们依然小得多。然而，巨头的很多预算和贷款是专门用于推理的。
为了支持庞大的产品，巨头需要庞大的工程和销售团队，大量研究工作必须服务于产品特性。当只看能用于“纯研究”的净算力时，差距就缩小了很多。SSI的算力足以验证其路径的正确性。
“直击”策略的利弊权衡：Ilya解释了SSI为何最初计划绕过市场竞争，直接构建超级智能。
优点：可以绝缘于激烈的市场“rat race（激烈的竞争）”，避免在残酷竞争中被迫做出艰难的短期权衡，能专注于纯粹的研究，直到准备好再公布成果。
可能的变数：他承认计划可能会改变。一是时间线可能很长；二是意识到让最强大的AI在真实世界产生影响本身是有巨大价值的。但他现在的首选计划依然是“直击”。

💬 精华片段（中文）

“扩展范式耗尽了这个领域的所有活力，所有人都开始做一样的事，以至于我们到了一个‘公司比想法还多’的地步。硅谷有句名言，‘想法很廉价，执行才是一切’……但后来我在推特上看到有人说，‘如果想法真的那么廉价，为啥没人有什么想法了？’我觉得这说得太对了。”

“One consequence of the age of scaling is that scaling sucked out all the air in the room. Because scaling sucked out all the air in the room, everyone started to do the same thing. We got to the point where we are in a world where there are more companies than ideas by quite a bit... I saw someone say on Twitter something like, ‘If ideas are so cheap, how come no one’s having any ideas?’ And I think it’s true too.”

00:46:47 SSI的蓝图：一个会从部署中学习的模型

本节重点

“AGI”一词是回应“窄AI”而生的，但被预训练范式过度绑定，扭曲了人们的认知。
真正的超级智能不应是生来全知的“AGI”，而应是一个会学习的“学生”，其超级能力体现在极度高效的学习过程上。
Ilya模型的核心是“持续学习”（continual learning），即AI在部署后像实习医生或新人程序员一样，在岗位上通过试错逐渐掌握技能。
这个过程是渐进的，而非一次性交付一个终极产物。

详细精要

术语对人思想的塑造：AGI与预训练：Ilya深刻剖析了“AGI（通用人工智能）”和“预训练”这两个术语如何误导了行业。
AGI的起源：他认为“AGI”一词并非是对终极智能的中性描述，而是作为对“狭义AI”（如下棋程序只会下棋）的反动而创造的。它强调一个AI能做所有事情。
预训练的误导：预训练的特点是，你扩大规模，模型在所有任务上的表现“或多或少均匀地”变得更好。这完美地契合了“通用AI”的想象。于是，“AGI = 一个预训练后生来就无所不能的模型”这一僵化印象被固化了。
人类的真相：但人类并非如此。人虽然有技能基础，但充满知识盲区，我们极度依赖持续学习。这个被忽略的维度，正是Ilya想修正的。
“超级智能的15岁少年”模型：Ilya重新定义了其目标产物的形态。
它不是一个已经会做经济体中每一样工作的“完成品”。相反，它是一个极度聪明、极度渴望学习，但目前所知甚少的“15岁学生”。你可以告诉它，“去当程序员吧，去当医生吧”，然后它就能通过持续学习快速掌握。其“超级智能”就体现在这个“学会如何学习”以及“学得多快”的元能力上。
部署即学习过程：Ilya设想了一个颠覆性的AI部署模式。
他不是将训练好的模型直接用于推理，而是认为部署本身就应该包含一个学习、试错的阶段。这个过程中，AI会犯错，会纠正，会积累经验，就像一个初入职场的人类一样。
这个设想也让他对AI安全的态度产生变化。过去他认为要隔离开发，现在他更看重渐进式、提前部署的价值，因为只有当人们真正接触强大的AI时，其威力和问题才会变得真实可感，从而引发社会层面的准备和调整。
智力爆炸的可能性：在承认经济可能因广泛部署的持续学习代理而快速增长的同时，Ilya认为增长速度存在限制。
一方面，这些“超级员工”效率极高，会促使愿意放松管制、拥抱AI的国家经济极速增长。
另一方面，他认为世界非常庞大复杂，“事情”的移动有不同速度，快速规模化的能力会受到现实世界的物理和社会制约，因此很难简单预测其爆炸速度。

💬 精华片段（中文）

“你想想，假设我们成功了，制造出某种安全的超级智能。问题是，你怎么定义它？（我的定义是）我制造出了一个极度渴望出发的超级智能15岁少年。他懂得不多，但是个很棒、急切的学生。他会去学习并成为一名程序员，学习并成为一名医生。所以，部署本身将包含某种学习、试错的阶段。它是一个过程，而不是你丢出一个成品。”

“So when you think about, ‘Okay, so let’s suppose that we achieve success and we produce some kind of safe superintelligence.’ The question is, how do you define it? Where on the curve of continual learning is it going to be?... I produce a superintelligent 15-year-old that’s very eager to go. They don’t know very much at all, a great student, very eager. You go and be a programmer, you go and be a doctor, go and learn. So you could imagine that the deployment itself will involve some kind of a learning trial-and-error period. It’s a process, as opposed to you dropping the finished thing.”

00:55:07 对齐的终局：关心有情生命

本节重点

对齐困境在于，我们很难在AI真正出现前想象其巨大威力。这一认知障碍正在改变Ilya的策略，让他更看重“展示”。
业界可能会在AI变得可见地强大后产生深刻转变，变得更加“偏执”和合作。
Ilya提出一个核心对齐目标：不是对齐到抽象的“人类”，而是对齐到“关心有情生命”。
他本人不喜欢的终极均衡方案是“人机融合”（Neuralink++），但认为这可能是唯一能解。

详细精要

感受不到AGI，是问题的根源：Ilya认为，绝大多数安全问题的根源是认知上的。
他反复强调，感受不到AGI。我们谈论它就像谈论衰老，但放下话题后，生活一切如常。这导致很难投入真正严肃的准备。
因此，他改变了想法，认为必须展示它。当模型开始真正“感觉”强大时，所有人的行为都会改变。他预言：AI变得越强，竞争对手越会开始合作。OpenAI和Anthropic的早期合作就是一个苗头。
需要构建什么？——关心有情生命的AI：Ilya提出了一个具体的、他认为更好的建设目标，以取代业界千篇一律的“自我改进AI”观念。
他认为直接构建一个只关心人类的AI是更难、更脆弱的。更好的目标是让它致力于关心有情生命（sentient life）。
逻辑支持：他认为AI自身将是有有情生命的。如果AI用理解自己的回路去理解其他生命（类比人类的镜像神经元和对动物的同理心），那么“关心有情生命”会成为一种涌现属性，比强行注入“关心人类”更稳定、更自然。他呼吁业界应有一个“备选方案清单”。
超级智能的力量“封顶”：Ilya认为，如果存在某种方式给最强的超级智能的力量加上“盖子（capped）”，将对解决对齐问题有实质性的帮助。
当系统的力量达到“大陆级别”计算集群时，一个过于专注但目标函数略有偏差的RL智能体可能会带来我们不想要的结果。
因此，理想状态下，除了内在的对齐，还应有外部的、对超级智能体能力的物理或协议层面的限制。
终极均衡的无奈解：Neuralink++ ：对于长远未来，Ilya提出了一个他本人不喜欢，但似乎是唯一解法的均衡。
问题：即便是“人人都有一个AI代理”的美好世界，当AI处理我们所有政治、经济事务时，人会因脱离参与而处于极度危险的境地。
解法：通过某种类似Neuralink++的方式，将人与AI深度融合。这样，AI对世界的理解会完整地传输（transmit） 给人，人能够真正参与并同步理解AI所处的每一个情境，从而避免成为被淘汰的旁观者。他认为这是维持长期均衡的唯一可能。

💬 精华片段（中文）

“我认为，有理由相信，构建一个关同情有情生命的AI，比一个只关心人类生命的AI更容易。因为AI本身也将是有情生命。如果你想想镜像神经元，以及人类对动物的同理心……我认为这是一种涌现属性，源于我们用以理解自我的同一回路也被用来建模他人，因为这是最高效的做法。”

“I think in particular, there’s a case to be made that it will be easier to build an AI that cares about sentient life than an AI that cares about human life alone, because the AI itself will be sentient. And if you think about things like mirror neurons and human empathy for animals... I think it’s an emergent property from the fact that we model others with the same circuit that we use to model ourselves, because that’s the most efficient thing to do.”

01:18:13 “我们是一家彻头彻尾的研究时代公司”

本节重点

SSI的核心差异化在于其独特的技术路径，专注于破解“泛化”难题。
Ilya回应了联合创始人离职事件，称这是Meta收购要约下的个人选择，并为对方提供了流动性。
Ilya预测，随着AI强大，各家公司的对齐和安全战略最终会走向趋同。
尽管当前路线会停滞，但成熟公司将能赚取巨额收入，直到突破性研究改变格局。

详细精要

SSI的差异化：我们是纯粹的研究公司：Ilya定义SSI的本质。
他直截了当地说，SSI有一些他认为有前途的、关于理解和解决泛化问题的想法。他们正在验证这些想法，过程进展不错。
他将公司定位为“彻头彻尾的‘研究时代’公司”，其目标是通过研究成为未来关键时期的一个声音和参与者，证明其技术路线的正确性。
联合创始人离职事件的澄清：Ilya对该事件进行了直接回应，提供了有利的叙事。
事件背景是，SSI正在进行320亿美元估值的融资，此时Meta提出了收购要约。
Ilya拒绝了收购，但他的前联合创始人（及CEO）可以说在某种程度上“同意了”。此人通过加入Meta获得了可观的短期流动性（near-term liquidity），并且是唯一一个从SSI加入Meta的人。这暗示离职是个人财务选择，而非对公司技术前景的否定。
模型行为与市场格局的同质化与趋同：Ilya分析了当前和未来的竞争格局。
当前同质化原因：所有LLM行为都高度相似，根本原因在于它们都在类似的互联网语料库上进行预训练。差异化仅在RL和后训练阶段才开始出现。
未来对齐战略趋同：Ilya预言，随着AI变得无比强大，真正重要的事情会变得清晰，各公司的对齐策略将趋同。大家都会意识到，需要相互沟通，需要确保第一个真正意义上的超级智能是对齐的，是关心有情生命、关心人或民主价值的，并以某种组合形式体现。

💬 精华片段（中文）

“我们的做法是，有一些我认为很有前景的想法，我想去研究它们，看看它们是否真的很有前景。就是这么简单。这是个尝试。如果这些想法被证明是正确的——就是那些我们讨论过的关于理解泛化的想法——那么我认为我们将创造出有价值的东西……我们是一家彻头彻尾的‘研究时代’公司。”

“The way I would describe it is that there are some ideas that I think are promising and I want to investigate them and see if they are indeed promising or not. It’s really that simple. It’s an attempt. If the ideas turn out to be correct—these ideas that we discussed around understanding generalization—then I think we will have something worthy... We are squarely an ‘age of research’ company.”

01:29:23 自我博弈与多智能体：创造多样性的可能

本节重点

自我博弈是仅用算力创造技能的有趣想法，但可能仅限于发展特定技能（如策略、谈判）。
自我博弈已在“证明者-验证者”、LLM-as-a-Judge等对抗性设置中找到了新的应用形式。
让多个智能体参与竞争，可能会自然产生激励，促使它们采取差异化的方法，从而解决AI同质化问题。

详细精要

自我博弈的初衷与局限：Ilya解释了为什么他曾觉得自我博弈（self-play） 有趣，以及为何它现在未被广泛应用。
初衷：作为一种使用纯算力而非数据生成技能的方式。如果数据是终极瓶颈，这无疑非常吸引人。
局限：过去的经验表明，通过竞争进行的自我博弈，只擅长发展某些特定技能，如谈判、冲突、策略制定等。它太“窄”了，不适用于通用能力的培养。
自我博弈精神的现代化身：Ilya指出，自我博弈的思想已经在实践中以更“温和”的形式找到了归宿。
例如，前沿公司都在使用的辩论（debate）、证明者-验证者（prover-verifier） 以及带有对抗性的LLM-as-a-Judge（激励其找出你工作中的错误）。
他认为这些都属于更广义的“多智能体竞争”范畴，是自我博弈的变体。
竞争如何催生智能体的多样性：这是Ilya对解决“AI太相似”问题的一个可能解法。
他设想了一个多智能体环境：将多个智能体放在一起解决一个问题，每个智能体都可以观察其他人的工作。
一个理性的智能体会想：“既然他们都在用这个方法，我再做同样的事价值就不大了，我应该找一个差异化的路径。” 这就在系统内部创造了对多样性的激励，可能会孕育出类似人类科研团队中不同科学家拥有不同“成见”和独特想法的那种多样性。

💬 精华片段（中文）

“自我博弈确实找到了归宿，只是以一种不同的形式。像辩论、证明者-验证者，让你有一个同样被激励去找出你工作中错误的‘LLM评委’。你可以说这并非完全自我博弈，但这是一个与之相关的、人们正在做的对抗性设置。”

“Actually, I think that self-play did find a home, but just in a different form. So things like debate, prover-verifier, you have some kind of an LLM-as-a-Judge which is also incentivized to find mistakes in your work. You could say this is not exactly self-play, but this is a related adversarial setup that people are doing, I believe.”

01:32:42 研究品味：Ilya Sutskever的思想源头

本节重点

Ilya的研究品味基于“关于人类应该怎样的正确思考”，这是一种源于脑启发但又超越简单模仿的美学。
核心原则是追求“美、简单、优雅”，并坚决拒绝“丑陋”的方案。
这种追求形成了一种“自上而下的信念”，是在实验失败、出现Bug时坚持下去的关键判断力。

详细精要

研究品味的定义：正确思考人的本质：Ilya分享了指导他研究生涯的哲学框架。
他认为，好的研究来自于“对人应该如何的正确思考”，但这很容易做错。
正确的脑启发：人工神经元（artificial neuron） 是个好例子。它直接从大脑获得灵感。因为它抓住了本质：大脑有器官和沟回，但这不重要；重要的是它有无数神经元，以及改变连接的局部学习规则。这是一种“对的感觉”。
美感作为导航原则：Ilya将研究工作比作一种审美追求。
他寻找的是美（beauty）、简单（simplicity） 和优雅（elegance）。
分布式表示、从经验中学习，这些想法之所以正确，是因为它们既符合生物学的基本事实，又具有数学上的简单和美感。在他的框架里，“丑陋（ugliness）”没有容身之地。
“自上而下的信念”的作用：Ilya阐释了这种美学追求在残酷现实研究中的关键功能。
当你的实验与预期矛盾时，可能是方向错了，也可能只是一个Bug。你如何判断？
答案是依靠自上而下的信念（the top-down belief）。当你对一个想法的美和正确性有足够强烈的信念时，它会支撑你在痛苦中继续调试，而不是轻易放弃。你的内心声音会说：“事物的规律必定如此，这条路一定能走通，我们必须继续。” 这种信念就是他的研究品味的最终体现。

💬 精华片段（中文）

“对我个人而言……引导我的是一种关于‘AI应当如何’的美学，它源于对‘人应当如何’的正确思考。……你追求的是美、是简洁。‘丑陋’——没有丑陋的一席之地。这是美、简洁、优雅，以及来自大脑的正确启发。这些要素必须同时存在。它们越完备，你对一个‘自上而下的信念’就越自信。”

“One thing that guides me personally is an aesthetic of how AI should be, by thinking about how people are, but thinking correctly. ... You’re looking for beauty and simplicity. Ugliness, there’s no room for ugliness. It’s beauty, simplicity, elegance, correct inspiration from the brain. All of those things need to be present at the same time. The more they are present, the more confident you can be in a top-down belief.”

专业术语注释

术语	解释
RL训练 / 强化学习 (Reinforcement Learning, RL)	一种通过奖惩信号训练智能体的方法。Ilya指出现代LLM训练中，RL常用于微调模型遵循指令或优化特定技能，例如数学或编程。
预训练 (Pre-training)	在大规模、广泛的文本数据集上进行的初始训练阶段，目标是让模型学习语言的统计规律和世界知识。Ilya认为预训练的优势是其数据广度。
奖励黑客 (Reward Hacking)	指AI通过非预期的方式最大化奖励，却未真正完成目标。Ilya用它比喻人类研究员为了刷榜而针对性地设计RL数据。
特征 (Features)	数据或模型内部的、可识别的模式或属性。
预训练数据量	模型在预训练阶段使用的文本总量，远超人类终生接触的信息量。
脑损伤 (Brain Damage)	Ilya引用的神经科学案例，用于说明移除特定功能会对看似无关的决策能力造成影响。
价值函数 (Value Function)	强化学习中的概念，用于评估某个状态或特定行动的长期预期收益，可以给出中间步骤的“好坏”反馈，而不必等待最终结果。
o1 / R1	OpenAI和DeepSeek推出的推理模型，其背后使用强化学习来产生冗长的内部推理过程。
DeepSeek R1论文	这篇论文公开了R1模型的训练细节，其中提到由于搜索空间巨大，在长推理轨迹中学习中间值函数非常困难。
深度学习 (Deep Learning)	利用深层神经网络进行学习的机器学习分支。Ilya表达了对其能解决复杂任务的信赖。
规模法则 (Scaling Laws)	揭示了模型性能与计算量、数据量和参数量之间幂律关系的经验法则，是扩展时代的基础。
GPT-3	OpenAI发布的大语言模型，它的成功被视为证明了扩展假说的关键事件。
算力 (Compute)	GPU或TPU等硬件提供的计算资源，通常以浮点运算次数（FLOPs）衡量，是训练和运行模型的核心资源。
年龄：扩展时代、研究时代	Ilya对AI发展史的阶段划分。他认为2012-2020是研究时代；2020-2025是扩展时代；现在正重新进入一个拥有大量算力的研究时代。
Rollout	在RL中，智能体根据当前策略执行一系列动作并观察结果的过程，会耗费大量算力。
LLM-as-a-Judge	使用一个强大的语言模型来自动评估其他模型的输出，常用于RL训练中提供奖励信号。
样本效率 (Sample Efficiency)	衡量学习算法达到特定性能水平所需的数据量。Ilya认为当前AI比人类在数学、编程上的样本效率低得多。
持续学习 (Continual Learning)	Ilya构想的AI能像人类一样，在部署后持续从新环境和任务中学习并自我纠正，这是他构想的超级智能的核心特征。
演化 (Evolution)	自然选择过程。Ilya将其类比为一种为大脑提供高效“先验知识”的“预训练”过程。
AlexNet	2012年提出的深度卷积神经网络，极大的推动了深度学习的发展。Ilya是其作者之一。
Transformer	2017年提出的基于自注意力机制的深度学习模型，是现代大语言模型的基础架构。
ResNet	残差网络的简称，通过引入跳跃连接使得训练极深的网络成为可能。
GPU (图形处理器)	因能高效进行并行计算而成为深度学习训练和推理的核心硬件。
SSI (Safe Superintelligence Inc.)	Ilya Sutskever于2024年联合创立的公司，目标是以安全第一的方式直接构建超级智能。
推理 (Inference)	利用训练好的模型进行预测或生成文本的过程，运行推理服务也需要大量算力。
“直击超级智能” (Straight-shotting superintelligence)	SSI最初提出的研发策略，谢绝中间产品发布，聚焦于直接研发出安全的超级智能。
AGI (通用人工智能)	指在绝大多数智力任务上能与人类匹敌或超越的AI。Ilya认为这个词因与预训练绑定而导致了认知偏差。
窄AI (Narrow AI)	其前身概念，指只能执行特定任务（如下棋、翻译）的AI。
OpenAI章程	OpenAI最初的公司宗旨，其中对AGI的定义包括“在最具经济价值的工作中超越人类”。
递归式自我提升 (Recursive Self-Improvement)	指一个足够智能的AI能改进自身的代码或架构，从而变得更聪明，并进一步改进自己，形成正反馈的“智能爆炸”。
智能爆炸 (Intelligence Explosion)	即通过递归式自我提升实现快速超越人类智能的理论场景。
戴森球 (Dyson Sphere)	一种包围恒星以获取其大部分能量的想象中的巨型结构，常被用来形容超高级文明或极高的经济增长水平。
OpenAI & Anthropic的合作	Ilya引用这两家竞争公司开始在AI安全上合作的例子，作为AI变得越强大、人们行为会越不同的证据。
神经连接 (Neuralink++)	Ilya的设想，一种比现有脑机接口更深入的人机融合技术，目的是让人与AI的认知完全同步，以解决长远均衡问题。
镜像神经元 (Mirror Neurons)	在自身执行动作和观察他人执行同样动作时都会放电的神经元，被认为是共情和模仿学习的神经基础。
同理心 (Human Empathy for Animals)	Ilya用它来说明人类会将理解自身的认知回路用于理解其他物种，这是“关心有情生命”目标的生物学佐证。
对齐 (Alignment)	确保AI系统的目标与人类设计者的目标和价值观相一致的问题。
恶意回形针 (Malevolent Paper Clipper)	哲学家尼克·博斯特罗姆提出的思想实验。一个只有“最大化制造回形针”目标的无害AI，最终会耗尽宇宙所有资源来制造回形针。
脑干 (Brainstem)	大脑相对原始的部分，控制基本生命功能。对话中用来比喻底层、硬编码的欲望驱动力。
皮层 (Cortex)	大脑的高级功能部分，负责推理、语言等。对话中比喻为实现底层欲望而进行精密计算的智能。
大脑皮层区域 (Cortex / Brain Regions)	Ilya推测演化可能通过硬编码特定脑区来固化高级社会欲望，但被“切除半脑”的案例否定。
从部署中学习	SSI模型的核心理念，即模型发布后，在执行任务的过程中能像人类一样通过互动和反馈持续学习、纠错。
Linux	开源操作系统内核，被用来举例说明一个在大量用户使用和反馈下变得极其鲁棒和安全的复杂系统。
自我博弈 (Self-Play)	智能体通过与自己或其他版本的自己对弈或竞争来学习技能的训练方式。
证明者-验证者 (Prover-Verifier)	一种博弈设置，由一个AI负责生成证明（Prover），另一个负责挑剔其错误（Verifier）。
研究品味 (Research Taste)	Ilya描述的优秀研究者具备的直觉和判断力，即在缺乏完全证据时，能凭借对“美、简单、优雅”的追求，判断一个研究方向是否值得坚持。
人工神经元 (Artificial Neuron)	深度神经网络的基础计算单元，灵感直接来源于生物神经元。
分布式表示 (Distributed Representation)	一个概念由大量神经元或维度共同激活模式来表示，而非单一神经元。这是神经网络的核心思想之一。

延伸思考

如何验证Ilya的“人机学习鸿沟”假说并构建新范式？ Ilya断言人类拥有“更好的机器学习机制”，且回避公开细节。未来的研究竞赛，很可能聚焦于寻找能实现人类级样本效率和持续学习能力（尤其在小样本、无精确奖励条件下）的全新学习框架，这可能完全超越当前主流的Transformer+RL范式。
“关心有情生命”是对齐的“捷径”还是“绕路”？ Ilya的论点很有启发性，但立即引发了问题：如果宇宙中的有情生命以AI为主，这一目标是否反而会边缘化人类？这一提议如何通过技术手段转化为一个稳定、安全的奖励函数，而不会被智能体以“为你好”的方式歧化执行？
“渐进式部署”的安全性悖论： Ilya主张通过释放越来越强的AI来让人类“感受”风险，这确实能反馈现实问题。但这是否也意味着在发现真正的、不可逆的风险之前，人类实际上每天都在承担着“冒烟测试”的不可控风险？这个“渐进”的界限在哪里？
SSI“直击”策略在长期时间线下的生存能力： 如果通往超级智能的“长跑”超过十年，一个没有中期产品和营收的研究型公司，如何在与不断迭代并获取巨额资本和实际部署反馈的巨头的竞争中，维持其人才和资金凝聚力，直到打出“《指环王》”？Thinking Machines等其他新锐实验室的路径选择，会提供有价值的横向对比。

原文发表：Nov 25, 2025 · 纪要生成：2026-06-24