来源: YouTube | Andrej Karpathy | Apr 29, 2026 分类: 其他 原文发表: Apr 29, 2026 纪要生成: 2026-05-26
Andrej Karpathy 是人工智能领域的杰出人物,曾作为联合创始人之一在 OpenAI 办公室内参与创建了 OpenAI,并曾在特斯拉主导 Autopilot 系统的研发工作。他因擅长以通俗易懂的方式解释复杂的技术变迁而闻名,是“软件 2.0”理念的提出者。去年,他创造了 “氛围编程” 一词,深刻影响了开发者社区对 AI 辅助编程的认知。
本集节目中,Karpathy 深入阐述了他近期关于 AI 发展的核心思考。他从自己在编程中感到的“前所未有的落后”这一惊人感受出发,系统地拆解了 “软件 3.0” 范式、“可验证性” 与模型 “锯齿状智能” 的根源,并定义了从 “氛围编程” 到 “智能体工程” 的演进,最终落脚于 AI 时代人类理解力与教育的终极价值。
本节重点
详细精要
他意识到自己已经不记得上次去纠正 AI 代码是什么时候了,由此进入了全然的 “氛围编程” 状态。
“氛围编程”的诞生与核心体验:这是一种对 AI 编程系统高度信任的新状态,用户只需不断提出需求,系统即可持续输出可信结果。
💬 精华片段(中文)
“我记不起上一次纠正它是什么时候了。然后我就越来越信任这个系统……我那时就是在进行‘氛围编程’。”
"I can't remember the last time I corrected it. And then I was I just uh, you know, trusted the system more and more. And then I was vibe coding."
本节重点
详细精要
软件 3.0:当 GPT 或 LLM 在互联网的海量数据上接受了足够多的多任务隐式训练之后,它们本身就变成了一台“可编程的计算机”。此时的编程变成了提示工程,上下文窗口就是操纵这个 LLM“解释器”的杠杆,让它在数字信息空间中执行计算。
范式转移的例证:OpenClaw 安装:从必须编写精确的 Shell 脚本到只需给智能体一段文本指令。
这种方式更强大的原因在于,你不再需要精确地指定所有设置细节。智能体封装了自身的智能,它能观察你的具体环境、计算机状态,并执行智能操作来让事情运行,甚至在循环中自我调试。
范式转移的极端例证:MenuGen 的消亡与重生:一个精心编写的手机应用(app)被一个原始的、基于神经网络的原生操作所取代。
这个结果让 Karpathy 大为震撼,因为它证明了 整个 MenuGen 应用其实是多余的,是旧范式下的产物。在新范式下,整个处理过程被压缩成了“输入一张图,输出一张图”,中间的神经网络完成了所有工作。
新范式的核心意义:创造前所未有之物:软件 3.0 最激动人心的部分在于它使信息处理自动化,从而催生了此前在结构化和代码逻辑下无法想象的新应用。
💬 精华片段(中文)
“整个 MenuGen 都是多余的……软件 3.0 范式要原始得多。你的神经网络做了越来越多的工作,你的提示或上下文就只是一张图,输出也是一张图,中间根本不需要任何 app。”
“All of my menu gen is spurious...the software 3.0 paradigm is a lot more kind of raw. It just um, your neural network is doing more and more of the work, and your prompt or context is just the image, and the output is an image, and there's no need to have any of the app in between.”
本节重点
详细精要
这意味着神经网络成为了宿主进程,负责大部分繁重的计算。而 CPU 等传统计算单元则退化为协处理器,只在需要执行特定、确定性的任务时被以“工具调用”的形式拉进来,成为一种“历史的附属品”。
计算历史的路径选择:这个想法有其历史渊源。
Karpathy 预测,二者地位将会翻转。我们正在看到,投入到神经网络上的情报计算量正在接管全部浮点运算,并成为主导性的支出。
渐进式的演化路径:虽然最终形态可能很陌生,但演进过程将是“一块一块地”(piece by piece)发生的,具体的进度目前尚无法确定。
💬 精华片段(中文)
“在计算的早期,人们对于计算机是看起来像计算器还是像神经网络感到有点困惑……我们最终走了计算器的路径……但可以想象,很多东西会翻转过来,神经网络成为宿主进程,而 CPU 成为协处理器。”
“In the early days of computing actually, people were a little bit confused as to whether computers would look like calculators or computers would look like neural nets...we went down the calculator path...But you could imagine I think that a lot of this will flip and that the neural net becomes kind of like the host process. And the CPUs become kind of like the co-processor.”
本节重点
详细精要
因此,Karpathy 提出的判断是:经典计算机擅长自动化你可以在代码中精确指定的任何事;而这一代 LLM 擅长自动化你可以在某种意义上进行验证的任何事。
“锯齿状”的经典案例:“草莓”与“洗车”:这些例子揭示了模型顶尖能力与低级错误并存的吊诡现象。
此事令人深感“疯狂”,因为同一个模型能够同时重构一个包含十万行代码的庞大代码库,或发现零日漏洞,却在如此简单的常识推理上失败。
“实验室关注度”与数据分布的影响:能力的“锯齿”不仅仅是技术上的可验证性问题,也受到实验室人为选择的影响。
💬 精华片段(中文)
“当前最先进的 Opus 4.7 能同时重构一个十万行的代码库,或者找到零日漏洞,但却告诉我要走路去洗车?这太疯狂了。”
“State-of-the-art Opus 4.7 will simultaneously refactor a 100,000 line code base or find zero-day vulnerabilities and yet tells me to walk to this car wash? This is insane.”
本节重点
详细精要
Karpathy 暗示存在一些非常有价值的、尚未被实验室充分开发的 RL 环境领域,但他选择在现场“打哑谜”,没有给出具体例子。
关于“自动化”的边界:回答一切能被自动化吗?
本节重点
详细精要
智能体工程:关乎“质量标尺”的维护。你仍然需要对最终交付的软件负责,不能因为“氛围编程”而引入安全漏洞。核心问题变成了:如何在保证质量不下降的前提下实现极致的速度?
智能体工程的定义与特性:这是一门关于如何驾驭“锯齿状”、“易错”但“极其强大”的智能体的工程学科。
“智能体工程”的上限极高。传统的“10 倍工程师”概念已经过时,Karpathy 观察到,擅长此道的人可以获得远超 10 倍的效率提升。
什么是“AI 原生”的编程者:他们善于将手头工具的性能压榨到极致。
💬 精华片段(中文)
“氛围编程是为了提高每个人的能力下限……而智能体工程则是为了保持专业软件原有的质量标准。”
“Vibe coding is about raising the floor for everyone... agentic engineering is about preserving the quality bar of what existed before in professional software.”
本节重点
详细精要
这个例子说明,人类必须负责制定规格说明书,确定顶层范畴(如“必须有一个唯一用户ID来绑定一切”),而智能体则负责在框架下填充细节。
从记忆 API 细节到理解底层原理:工程师的知识结构正在发生转变。
keepdim、dim、axis、reshape、permute、transpose)已无需记忆,智能体可以完美处理。本节重点
详细精要
虽然代码能跑(works),但实在“太恶心了”(really gross)。
“简化代码”的挑战:“MicroGPT”项目:这个项目旨在将 LLM 训练代码简化到极致,但所有主流模型都在此任务上失败。
这使他确信,进行代码极致简化时,他们正处在 RL 训练回路的“圈外”。模型没有关于“简洁美学”的验证奖励。
可改善的未来:他认为这并非本质上的不可能,只是前沿实验室至今还没有去做。未来通过设计适当的奖励机制,模型的代码品味是可以被提升的。
💬 精华片段(中文)
“我试着不断地提示 LLM 去简化,再简化,但它就是做不到。感觉你完全处在 RL 的回路之外。”
“I tried to keep prompting an LLM to simplify more, simplify more, and it just can't. You feel like you're outside of the RL circuits.”
本节重点
详细精要
如果你对它们大喊大叫,并不会让它们表现得更好或更差,因为它们没有情绪。
付诸实践的指导意义:这种哲学思辨具有实际价值。
本节重点
详细精要
现在的软件框架和库,其文档依然是为人类编写的。文档会告诉他“去这个URL”、“做那个操作”,这让他恼怒不已。他需要的不是指导他做什么,而是一段可以直接复制粘贴给他的智能体的文本。
“智能体原生”的痛点与实践:
数据结构:需要创造对 LLM 来说极易读懂的、专门的自动化数据结构。
终极图景:智能体间的社交:世界正向着一个充满组织和个人智能体代表的方向发展。
本节重点
详细精要
这意味着,即使 AI 可以做所有的事,人类依然是整个系统的一环。信息最终必须进入人脑。Karpathy 感到自己正成为瓶颈:他需要知道正在构建什么,为什么值得做,以及如何指挥他的智能体。这一切都受限于他自身的理解。
知识管理作为理解的增强工具:他对自己发起的 LLM 知识库项目感到兴奋,因为它成为了他处理信息和深化理解的强大工具。
💬 精华片段(中文)
“你可以外包你的思考,但无法外包你的理解。……LLM 绝对不擅长理解。你仍然独一无二地对此负有责任。”
"You can outsource your thinking, but you can't outsource your understanding... the LLMs certainly don't excel at understanding. You still are uniquely in charge of that."
| 术语 | 解释 |
|---|---|
| 氛围编程 | 由 Karpathy 提出的概念,指一种对 AI 编程工具极度信任且无需过多人工检查和修改的状态。用户输入需求,AI 直接产出可信、可用的代码。 |
| 智能体工程 | 一门新兴的工程学科,专注于如何高效、安全地协调多个能力强大但存在随机性和缺陷的 AI 智能体,以在保证软件质量和安全的前提下实现极致的开发速度。 |
| 软件 1.0 / 2.0 / 3.0 | Karpathy 定义的软件编程范式演进。1.0 指人工编写显式规则;2.0 指通过设计数据集和神经网络结构来训练模型;3.0 指通过向 LLM 提供提示和上下文窗口来编程,将 LLM 本身视为一个可编程的解释器。 |
| LLM | 大型语言模型。本集中尤指像 GPT-4 这样,通过海量互联网数据预训练和强化学习微调得到的,能理解和生成文本、代码等内容的巨型神经网络。 |
| RL / 强化学习 | 一种机器学习训练范式,智能体通过与环境互动,根据获得的“奖励”信号(正或负)来学习何种行为能最大化累积奖励。在 LLM 中用于在可验证的领域(如数学、代码)上对齐和增强模型能力。 |
| 锯齿状智能 | 描述当前顶尖 AI 模型能力分布不均的现象。模型在某些高难度、可验证的任务(如竞赛数学、大型代码重构)上表现得像专家或超人,但在其他显而易见的简单常识任务上却犯低级错误。 |
| 可验证性 | 指一个任务或领域的输出结果是否能被一个自动化的、客观的标准进行评估。Karpathy 认为,当前 LLM 的训练范式决定了它们擅长自动化一切能被验证的事情,这是其能力“锯齿状”的根源。 |
| 预训练 | 在大规模、多样化的未标注或互联网文本数据上训练基础模型的第一步,目标是让模型学习语言的统计规律、世界知识和推理模式。这是模型“智能”的基石。 |
| Nano Banana / Gemini | 分别代表先进的图像生成/编辑模型和谷歌的旗舰多模态大语言模型。用来举例说明软件 3.0 范式下,复杂的图像处理任务可以被简化为一句话的指令。 |
| 传感器 / 执行器 | 控制论术语。Karpathy 借此比喻智能体原生世界的架构:LLM 作为核心处理器,通过“传感器”来感知世界信息(如读取文档、API),通过“执行器”来采取行动(如调用工具、修改代码)。 |