当 AI 发现下一个 Transformer 架构 — Robert Lange

来源： YouTube (MLST) | Robert Lange | Mar 13, 2026 分类： 其他 原文发表： Mar 13, 2026 纪要生成： 2026-06-29

全集重点

AI 驱动科学发现的进化方法：Shinka Evolve 展示了如何结合 LLM 与进化算法，以极高的样本效率自动发现和优化算法
开放式探索 vs. 给定问题：当前 AI 系统受限于被给定的具体问题，真正的创新往往需要同时演化“问题”和“解决方案”
人类监督的持久价值：Lange 坚信人类仍是深度理解和创造力的源泉，AI 将是人类潜能的“放大器”，而非替代品
AI 科学家的范式转变：从单线程聊天到多线程、异步的“牧羊人”式科研，科学研究的方式将在 5-10 年内发生根本性变化
效率与可及性：通过降低成本和计算需求，Shinka Evolve 旨在让科学发现工具更民主化，使非专家也能参与创新

嘉宾/话题简介

Robert Lange 是日本 AI 初创公司 Sakana AI 的创始研究员之一。Sakana AI 致力于探索以 Kenneth Stanley 的“开放式结局”思想为核心的新颖研究路径，并专注于日本市场。Lange 的 PhD 研究深受 Sakana 联合创始人 David Ha 在超网络和进化优化方面工作的影响。在本集中，Lange 深入探讨了其最新论文 Shinka Evolve（进化进化），这是一种利用大语言模型和进化算法以极高效率进行程序发现和优化的系统，并将其与 AlphaEvolve、Jeremy Howard 的 ARC 解决方案，以及 Sakana 的 AI 科学家 项目进行了比较和展望。

分节详述

[00:00] 引言：进化、创新与 AI 的局限

本节重点

科学创新如同进化树遍历，但论文只报告最终成功的路径
当前 LLM 自主运行往往无法产生有趣的新事物
真正创新可能需要先“发明一个新问题”
人类仍是深度理解和创造力的核心

详细精要

科学研究的进化类比：
科学实验和想法探索的过程就像在 一棵树 上遍历不同的分支。
这在某种意义上与进化的过程相似，我们探索各种想法，并沿着特定的路径前进。
最终发表的论文仅仅是 报告通过这棵树的一条路径，而非展示探索的全貌。
LLM 自主探索的停滞性：
当让 LLM 自主运行时，它们往往不会产生任何有趣的结果。
它们会朝着初始提示指引的方向前进几步，但之后就 没有任何新的、有趣的 novelty（新颖性）出现。
即使引入 环境反馈，系统似乎仍然严重依赖于其 起始条件，无法自发产生新的探索方向。
创新与问题发明的关联：
针对一个特定问题的创新，可能首先需要 发明一个不同的问题。
例如，AlphaEvolve 在矩阵乘法上的成果，得益于其可以递归应用于更大矩阵的特性，这本身就是一种重要的 问题规约。
当前系统的一个核心缺陷是，这种 递归性质的问题解决能力 或自动找到问题规约的能力，并没有被内在地构建进去。

💬 精华片段（中文）

"Oftentimes innovation for a specific problem might require first inventing a different problem..."

“针对特定问题的创新往往需要首先发明一个不同的问题……”

对人类核心价值的坚定信念：
Lange 表示，他之所以 目前还不那么担心劳动力市场被颠覆，是因为他仍然深信人类是 深度理解和创造力 在世界上唯一的源泉。
如果他不相信这一点，才会感到非常担忧。他将 AI 视作一个 放大器，用于增强人类本就擅长的那些潜在维度，而非替代它们。
他认为一个 Rubicon 时刻 将是当类似 新 Transformer 架构 这样的重大突破由 AI 自主发现，并被我们普遍使用时。

[02:07] Sakana AI 与进化哲学

本节重点

Sakana AI 的独特愿景：结合“日本优先”的AI开发与宏大的研究野心
公司核心哲学源于 Kenneth Stanley 的“开放式结局”思想
David Ha 的学术工作在超网络与进化优化方面对 Lange 的 PhD 影响深远

详细精要

Sakana AI 的双重使命：
Sakana AI 是一家 日本 AI 初创公司，主要任务是开发面向日本的 AI 技术。
在基础研究方面，他们同时致力于探索那些 新颖且雄心勃勃 的想法，这些想法目前在主流 ML 社区中可能得不到足够的资源支持。
公司成立已有大约 1年零3个季度，Lange 是创始研究员之一。回顾早期，公司在组织形态上发生了巨大变化，但精神内核未变。
拥抱“开放式结局”：
Sakana 的核心理念是拥抱 Ken Stanley 的开放式结局（Open-Endedness）思想。
这意味着公司采取一种探索 众多不同想法的策略，这一策略与 ML 社区的主流做法有所不同。
Lange 提到公司 CEO David Ha，并将其与 Jeff Clune 和 Ken Stanley 等视作同一级别的思想领袖。
David Ha 的学术影响：
David Ha 的工作对 Lange 个人 PhD 产生了 巨大影响。
这些工作主要集中在 超网络（Hyper Networks）、神经网络中的 调制（Modulation） 以及 进化计算（Evolutionary Computation） 和 进化优化（Evolutionary Optimization）。
这些研究方向共同描绘了 Lange 在 PhD 期间的学术路径。

[03:43] Shinka Evolve 简介：一个更高效的进化系统

本节重点

Shinka Evolve 受 AlphaEvolve 启发，利用 LLM 在进化循环中生成和优化程序
核心突破在于极高的“样本效率”，大幅降低成本
目标是通过提高可及性，推动 AI 驱动的科学发现民主化

详细精要

论文灵感和定位：
Shinka Evolve（在日语中意为“进化进化”）的部分灵感来源于 AlphaEvolve，Lange 认为那是项出色的工作。
该系统使用 语言模型生成程序，然后采用 进化方法：生成程序 -> 优化生成的程序 -> 通过评估器评估 -> 在多个步骤中重复。
与市场上其他方法相比，Shinka Evolve 引入了多项技术创新，实现了更复杂的优化过程。
核心瓶颈：样本效率：
使用这些进化驱动的 LLM 方法时，一个关键问题是 样本效率（Sample Efficiency）。
许多此类系统（如 AlphaEvolve）对一个任务需要采样约 1000 个程序。
Shinka Evolve 的核心目标是 削减成本 和 减少计算评估时间，通过引入一系列技术创新来实现。
显著成果与民主化目标：
Shinka Evolve 证明了，用 极少的程序评估 次数就能改进经典问题，例如改进 AlphaEvolve 论文中展示的 Circle Packing（圆形填充）的典范结果。
Lange 认为，当前正处在一个 拐点（Inflection Point），进化驱动的 LLM 系统将彻底革新科学发现。
他们希望通过 Shinka Evolve 的 样本高效 特性和 开源代码，让更多人能够接触和使用这一系统，让他们也能够 做出自己的科学发现，从而实现 AI 科学发现的民主化。

💬 精华片段（中文）

"What we try to do with Shinka Evolve was try to essentially cut down costs as well as sort of computation evaluation time... we showed that it's possible with very few program evaluations to basically improve upon, like, example, the circle packing canonical result..."

“我们尝试通过 Shinka Evolve 去做的是，从根本上削减成本以及计算评估时间……我们证明了，用极少数的程序评估，就可能改进……圆形填充的典范结果。”

[05:21] 进化、踏脚石和 LLM 的局限性

本节重点

LLM 为何不能“开箱即用”？答案在于进化需要“踏脚石”
真正的创新需要积累踏脚石（Stepping Stones），然后在其上构建
核心难题在于“问题本身”是给定的，系统无法自主产生新问题

详细精要

为何 LLM 需要多步优化？：
一个朴素的问题是：为什么先进模型（如 GPT-5 和 Grok 4）不能“开箱即用”地给出最佳答案？
从理论上讲，通过 足够多的随机采样（即无限猴子定理），它们可能达到目标。但关键问题在于效率。
答案在于 进化原理：需要先收集一系列的 踏脚石（Stepping Stones），然后才能在这些踏脚石之上进行构建，从而找到真正的创新或在后期进行调整。
踏脚石与验证的力量：
语言模型配合适当的 进化硬度，在规模化发现方面极其强大。
Lange 认为，Jeremy Howard 的工作、AlphaEvolve 论文，以及他们自己的 Darwin Gödel Machine 等工作都共同证明了这点。
关键在于 踏脚石的积累 加上 迭代验证，并从真实世界（或合成的评估器）中持续收集信息和证据。
“伟大不能被计划”的哲学：
这个理念源自 Kenneth Stanley 的著作 《为什么伟大不能被计划》。
Stanley 认为，设计 不收敛的系统 更好。因为自然进化会尝试各种不同事物，而伟大常常跟随一条 多样化 的路径。
这意味着必须去做一些 起初看起来很愚蠢 的事情，而这些事情后来被证明是极其有用的。当前算法可以允许存在一个“稍微怪异事物的种群”，然后我们再“锁定”并收敛一部分。
核心缺失：“问题”与“解决方案”的共同进化：
做完 Shinka Evolve 后，Lange 认为最关键的一点是 “问题”问题。
目前的系统（可能除了 AI 科学家）都是 问题已被给定的。评估器和正确性检查器都只针对那一个问题进行程序采样。
但真正的创新往往需要 首先发明一个不同的、不相关的问题。例如，为了解决一个问题，可能需要一个看似无关的踏脚石。
下一代系统的关键将不仅仅是 解决方案的开放式优化，而是 解决方案和问题本身的共同进化，以收集更多样化的踏脚石，开启一个真正开放式、甚至可以 运行数年 的过程。

💬 精华片段（中文）

"Oftentimes, innovation for a specific problem might require first inventing a different problem... automatically coming up with this reduction or like this, let's say, recursive nature of problem solving is something these systems right now not necessarily have built in intrinsically."

“针对特定问题的创新往往需要首先发明一个不同的问题……自动想出这种问题规约，或者说这种递归性质的问题解决方法，是当前这些系统在本质上不一定内置的能力。”

[09:03] 未知的未知与设计偏差

本节重点

ML 算法不擅长处理“未知的未知”，而这正是潜在的踏脚石
当前 LLM 的通病：只会给你“你所要求的”，而不会给你可能需要的“鸟”
POET 系统是解决方案与问题共同进化的典范，但仍存在人类设计的偏差

详细精要

未知的未知与机械推理：
Lange 引述了与 Joel Lehman 的对话，后者指出 ML 算法 不擅长处理未知的未知。
“未知的未知”正是那些未来可能被证明有用的 踏脚石。
当前的 LLM 和推理系统在一个 给定的具体任务 上表现极佳，但无法自主引入看似无关的知识。
“鸟在哪？”— 提示词的局限：
Lange 用一个形象的 Genie 图像生成模型 的例子说明：你给了一个详细的 prompt，比如瑞士湖泊、小船、山脉，系统生成了完美贴合描述的图像。
然后你才发现：“我忘了把‘鸟’放进提示词里了！”
这反映了当前系统的一个根本问题：我们如何构建能自主引入“有用但未知”元素（比如“鸟”）的系统？
POET 系统的启示与局限：
Lange 认为未来的系统可能类似 PowerPlay 或 POET（由 Jeff Clune 等人提出）的原理。
在 POET 中，存在一组任务和一个 解决方案生成器，两者在一个 自动课程（Auto-Curriculum） 式的游戏风格中共同进化。环境和智能体互相复杂化。
但是，即使是在 POET 中，也存在一种 设计偏差（Design Bias）：环境中复杂化的代码也是由人类编写的，那么它最终是否也只会“给你你所要求的”呢？
对此，Lange 的回应是：问题的关键在于，语言模型是否能做出人类在设计它们时 未曾想到 的“未知的未知”的发现。从原则上讲，这是可能的。虽然系统是人类设计的，但其内部可能涌现出人类未预料到的新发现。

[13:48] 算法设计与元学习中的权衡

本节重点

起始条件至关重要：从一个“贫瘠”的解决方案出发有更多的多样性空间
这是元学习中的经典权衡：开放式的潜力 vs. 归纳偏置的效率
理想未来：任何人都能使用 AI 系统解决问题，而非仅限于专家

详细精要

起始条件对多样性的影响：
在运行 Shinka Evolve 的实验中，团队发现了一个现象：如果给系统一个 已经过相当优化 的初始解决方案，它往往会陷入 局部最优解，无法引入太多新颖性。
相反，如果从一个 “贫瘠”（impoverished）的初始方案 出发，就会有 更大的多样性空间，这给予了优化过程更多的可能性。
元学习中的经典权衡：
这回归到了 Lange 之前的研究领域——元学习（Meta-Learning） 中的一个经典权衡。
权衡的一头：从一个非常 无约束、简单 的起点开始，但这需要 开放式过程和漫长的时间 来找到好的解决方案。
权衡的另一头：从一个已经被强归纳偏置（Inductive Biases）约束得很好的起点开始，这样在 收敛效率 上会高得多，但你将失去 开放式和巨大新颖性 所带来的好处。
人类设计偏差的反思：
Lange 提到，当前的系统高度依赖于专家的 深度理解 来设计初始方案。如果某个领域专家深刻理解一个问题，LLM 就能很好地辅助他。
同样，我们可以启动一个 Shinka Evolve 实例，并放入一个 “杠杆化了我的深刻理解” 的起始解决方案。
但最终目标是构建 并非由人类设计的系统，让 非专家 也能直接使用。一个非专家只需说“我想解决这个问题”，AI 系统就能自主完成剩下的工作。

[14:22] Shinka Evolve 的技术创新：群岛与自适应模型选择

本节重点

Shinka Evolve 使用“岛屿”隔离的种群来维持程序多样性
核心创新包括模型集成（Ensembling）和基于 UCB 的自适应模型选择
系统本身也在“进化”，其算法在优化程序的同时动态调整

详细精要

基于存档的进化机制：
Shinka Evolve 与 AlphaEvolve 类似，维护一个 程序存档（Archive），即一个程序数据库。
算法采样一些 父程序 和 灵感程序，然后要求一个 LLM 对程序进行改进。改进方式包括：提供代码编辑（diff）、重写整个程序、或进行 两个程序的交叉（Crossover）。
新程序被评估，评估证据被收集并加入数据库。这个过程不是顺序的，而是 同时对许多程序并行进行。每次添加程序时，系统都会尝试将该程序收集到的知识 扩散到整个数据库中。
思想树与创新的可扩展性：
可以将这个过程想象成一个 树（Tree），每个节点代表一个程序，从父节点产生分支。
这种方法是可扩展的，目标是 以更快的速率扩展，通过一系列创新来达成，其中之一是 模型集成（Model Ensembling）。
实践中，他们不仅使用 Gemini，而是使用几乎所有前沿模型提供商的模型。关键在于要分辨在特定情况下，是针对一个 GPT 模型 进行突变效果好，还是用一个 Gemini 模型 更好。
自适应模型选择的 UCB 算法：
这是一个“多臂老虎机”问题。简单地认为在 SWE-Bench 上最好的模型就是最好的突变提议模型，这在实践中 并非总是正确。在进化环境中，很难将长期的性能提升归功于某一步中的某一个模型。
解决方案是引入了一个 基于老虎机（Bandit）的方法 和 UCB（上置信界）算法。每个模型是老虎机的一个臂。
系统追踪每个模型在历史上多频繁地从父节点创造了性能提升，并动态调整选择该模型的 后验概率。它会首先探索所有“臂”，然后随时间推移，偏好那些在相似节点上产生过改进的模型。
“进化进化”的命名意涵：
Shinka Evolve（进化进化）这个名字的含义是，应用于程序优化的 这个进化算法本身也在共同进化。
这种 自适应优先级方案 使得进化算法可以在程序运行时 “动态” 进行调整。这超越了静态算法，是一个元进化过程。

💬 精华片段（中文）

"It's not clear if the performance gain you get from the second mutation actually originated from GPT 5... or from Sonnet 4.5."

“你从第二次突变中获得的性能提升，究竟是源自 GPT 5……还是源自 SONNET 4.5，这一点是根本不清楚的。”

[17:00] 全局洞察与语义理解

本节重点

通过“草稿本”提取全球洞察和元建议，尝试在进化中引入语义
知识扩散与隔离之间的权衡：有时需要广泛的共享，有时则需要“硬岛屿”
程序进化与指令进化的对比：ARC-AGI 的不同版本需要不同的策略

详细精要

在进化中注入“语义”的努力：
Lange 的团队在 Shinka Evolve 中引入了一个 “草稿本”（Scratchpad） 机制。每个生成的程序都会被总结。
基于所有程序的摘要，系统会提取一组 全局洞察（Global Insights）。
然后，系统会根据这些洞察构建 “元建议”（Meta-Recommendations），这些建议会成为系统提示词（System Prompt）的一部分。这是一种在进化中尝试“语义地”抓住某些发现的方法。
知识扩散与隔离的权衡：
将全局洞察通过系统提示词注入，本质上是在 整棵进化树上扩散知识。
然而，有时你希望知识是 更加隔离的。对于问题而言，这是一个需要在频谱上找到正确位置的权衡：是希望知识在种群中高度扩散，还是希望维持一些“硬性孤岛”程序以保持极端多样性。这种最优设置高度依赖于具体问题。
程序进化 vs. 指令进化：
这引向了与 Jeremy Howard 解决 ARC-AGI 的方法 的对比。Jeremy 的方法是在 指令空间 中进行解决方案的进化，而不是程序空间。
Lange 认为这两种方法都很重要，并且 Shinka Evolve 的草稿本尝试同时做这两件事，但这 因问题而异。
在 ARC-AGI 1 上，程序式的方向非常有效，因为它是确定性的，易于在进化中获得清晰的改进信号。
而在 ARC-AGI 2 上，语义层面的进化 似乎更有效。
理想的未来系统是能够 自动判断：在某问题设定下，是采用“程序式方法”更可行、更容易启动，还是采用“语义式进化指令”的方法更优。

[27:06] 软件范式变迁与 LLM 黑箱

本节重点

软件工程范式的演变：人类设计算法 -> 训练神经网络 -> LLM 设计算法
尽管 LLM 是黑箱，但其输出（代码、指令）是可解释的
我们正处于探索如何为这种新范式设计“用户界面”的起点

详细精要

计算机科学范式的三次变迁：
Software 1.0：一个漫长的时期，算法完全由 人类设计。
Software 2.0（如 Andrej Karpathy 所描述）：我们训练神经网络来执行特定功能。
现在：我们正在进入一个新范式，即使用 LLM 来设计算法，或者更广义地说，设计解决方案。
尽管像 GPT-5 这样的前沿大模型本身是极度的 “黑箱”，很难获得完整的机械解释，但它们的 输出（程序、指令等）是可解释的。这为做研究或做任何事情开辟了一种全新的范式。
寻找正确的“用户界面”：
我们目前正处在这个新范式的 起步阶段，仍在摸索正确的 用户界面（UI）。
当前主流的 聊天助手界面，大多数时候本质上是 单线程（Single-Threaded） 的。我们坐在电脑前，以串行的方式交互，看到代码编辑器的变化，然后选择接受或拒绝。
他认为，这种交互模式本身也只是一个“踏脚石”。
分布式“氛围”工作流的未来：
未来的研究范式将是 分布式的，从 “氛围聊天” 走向 “氛围优化” 或 “氛围研究”。
他描绘的理想场景是，研究者白天和一个类似 Shinka 或 AI 科学家 的系统 协同工作，像牧羊人一样 “驾驶轮船”。
晚上，你点击“开始”，然后去睡觉。在后台，多个实验自动并行运行，新的实验由 LLM 自动提出，证据被不断积累。早上醒来，你面对的是一个多线程的系统，你的角色更多是 分析和决策，而不是执行。

[37:50] 验证瓶颈与内在规律

本节重点

当前系统的瓶颈在于“硬验证”，生成解决方案远比验证它们容易
语言模型存在奖励攻击和走捷径的风险，需要更好的验证
世界的内在规律和抽象构建块可能已经隐含在 LLM 之中

详细精要

验证瓶颈：
一个巨大的问题是验证。生成大量解决方案远比 硬性地验证它们 要容易得多。
语言模型可以做一些“软验证”，比如查看代码、在大脑里运行一遍堆栈跟踪。但这是 不精确的。
关键挑战是如何设计验证器，以防止奖励攻击和 走捷径而非做出真正的发现。
对世界内在规律的猜想：
一个迷人的想法是：世界上存在 自然的、固有的模式，构成新颖解决方案的积木可能已经存在。
这可能是因为这些积木反映了 宇宙中的自然规律。
奥卡姆剃刀（Occam's Razor） 原则或许适用于所有事物，从语言到科学。这些“人工制品”现在进入了当前的语言模型，可能它们已经以某种方式捕获了这些规律。
然而，这同时也可能是一个 归纳偏置，可能导致模型陷入 局部最优解。但像 Shinka 这样的进化突变方法，最终可能会帮助系统跳出这些局部最优。

[40:02] 适应性、冻结模型与 ARC 挑战

本节重点

智能的本质在于适应新颖性，Shinka Evolve 等系统结合了基础模型与适应性
与 Jeremy Howard 的观点对话：效率提升是否能通过“开放式结局”转化为性能提升
对 ARC 挑战的展望：ARC 的价值在于极低的数据污染，考验从抽象构建块合成模型的能力

详细精要

结合基础模型与适应性的力量：
适应性（Adaptivity）是智能的核心（如 François Chollet 所定义）。自从我们有了能在推理时进行适应的模型（如测试时微调、推理模型），ARC 上的性能才开始非平凡地提升。
然而，让巨型基础模型在本身进行适应是 极其昂贵 的。所以一个实用方案是像 Shinka Evolve 这样，利用冻结的基础模型，但赋予其适应性。
这种适应性使系统能够 对新颖性做出反应，并以有原则的树状结构创造和合成新的构建块，从而实现“鱼与熊掌兼得”。
回应 Jeremy Howard 的怀疑论：
Lange 注意到 Jeremy Howard 对 Shinka 的效用持保留态度，认为其提升的性能百分比有限，主要是能提高效率。
Lange 的回应是，一旦你让系统变得极其高效和廉价，你就可以再次将它规模化。如果一个更便宜的系统能跑出更多代，根据 开放式结局的本质，你很可能会获得一些性能上的提升。关键在于，只要 ARC 任务中的训练示例能为最终测试提供好的信号，你就应该能不断进步。
ARC 挑战的真正价值：
不同于很多已经被 数据集污染 的编程竞赛题，ARC 的核心价值在于其问题是新颖的，需要的 构建块在认知树中的位置非常低。
解决它们需要从 极抽象的构建块 开始，通过组合来合成一个新的心理模型，这正是 智能的本质。
虽然 ARC V2 和 V3 对人类来说也越来越难，但因为它迫使模型进行 适应性推理 而非模式匹配，它是一个极其重要的基准。这使得构建“智能”的自适应系统成为可能。

💬 精华片段（中文）

"We are having our cake and eating it... We can build systems like Shinka Evolve that leverage the best of both worlds. They leverage frozen foundation models, but they give you adaptivity."

“我们在鱼与熊掌兼得……我们可以构建像 Shinka Evolve 这样的系统，它们利用了两边的精华。它们利用冻结的基础模型，但赋予了系统适应性。”

[46:08] AI 对劳动力市场与社会的影响

本节重点

模型能力、模型脚手架和用户界面三点均有待突破，并非只有“投入更多算力”一条路
AI 将首先自动化某些工作维度，但同时会开启新的、需由人类填补的维度
AI 将放大人类的潜在才能，但互动模式的变化可能带来“自动驾驶”式的问题

详细精要

性能突破的三大支柱：
Lange 认为，我们远未达到收敛状态。无论是模型能力、模型脚手架，还是用户界面，这三个方面都 没有达到上限，我们在这三个方面都还有很大的发展空间。这与硅谷“仅是增加算力”的单一理念不同。
自动化与人类适应的辩证关系：
在“我目前做的工作”被完全自动化之前，其工作中的 某些维度 会首先被 AI 影响。
关键问题是，是否会开启新的维度，而这些维度由我们人类来填充？Lange 对此持乐观态度。
就像之前的 IT 系统管理员 将自己重塑为薪资翻倍的 云/DevOps 工程师 一样，人类极具 适应性（Adaptive），总能找到新的趋势并加入进去，在新的基础上增加价值。
AI 作为人类潜能的“放大器”：
Lange 再次强调，他 不担心 颠覆，是因为他相信 人类是深度理解和创造力的源泉。
AI 将作为一个 放大器，放大人类本就擅长的那部分潜在维度。他设想的人类与 AI 是 “牧羊人” 的关系，人类掌舵，但生产力被极大地增强。
“自动驾驶”模式的隐忧：
存在一种危险，即人类在编程 AI 辅助工具（如 Cursor）中变得过于依赖，自动接受一切，就像汽车的 强自动驾驶 会让人完全“关机”一样。
你的思维过程开始变得“寄生”于 AI 的思维链条，导致思维的路径依赖，你失去了对心智的主导权。Lange 甚至将它们比作 “药物”，一旦超出预算就无法工作。他强调，这是一个我们必须适应的非平衡态，需要保持自觉，区分何时可以自动接受，何时必须深度学习。

[46:50] Shinka Evolve 的多领域应用

本节重点

ADAS：用Shinka进化出更优的智能体脚手架，性能超越模型本身限制
ALE Bench：Shinka作为“共同科学家”，优化竞赛方案，取得第二名水平
MoE损失函数设计：展示了Shinka不仅能找到最佳点，还能照亮整个“帕累托前沿”

详细精要

应用一：自动智能体脚手架设计（ADAS）：
他们使用了 ADAS（自动智能体系统设计） 框架。具体的任务是在 AIME（数学竞赛） 上，用 Shinka 进化出一个智能体，即用智能体进化智能体。
结果令人印象深刻：对于像 GPT-4.1 Nano 这样非常便宜的模型，由 Shinka 进化出的智能体脚手架能够 大幅提升其性能。更重要的是，这个脚手架还能 泛化到其他语言模型或不同年份的 AIME 试题。
应用二：作为“共同科学家”的竞赛编程（ALE Bench）：
ALE Bench 是一个启发式编程竞赛，由日本知名的 AtCoder 竞赛组织策划。Sakana 的同事，包括论文合著者 Yuki，在此方面有前期工作。
团队获取了由 ALE 智能体 获得的初步解决方案，然后在这个基础上用 Shinka 进行优化。
结果表明，Shinka 可以作为 “共同科学家”（Co-scientist） 发挥作用。如果将这个智能体和 Shinka 的组合提交到那场竞赛，它将获得 第二名。
应用三：MoE 损失函数的探索：
在 Sakana 之前的工作 DiscoPOP 中，他们曾用 LLM 为偏好优化和训练后设计目标函数。这次，他们将 Shinka 应用于为 混合专家模型设计负载均衡损失函数。
结果显示，在仅仅 20 代 之内，系统就不仅仅找到了一个单一的目标函数，而是探索到了一个权衡了模型性能和负载均衡的 “凸包” 空间，照亮了整个 帕累托前沿。这意味着 Shinka 不仅能找到“最佳”方案，还能发现一个包含各种潜在权衡的解决方案空间。

[52:12] AI 科学家 v2 与科学发现的未来

本节重点

AI 科学家 v2 的核心是从“线性计划”转向“智能体树搜索”，反映真正的科学方法
已有论文在无元审查的情况下达到ICLR Workshop接收门槛，是“GPT-1时刻”
论文仍可能只是“表面上像论文”，缺乏深度理解，但可随着模型进步而改变
科学传播的未来可能不是LaTeX论文，而是可交互、可执行的模型上下文协议

详细精要

从 v1 模板到 v2 智能体树搜索的演进：
AI 科学家 v1 是基于模板的：一个基础实验，LLM 提出想法，进行代码 diffs，然后线性地执行实验，最后写论文。如果某个想法失败，它也会被写入一篇关于“失败实验”的论文。
AI 科学家 v2 的核心变革是引入了 可并行的智能体树搜索。这模仿了真正的人类科学方法，即 卡尔·波普尔（Karl Popper）的证伪主义：先收集实验证据，然后 决定下一步要执行什么，拒绝被证伪的假设，在一个循环中不断调整方向。
现在，实验模板不再需要，由 LLM 自己起草。这使其可应用于更多样的领域。技术改进还包括使用 VLM（视觉语言模型）审核员 来校对图表与标题的一致性。
AI 科学家的“GPT-1 时刻”：
在 v2 中，他们提交了一篇论文到一个 ICLR Workshop，这篇论文在 最终元审查之前 就已达到了接收的阈值。
Lange 承认，并非每篇 AI 科学家生成的论文都能达到这个水准，但这是首次看到，通过全自动地投入算力和 API 调用，能够获得 一定程度的科学洞察。这是该方向的“GPT-1 时刻”，可能在 10 年后看起来会完全不同。
对“深度理解”的质疑：
一个重要的批评是，这些 AI 生成的论文可能只是“看起来像论文”（Slop），它们缺乏经得起深究的 深度理解，没有产生像 残差连接 那样能渗透整个领域的真正发现。
Lange 同意目前远非完美，但认为关键在于，这些系统 确实有一个硬验证器在循环中，而且它们需要 更好的跨实验知识整合能力，以形成更强有力的下一步假设。这可能需要通过“后训练”来实现。
科学传播的未来：超越PDF：
Lange 认为论文写作是对人类有用的“形态因素”，但可能不是最终的 知识传播媒介。
他畅想一个未来，每篇论文都配备一个 模型上下文协议。这样，论文中的每一个图表都是可复现的，数据是可访问的。
这将使 LLM 智能体 能够更容易地复现工作，或在他人的基础上直接进行消融实验和改进。尽管 PDF 文化非常顽固，但如果未来证实这种新格式能让 AI 驱动的科学发现快得多，那它就可能实现。

💬 精华片段（中文）

"We're at the GPT-1 moment of making this sort of a reality... The paper writing part is actually the least important about the AI Scientist... It's a form factor that we humans are sort of used to."

“我们正处于将这种愿景变为现实的 GPT-1 时刻……对 AI 科学家而言，论文写作部分实际是最不重要的……它只是一个我们人类所习惯的形态因素。”

专业术语注释

术语	解释
Shinka Evolve	（进化进化）Robert Lange 的论文，一个结合了LLM和进化算法、以极高样本效率进行程序发现和优化的系统。
Sakana AI	一家位于日本的AI创业公司，由David Ha等人创立，研究方向基于“开放式结局”的探索性想法。
Open-Endedness	开放式结局，由Ken Stanley提出的概念，即设计不设定最终目标的探索过程，通过积累多样化的“踏脚石”来产生伟大的创新。
Stepping Stones	踏脚石，指在最终达到伟大创新之前，所必须积累的一系列看似无关或低价值的中间步骤或发现。
AlphaEvolve	Google DeepMind的项目，使用LLM和进化算法发现和优化算法，是Shinka Evolve的灵感来源之一。
Circle Packing	圆形填充问题，一个经典的优化问题，目标是在一个正方形内放入若干个圆，使圆的半径之和最大化，且圆之间不重叠。
Sample Efficiency	样本效率，在本文中指在进化搜索中，达成目标性能所需的生成和评估程序的总次数。效率越高，所需的计算和时间成本越低。
UCB (Upper Confidence Bound)	上置信界算法，一种用于解决多臂老虎机（探索-利用权衡）问题的算法，在Shinka Evolve中被用来动态选择最适合当前程序进行突变的前沿LLM。
Crossover	交叉，进化算法中的一种操作，通过结合两个“父母”程序的特性来产生新的“后代”程序。
Diffusion of Knowledge	知识扩散，在Shinka Evolve的树状搜索中，指将一个程序获得的正面经验（通过“草稿本”和“元建议”）分享给种群中其他程序的过程。
Problem Problem	“问题”问题，指当前AI发现系统的一个核心局限：它们只能解决被给出的固定问题，而无法像人类一样为了达成某个目标而自主发明新的、中间的、或替代性的问题。
POET (Paired Open-Ended Trailblazer)	一种由Jeff Clune等人提出的算法，创造了一个环境和智能体共同进化的生态系统，两者相互“复杂化”，形成一个自动课程。
ARC-AGI	Abstraction and Reasoning Corpus，由François Chollet设计的衡量AGI智能的基准测试，要求AI从极少的示例中学习抽象规则，极度考验对新问题的泛化能力。
Design Bias	设计偏差，指系统设计者预先设定的规则和结构对系统所能探索和发现的结果空间产生的内在限制。
Meta-Learning	元学习，又名“学会学习”，指设计模型使其能够通过经验来改进自身的学习算法或进行快速适应的机器学习范式。
Inductive Bias	归纳偏置，指学习算法为能从有限样本中泛化所做的一组假设。更强的偏置可以带来更快的收敛，但可能限制最终发现的多样性。
AI Scientist	Sakana AI的项目，旨在创建一个能够全自动进行科学研究（从产生想法、执行实验、到撰写论文）的AI智能体系统。v2版本引入了智能体树搜索。
Slop	网络用语，原指低质量的AI生成内容。在本集中，特指那些“表面上看起来像科学论文”，但实际上缺乏深度、可验证的科学洞察和原理性发现的产出。
Rubicon Moment	卢比孔时刻，指越过之后就再也无法回头的关键点。这里指AI自主发现了类似“新的Transformer架构”这种划时代的重大创新，引发范式转移的时刻。

延伸思考

“验证瓶颈”与数学的“自我验证”：Lange提到验证是核心难题。那么在数学和形式逻辑等领域，验证是绝对和确定的。由AI驱动的进化系统，在Pure Math领域的闭环中，是否会因为拥有“绝对真理”的验证器，而最先达成重大突破？
从“寻找答案”到“照亮帕累托前沿”的范式转变：Shinka在MoE损失函数设计中不仅找到最优，还照亮了探索空间。这是否意味着科学工具的终极形态不是提供“答案”，而是提供一张高维的“可能性地图”，将最终的权衡决断权交还给人类专家？
“设计偏差”的悖论：Lange一方面承认人类设计的起点会带来设计偏差，另一方面又倡导像POET一样的系统。如果POET的环境生成器本身也是由人类设计的，我们是否只是在制造一个永远无法摆脱自身影子的递归循环？是否存在一种元算法，可以让系统自主修改自己的“环境生成规则”或“目标函数”？
专业知识的价值体现在新范式中：当一个“非专家”可以用自然语言启动像Shinka Evolve这样的黑箱系统解决一个他完全不懂的工程问题时，他算“解决”了这个问题吗？当解决方案是一个人类专家无法理解的黑箱时，我们如何评估其安全性、鲁棒性和潜在的伦理风险？
经济激励与人类的定位：Lange展望了一个全民参与、分布式解决问题、自动发现“踏脚石”的未来。在这种未来中，人类的核心价值和对应的经济激励模式将是什么？是“提供有远见的初始prompt”，还是“评估AI产出的美感和直觉”，亦或是某种我们现在还无法定义的新工种？

原文发表：Mar 13, 2026 · 纪要生成：2026-06-29