来源: YouTube (MLST) | Robert Lange | Mar 13, 2026 分类: 其他 原文发表: Mar 13, 2026 纪要生成: 2026-06-29
Robert Lange 是日本 AI 初创公司 Sakana AI 的创始研究员之一。Sakana AI 致力于探索以 Kenneth Stanley 的“开放式结局”思想为核心的新颖研究路径,并专注于日本市场。Lange 的 PhD 研究深受 Sakana 联合创始人 David Ha 在超网络和进化优化方面工作的影响。在本集中,Lange 深入探讨了其最新论文 Shinka Evolve(进化进化),这是一种利用大语言模型和进化算法以极高效率进行程序发现和优化的系统,并将其与 AlphaEvolve、Jeremy Howard 的 ARC 解决方案,以及 Sakana 的 AI 科学家 项目进行了比较和展望。
本节重点
详细精要
最终发表的论文仅仅是 报告通过这棵树的一条路径,而非展示探索的全貌。
LLM 自主探索的停滞性:
即使引入 环境反馈,系统似乎仍然严重依赖于其 起始条件,无法自发产生新的探索方向。
创新与问题发明的关联:
💬 精华片段(中文)
"Oftentimes innovation for a specific problem might require first inventing a different problem..."
“针对特定问题的创新往往需要首先发明一个不同的问题……”
本节重点
详细精要
公司成立已有大约 1年零3个季度,Lange 是创始研究员之一。回顾早期,公司在组织形态上发生了巨大变化,但精神内核未变。
拥抱“开放式结局”:
Lange 提到公司 CEO David Ha,并将其与 Jeff Clune 和 Ken Stanley 等视作同一级别的思想领袖。
David Ha 的学术影响:
本节重点
详细精要
与市场上其他方法相比,Shinka Evolve 引入了多项技术创新,实现了更复杂的优化过程。
核心瓶颈:样本效率:
Shinka Evolve 的核心目标是 削减成本 和 减少计算评估时间,通过引入一系列技术创新来实现。
显著成果与民主化目标:
💬 精华片段(中文)
"What we try to do with Shinka Evolve was try to essentially cut down costs as well as sort of computation evaluation time... we showed that it's possible with very few program evaluations to basically improve upon, like, example, the circle packing canonical result..."
“我们尝试通过 Shinka Evolve 去做的是,从根本上削减成本以及计算评估时间……我们证明了,用极少数的程序评估,就可能改进……圆形填充的典范结果。”
本节重点
详细精要
答案在于 进化原理:需要先收集一系列的 踏脚石(Stepping Stones),然后才能在这些踏脚石之上进行构建,从而找到真正的创新或在后期进行调整。
踏脚石与验证的力量:
关键在于 踏脚石的积累 加上 迭代验证,并从真实世界(或合成的评估器)中持续收集信息和证据。
“伟大不能被计划”的哲学:
这意味着必须去做一些 起初看起来很愚蠢 的事情,而这些事情后来被证明是极其有用的。当前算法可以允许存在一个“稍微怪异事物的种群”,然后我们再“锁定”并收敛一部分。
核心缺失:“问题”与“解决方案”的共同进化:
💬 精华片段(中文)
"Oftentimes, innovation for a specific problem might require first inventing a different problem... automatically coming up with this reduction or like this, let's say, recursive nature of problem solving is something these systems right now not necessarily have built in intrinsically."
“针对特定问题的创新往往需要首先发明一个不同的问题……自动想出这种问题规约,或者说这种递归性质的问题解决方法,是当前这些系统在本质上不一定内置的能力。”
本节重点
详细精要
当前的 LLM 和推理系统在一个 给定的具体任务 上表现极佳,但无法自主引入看似无关的知识。
“鸟在哪?”— 提示词的局限:
这反映了当前系统的一个根本问题:我们如何构建能自主引入“有用但未知”元素(比如“鸟”)的系统?
POET 系统的启示与局限:
本节重点
详细精要
相反,如果从一个 “贫瘠”(impoverished)的初始方案 出发,就会有 更大的多样性空间,这给予了优化过程更多的可能性。
元学习中的经典权衡:
权衡的另一头:从一个已经被强归纳偏置(Inductive Biases)约束得很好的起点开始,这样在 收敛效率 上会高得多,但你将失去 开放式和巨大新颖性 所带来的好处。
人类设计偏差的反思:
本节重点
详细精要
新程序被评估,评估证据被收集并加入数据库。这个过程不是顺序的,而是 同时对许多程序并行进行。每次添加程序时,系统都会尝试将该程序收集到的知识 扩散到整个数据库中。
思想树与创新的可扩展性:
实践中,他们不仅使用 Gemini,而是使用几乎所有前沿模型提供商的模型。关键在于要分辨在特定情况下,是针对一个 GPT 模型 进行突变效果好,还是用一个 Gemini 模型 更好。
自适应模型选择的 UCB 算法:
系统追踪每个模型在历史上多频繁地从父节点创造了性能提升,并动态调整选择该模型的 后验概率。它会首先探索所有“臂”,然后随时间推移,偏好那些在相似节点上产生过改进的模型。
“进化进化”的命名意涵:
💬 精华片段(中文)
"It's not clear if the performance gain you get from the second mutation actually originated from GPT 5... or from Sonnet 4.5."
“你从第二次突变中获得的性能提升,究竟是源自 GPT 5……还是源自 SONNET 4.5,这一点是根本不清楚的。”
本节重点
详细精要
然后,系统会根据这些洞察构建 “元建议”(Meta-Recommendations),这些建议会成为系统提示词(System Prompt)的一部分。这是一种在进化中尝试“语义地”抓住某些发现的方法。
知识扩散与隔离的权衡:
然而,有时你希望知识是 更加隔离的。对于问题而言,这是一个需要在频谱上找到正确位置的 权衡:是希望知识在种群中高度扩散,还是希望维持一些“硬性孤岛”程序以保持极端多样性。这种最优设置高度依赖于具体问题。
程序进化 vs. 指令进化:
本节重点
详细精要
尽管像 GPT-5 这样的前沿大模型本身是极度的 “黑箱”,很难获得完整的机械解释,但它们的 输出(程序、指令等)是可解释的。这为做研究或做任何事情开辟了一种全新的范式。
寻找正确的“用户界面”:
他认为,这种交互模式本身也只是一个“踏脚石”。
分布式“氛围”工作流的未来:
本节重点
详细精要
关键挑战是如何设计验证器,以防止奖励攻击和 走捷径而非做出真正的发现。
对世界内在规律的猜想:
本节重点
详细精要
这种适应性使系统能够 对新颖性做出反应,并以有原则的树状结构创造和合成新的构建块,从而实现“鱼与熊掌兼得”。
回应 Jeremy Howard 的怀疑论:
Lange 的回应是,一旦你让系统变得极其高效和廉价,你就可以再次将它规模化。如果一个更便宜的系统能跑出更多代,根据 开放式结局的本质,你很可能会获得一些性能上的提升。关键在于,只要 ARC 任务中的训练示例能为最终测试提供好的信号,你就应该能不断进步。
ARC 挑战的真正价值:
💬 精华片段(中文)
"We are having our cake and eating it... We can build systems like Shinka Evolve that leverage the best of both worlds. They leverage frozen foundation models, but they give you adaptivity."
“我们在鱼与熊掌兼得……我们可以构建像 Shinka Evolve 这样的系统,它们利用了两边的精华。它们利用冻结的基础模型,但赋予了系统适应性。”
本节重点
详细精要
Lange 认为,我们远未达到收敛状态。无论是模型能力、模型脚手架,还是用户界面,这三个方面都 没有达到上限,我们在这三个方面都还有很大的发展空间。这与硅谷“仅是增加算力”的单一理念不同。
自动化与人类适应的辩证关系:
就像之前的 IT 系统管理员 将自己重塑为薪资翻倍的 云/DevOps 工程师 一样,人类极具 适应性(Adaptive),总能找到新的趋势并加入进去,在新的基础上增加价值。
AI 作为人类潜能的“放大器”:
AI 将作为一个 放大器,放大人类本就擅长的那部分潜在维度。他设想的人类与 AI 是 “牧羊人” 的关系,人类掌舵,但生产力被极大地增强。
“自动驾驶”模式的隐忧:
本节重点
详细精要
结果令人印象深刻:对于像 GPT-4.1 Nano 这样非常便宜的模型,由 Shinka 进化出的智能体脚手架能够 大幅提升其性能。更重要的是,这个脚手架还能 泛化到其他语言模型或不同年份的 AIME 试题。
应用二:作为“共同科学家”的竞赛编程(ALE Bench):
结果表明,Shinka 可以作为 “共同科学家”(Co-scientist) 发挥作用。如果将这个智能体和 Shinka 的组合提交到那场竞赛,它将获得 第二名。
应用三:MoE 损失函数的探索:
本节重点
详细精要
现在,实验模板不再需要,由 LLM 自己起草。这使其可应用于更多样的领域。技术改进还包括使用 VLM(视觉语言模型)审核员 来校对图表与标题的一致性。
AI 科学家的“GPT-1 时刻”:
Lange 承认,并非每篇 AI 科学家生成的论文都能达到这个水准,但这是首次看到,通过全自动地投入算力和 API 调用,能够获得 一定程度的科学洞察。这是该方向的“GPT-1 时刻”,可能在 10 年后看起来会完全不同。
对“深度理解”的质疑:
Lange 同意目前远非完美,但认为关键在于,这些系统 确实有一个硬验证器在循环中,而且它们需要 更好的跨实验知识整合能力,以形成更强有力的下一步假设。这可能需要通过“后训练”来实现。
科学传播的未来:超越PDF:
💬 精华片段(中文)
"We're at the GPT-1 moment of making this sort of a reality... The paper writing part is actually the least important about the AI Scientist... It's a form factor that we humans are sort of used to."
“我们正处于将这种愿景变为现实的 GPT-1 时刻……对 AI 科学家而言,论文写作部分实际是最不重要的……它只是一个我们人类所习惯的形态因素。”
| 术语 | 解释 |
|---|---|
| Shinka Evolve | (进化进化)Robert Lange 的论文,一个结合了LLM和进化算法、以极高样本效率进行程序发现和优化的系统。 |
| Sakana AI | 一家位于日本的AI创业公司,由David Ha等人创立,研究方向基于“开放式结局”的探索性想法。 |
| Open-Endedness | 开放式结局,由Ken Stanley提出的概念,即设计不设定最终目标的探索过程,通过积累多样化的“踏脚石”来产生伟大的创新。 |
| Stepping Stones | 踏脚石,指在最终达到伟大创新之前,所必须积累的一系列看似无关或低价值的中间步骤或发现。 |
| AlphaEvolve | Google DeepMind的项目,使用LLM和进化算法发现和优化算法,是Shinka Evolve的灵感来源之一。 |
| Circle Packing | 圆形填充问题,一个经典的优化问题,目标是在一个正方形内放入若干个圆,使圆的半径之和最大化,且圆之间不重叠。 |
| Sample Efficiency | 样本效率,在本文中指在进化搜索中,达成目标性能所需的生成和评估程序的总次数。效率越高,所需的计算和时间成本越低。 |
| UCB (Upper Confidence Bound) | 上置信界算法,一种用于解决多臂老虎机(探索-利用权衡)问题的算法,在Shinka Evolve中被用来动态选择最适合当前程序进行突变的前沿LLM。 |
| Crossover | 交叉,进化算法中的一种操作,通过结合两个“父母”程序的特性来产生新的“后代”程序。 |
| Diffusion of Knowledge | 知识扩散,在Shinka Evolve的树状搜索中,指将一个程序获得的正面经验(通过“草稿本”和“元建议”)分享给种群中其他程序的过程。 |
| Problem Problem | “问题”问题,指当前AI发现系统的一个核心局限:它们只能解决被给出的固定问题,而无法像人类一样为了达成某个目标而自主发明新的、中间的、或替代性的问题。 |
| POET (Paired Open-Ended Trailblazer) | 一种由Jeff Clune等人提出的算法,创造了一个环境和智能体共同进化的生态系统,两者相互“复杂化”,形成一个自动课程。 |
| ARC-AGI | Abstraction and Reasoning Corpus,由François Chollet设计的衡量AGI智能的基准测试,要求AI从极少的示例中学习抽象规则,极度考验对新问题的泛化能力。 |
| Design Bias | 设计偏差,指系统设计者预先设定的规则和结构对系统所能探索和发现的结果空间产生的内在限制。 |
| Meta-Learning | 元学习,又名“学会学习”,指设计模型使其能够通过经验来改进自身的学习算法或进行快速适应的机器学习范式。 |
| Inductive Bias | 归纳偏置,指学习算法为能从有限样本中泛化所做的一组假设。更强的偏置可以带来更快的收敛,但可能限制最终发现的多样性。 |
| AI Scientist | Sakana AI的项目,旨在创建一个能够全自动进行科学研究(从产生想法、执行实验、到撰写论文)的AI智能体系统。v2版本引入了智能体树搜索。 |
| Slop | 网络用语,原指低质量的AI生成内容。在本集中,特指那些“表面上看起来像科学论文”,但实际上缺乏深度、可验证的科学洞察和原理性发现的产出。 |
| Rubicon Moment | 卢比孔时刻,指越过之后就再也无法回头的关键点。这里指AI自主发现了类似“新的Transformer架构”这种划时代的重大创新,引发范式转移的时刻。 |