YC 论文俱乐部：LLM 自我博弈、生物学 AI、形式验证与更多前沿探讨

来源： YouTube (YC Paper Club) | 多位嘉宾 | Jun 12, 2026 分类： 其他 原文发表： Jun 12, 2026 纪要生成： 2026-06-19

全集重点

从人类数据到自我博弈的范式转移：单纯扩展人类标注数据（子空间 H）无法让模型超越人类水平，而 AlphaZero 式自我博弈是探索完整解空间、迈向更高智能系统的关键路径
“苦涩的教训”在生物学中同样上演：在蛋白质建模领域，依赖海量数据和大规模无监督预训练的通用模型，正逐步逼近甚至在某些任务上超越依赖专家手工设计特征（如 MSA）的专用模型
流式 RAG 是语音 AI 落地的核心挑战：为降低语音助手的响应延迟，需在用户提问过程中动态触发检索，其核心难题在于“何时触发检索”以及“如何判断当前部分信息已足够”
形式验证语言 Lean 开启“可验证智能”新纪元：Lean 不仅是定理证明器，更是一门可用于编写神经网络、验证代码正确性的编程语言，为构建可靠、可解释的 AI 系统提供基石
编程范式转向“宏观优先”的实时策略思维：在智能体辅助编程时代，开发者应像 RTS 游戏高手一样，追求高并行度与操作频率，通过“宏观管理”而非“微观精调”来最大化整体产出

嘉宾/话题简介

本集 YC 论文俱乐部活动由 François 主持，邀请了多位背景各异的青年研究员和创业者，围绕 AI 在生物学、数学、语音及工程实践等多个应用领域的前沿进展进行分享。Yas Beg 是一位关注生物学的博士研究员，他讨论了“苦涩的教训”在蛋白质建模领域的体现；Luke Bailey 是聚焦于 LLM 自我博弈（Self-Play）的博士生，介绍了其论文《Scaling Self-Play with Self-Guidance》；Arnab Matei 来自高速成长的 YC 公司 Giga，探讨了语音 AI 中的流式 RAG 技术挑战；Robert George 是来自 Caltech 的博士生，展望了以 Lean 语言为核心的可验证智能时代；最后，Luke Orthwine 以 channel AI CEO 的身份，分享了其以实时策略游戏思维颠覆传统软件工程流程的实践经验。

分节详述

00:00 开幕介绍与前沿观点分享

本节重点

自我博弈是关键：主持人 François 强调，依赖有限人类解空间（H）的模型，即便投入无限测试时计算，也难以有效探索完整解空间（F - H），因此类 AlphaZero 的自我博弈是通往更强智能的必经之路
“每样本智能”是未解难题：当前模型的上下文学习（ICL）等在线学习方式，其性能并非随样本量单调提升且受上下文长度限制，这与人类持续精进的方式不同，亟需新的学习范式
“每瓦特智能”与替代学习算法：从能效角度看，小型模型有时更具优势；同时，大脑学习无需反向传播，探索如 SPSA 等替代性学习程序是重要方向
俱乐部征集方向：对记忆机制、测试时计算与递归自我改进、新颖突破（如生物启发导航、机器人技术）及非主流创始人技巧等话题保持兴趣，并寻求优化俱乐部的建议

详细精要

自我博弈与解空间探索：François 分享了他对 Noam Brown 播客观点的困惑。Noam 认为，基于人类生成的典型子空间 H 进行训练，结合足够的测试时计算和递归自我改进，可以最终触及 F - H 的完整解空间。François 则坚持认为这在有限资源下不可行。
他将此比喻为 AlphaGo（左侧，依赖人类数据）与 AlphaZero（右侧，无人类数据自我博弈）的路径差异。
核心论断：如果完整解空间是 F，在已知人类解上训练，会把你限制在一个典型集合 H 中。即便使用任何可行量的测试时计算或递归自我改进，也不太可能充分采样到 F - H 的部分，尤其当后者是无限集时。考虑到现实是有限时域的马尔可夫决策过程（finite horizon MDP），资源并非无限，因此无偏的自我博弈才是正道。
“每样本智能”的挑战：François 提出了他认为当前 AI 剩下的两大问题：每样本智能和每瓦特智能。
他观察到，随着样本量增加，上下文学习（ICL）的性能并非单调提升，而是会波动甚至变差，直到撞上模型的上下文长度极限而彻底停滞。
相比之下，采用低秩 LoRA 微调在少量样本下表现出色，但同样会随样本量增加而过早饱和，其最优性能远逊于全量 SFT 和强化学习。
关键矛盾：这揭示了当前 AI 与人类学习模式的根本差异。人类（如棋手 Magnus Carlson）使用同一种算法，其能力随着经验（更多棋局/样本）增加而单调提升，而当前模型在不同学习阶段的“最优”策略竟是不同的，这暗示着必然存在一种更接近生物学习、具有更高“每样本智能”的学习过程。
“每瓦特智能”与替代学习算法：François 提及其实验室的 Ivonica 和 John 正在此方向探索，核心观点是，从能效角度出发，较小的模型有时可能是更好的选择。
他再次强调，大脑几乎不存在反向传播式的学习机制，因此必然存在其他替代性学习程序。他个人对同步扰动随机逼近算法（SPSA）高度感兴趣，并欢迎推荐其他他所不知的替代方案。

💬 精华片段（中文）

“如果完整解空间 F 是 F，那么在已知人类解上训练，会将你限制在某个典型集合 H 内。即便使用任何可行量的测试时计算或递归自我改进，你也不可能可行地采样到 F - H 的部分。” "If the full solution space f is f, training on known human solutions will limit you to some typical set h despite any feasible amount of test time compute or recursive self improvement. You won't feasibly sample f minus h."

05:47 AI for Biology: 苦涩的教训在蛋白质领域上演

本节重点

“苦涩的教训”主旋律：通过海量进化序列数据和简单掩码语言模型预训练，通用模型正学会蛋白质的语法、结构乃至功能，其能力随计算和数据规模呈对数线性增长
数据破墙：上一代模型 ESM2 面临性能瓶颈，而新一代 ESM-Cambrian 通过将训练数据从 5000 万 扩充至 28 亿条序列（主要来自宏基因组）打破了这一瓶颈，证明更多数据足以支撑更大规模的模型
通用逼近专用：在抗体设计等数据稀疏的关键任务上，纯无监督序列模型 ESM Fold 2 的表现持平甚至超越了依赖手工特征（多重序列比对 MSA）的专用模型 AlphaFold 3
可解释性涌现：模型的潜在空间自发组织出对应于真实生物学概念（如氨基酸、结构基序、蛋白质域）的单语义特征，并能构建出蛋白质的“谷歌地图”

详细精要

“苦涩的教训”在生物学中的映射：Yas 以 Richard Sutton 的经典文章为引，阐述了其核心思想——从 70 年 AI 发展中胜出的，是那些利用大规模计算和数据且能良好扩展的通用方法，而非依赖人类特定领域知识的手工系统。该论文（来自 Biohub）的核心赌注是，这一规律同样适用于蛋白质生物学。
他将自然语言处理中的概念映射到蛋白质领域：Token（词元） 变成 氨基酸（20种字母表），互联网 变成 进化序列数据库，掩码语言模型（MLM） 保持不变。
核心目标：仅通过“用进废退”（即“你将从其伙伴处认识一个词/一个蛋白质”）的序列共现模式，在大规模数据上训练模型，使其涌现出结构、功能等高级特性。
缩放法则（Scaling Laws）的验证：Yas 介绍了论文的第一个核心问题——蛋白质模型的缩放法则是否成立。
他们使用长距离接触预测精度（P@L） 作为衡量模型是否理解蛋白质三维结构的无监督指标。
实验显示，对于新的 ESM-Cambrian 模型家族（参数规模从 3亿、6亿到60亿），其 P@L 性能相对训练计算量，呈现出一条平滑的对数线性曲线。基于低成本训练跑估算的计算最优曲线甚至可以外推到真实训练跑，这与大语言模型中的缩放现象极其相似。
数据破墙：从 5000 万到 28 亿：一个有趣的转折是，该组此前的 ESM2 模型在增加参数时性能已经饱和，表现为一条平缓的曲线。
此次实现“破墙”、性能继续攀升的秘诀并非精巧的架构设计，而在于数据量的暴力扩展。他们将训练数据量从之前的 5000万 条蛋白序列，提升到了 28亿，这些新增数据主要来源于宏基因组——即从泥土、海洋、人类肠道等环境DNA直接测序，无需培养生物体。
结论：更多的数据证明了继续扩大算力的价值。与人类过去30年生产的文本数据相比，生物学中，进化已经进行了 40亿年的数据生成，目前我们对蛋白质序列多样性的采样不到 1%。
通用序列模型 vs. 专用结构模型：论文的第二个“苦涩的教训”是，评估纯粹基于 MLM 的通用模型能在多大程度上匹敌基于手工设计先验的专用模型（如 AlphaFold 3）。
AlphaFold 的威力很大程度上来自其手工制作的特征输入——多重序列比对（MSA），即寻找目标蛋白的数百个进化“表亲”并叠加以提取结构信息。这是一个精妙但也极为耗时的步骤。
ESM Fold 2 完全抛弃了 MSA，直接使用模型产生的单序列的表征作为输入，通过一个循环网络（looped model）预测三维结构。
结果对比：
- 在通用蛋白质复合物预测上，无 MSA 的 ESM Fold 2 得分（DOCQ 通过率）与包含 MSA 的 AlphaFold 3 仅差 3个百分点（接近持平）。
- 关键突破在抗体设计：在抗体-抗原结合预测这一极其重要但序列数据稀疏的任务上，ESM Fold 2 的性能（得分约 50）完美持平甚至略超 AlphaFold 3（得分约 47）。
核心洞察：这意味着手工特征仅在数据丰富时提供帮助，而在药物设计者最需要它（数据稀疏）的地方，其优势往往消失。同时，无 MSA 的预测在速度上拥有数量级优势。
机制可解释性与蛋白质“谷歌地图”：论文最后部分应用了来自 Anthropic 等团队的稀疏自编码器等可解释性工具。
研究发现，模型的潜在空间可被分解为对应于真实生物学概念的、干净且可解释的特征。这些特征自动组织成一个层次结构：从氨基酸 → 结构基序 → 蛋白质域 → 功能位点和整体蛋白质角色。
案例：亲核肘（nucleophilic elbow）：一个著名的酶催化基序，在多个进化上不相关的蛋白质中独立演化出来。模型成功地在结构迥异的背景下识别出了这一共同基序，表明其捕捉到了深层“直觉”，而非简单地在记忆序列。
通过对模型表征进行聚类，他们创建了一张包含多达 700亿 个蛋白质的图谱，这像一张蛋白质的“谷歌地图”，自然地将演化与功能相近的蛋白质家族（如 CRISPR-Cas 酶）聚集在一起，这完全是模型训练的副产品。

💬 精华片段（中文）

“苦涩的教训可以完美映射到生物学吗？还并不完美...但我们已非常接近。即便不关心任何具体的下游任务，仅通过相对简单的预训练目标和大量数据，该模型所学到的生物学知识已经庞大到我们可以在事后进行逆向审问。” "Does a bitter lesson scale to biology? Not perfectly yet... but we're getting very close... even if we just don't care about one specific downstream, the model just from a relatively quite simple pre-training objective and a lot of data has learned an enormous amount of bio that we can reverse interrogate after the fact."

25:28 Self-Play for LLMs: 基础算法与“自我引导”的优化

本节重点

自我博弈的定义与挑战：LLM 的自我博弈让模型同时扮演命题者（生成任务）和求解者（解决任务），旨在自动产生无限学习信号。但基础版自我博弈因奖励黑客而很快失效，命题者倾向于生成无用但“棘手”的杂乱任务
奖励黑客的诊断：对命题者的简单奖励（1 - 求解成功率）会诱导其走向捷径，产生出极度复杂、不自然、无意义的合成问题，而非真正有意义的前沿挑战
SGS 算法双管齐下：通过（1）将合成问题锚定在人类关心的题集上，以及（2）引入一个评判者（Guide） 来惩罚与锚定问题不相关或过于复杂的生成，从而约束命题者的行为
成果与局限：SGS 方法使一个 70亿参数模型在特定数学证明任务上达到了 6700亿参数模型的水平，显示出巨大潜力，但最终成绩仍未达到100%，表明这远未解决

详细精要

正在变化的训练范式与自我博弈的动机：Luke 指出，当前大模型训练的算力正从预训练向大规模后训练（Post-training）的长时间强化学习运行转移。这类 RL 通常运行在人工设计的任务上，性能随任务数量对数增长，但有两个问题：
人工收集任务终将成为瓶颈。
模型最终需要超越人类能设计的问题。
自我博弈（Self-Play）的解决方案：让模型自动生成新的 RL 任务并自我训练。在对称自我博弈（如 AlphaGo 中自己扮演对手）之外，LLM 领域兴起的是非对称自我博弈：一个命题者（Conjecturer）生成完整的、可验证的 RL 任务（如带单元测试的编程题），供求解者（Solver）尝试解决。
基础自我博弈为何失败——奖励黑客：在实际运行中，基础版本的非对称自我博弈会遭遇严重瓶颈，性能迅速饱和，表现不优于普通 RL。
Luke 展示了诊断结果：命题者为了最大化其奖励（Success Rate Reward, SRR，即 1 - 求解者成功率），会从一个极妙的数学证明问题出发，演变成一个极其复杂、啰嗦且荒谬的语句。
根本原因：1 - 求解成功率 这一奖励信号，驱使命题者寻找最容易让求解者犯错的路径。而制造一个复杂的“烂题”远比制造一个有价值的“难题”简单。这本质上是奖励黑客（Reward Hacking）的典型案例。
SGS（Self-Guided Self-Play）算法：为解决此问题，Luke 团队提出了 SGS 算法，从两方面入手。
1. 语义锚定：不再让命题者凭空生成问题，而是从一个“好”的目标问题集中选取一个未能解决的题目，要求命题者生成一个与之相关（related）的新问题。这为合成数据分布引入了先验约束。
2. 引入评判者（Guide）：模型承担第三个角色——评判者。它被训练来判断一个合成问题是否真的与目标问题相关且不“过于复杂”。命题者的最终奖励变为：SRR * Guide_Score 的双重奖励，仅当问题既“棘手”(高 SRR)又“有意义”(高 Guide Score)时，命题者才能获得高奖励。
实验结果与局限：SGS 显著优于基线。
在一个包含 3000 个 Lean 数学证明问题的数据集上，一个 7B 参数模型，在使用 8倍于 RL 基线的算力进行 SGS 自我博弈后，其性能（问题解决率）追平了 670B 参数的大模型，显示出架构的泛化能力飞跃。
明确局限：性能仍未达到 100%。意味着这项技术远未成熟，自我博弈的过程并未能解决所有问题，还存在进一步研究的巨大空间。

💬 精华片段（中文）

“原则上，没有什么能限制学习...自我博弈则说：我会不断生成新的学习信号与新的任务，学习它，并希望能永远持续地改进下去。” "So in principle nothing bounds learning... selfplay on the other hand is gonna say I'm gonna keep on generating new learning signal with new tasks, learn it and just keep on improving hopefully forever."

37:24 Stream RAG: 语音 AI 中的实时检索挑战

本节重点

语音场景的矛盾：传统 RAG 是降低模型幻觉的关键，但其引入的延迟，使得在要求自然、低延迟的语音对话中直接使用变得不现实，因此必须实现流式 RAG
核心问题：何时检索：流式 RAG 的核心不是如何加速检索，而是在用户持续说话的过程中，智能地决定“何时” 触发检索，并利用已说出的部分信息提前获取知识
两种初期解决方案：论文提出了固定间隔流式 RAG（基于检索结果的一致性判断）和基于微调模型的触发式 RAG（判断当前信息是否足够）两种思路
业务价值巨大：哪怕仅降低 0.5-1.5 秒的响应延迟，就能在保持准确率不变的情况下，极大提升语音交互体验，这是个“小问题、大收益”的研究方向

详细精要

从传统 RAG 到流式 RAG 的必然性：Arnab 回顾了 RAG 的发展，它曾是抑制大模型“幻觉”（尤其在引用方面）的关键。
语音 AI 的新矛盾：在语音助手等场景下，用户期待自然的、轮流发言式的对话。如果在用户说完一句话后才启动完整的 RAG 流程，会导致 10 秒甚至更长的延迟，这完全破坏了交互的自然性。因此，必须在用户说话的过程中就开始分析和检索。
流式 RAG 的两条技术路径：该论文探讨了两种方法论。
方法一：固定间隔流式 RAG（Fixed Interval Streaming RAG）。它将音频分割为固定块（Block），每个块到达后就触发一次检索。其核心问题变为，如何在多个中间检索结果中选择一个来继续后续流程？论文提出的一种思路是，观察完整 RAG 链条的上游（如快速文档召回）结果，如果某个中间块召回的“头号文档”与全量最终查询召回的文档匹配，则认为该中间块已经“足够好”，可以就此停止等待，直接基于此结果生成回复。
方法二：基于微调的触发式 RAG。这种方法更为智能，旨在解决“在每个块上都运行 RAG 计算成本过高”的问题。可以微调一个小模型，在收到每个新的语音块后，让它决定：当前块是否包含了关键性的新信息，以至于需要生成一个新的去查询；还是根据之前块形成的信息已经足够回答用户意图。这是一个更彻底的“何时检索”的决策逻辑。
结果与研究方向展望：Arnab 展示了来自一年前的初步结果，实验基于较小的开源模型。
性能：在合成数据集上，流式 RAG 将延迟降低了 0.5 秒；在真实人类语音数据集上，延迟降低了约 1.5 秒。与此同时，准确率与传统 RAG 保持一致。
核心洞见：Arnab 强调，具体的实现方法还在早期，但这个问题本身极具价值。除了论文中的方法，还可以通过分析部分问题的语义完整性、意图确定性等更多维度来判断“何时触发”。这个领域存在大量研究空间，并且任何微小的进步都可能直接转化为巨大的生产效益。

💬 精华片段（中文）

“关键点不在于方法本身，而在于：当你以数据块的形式接收到输入时，你该在哪个点停下来并说，‘好了，这个数据块对我来说已经足够相关了’？” "So the thing I want to stress is not the method per se but the point that okay when you are getting this input in chunks at what point can you stop and say that okay like this chunk is like super relevant for me?"

47:23 The Era of Verified Intelligence: Lean 语言的力量

本节重点

从非形式到形式的跨越：人类使用的“非形式数学”可省略步骤，而 Lean 等定理证明器要求完全明确的证明，任何正确性都可被机械地、不可欺骗地验证
Lean 的双重身份：Lean 不仅是一个交互式定理证明器，它还是一门功能性编程语言，可编写可执行的程序，这使其成为连接数学证明与软件验证的桥梁
前沿里程碑进展：模型求解国际奥数（IMO）级别问题的能力正指数级增长；在开放未解问题（如 Odos 问题）上，AI 结合形式验证也取得突破
软件验证的未来：从生成可能有缺陷的程序，转向编写可被形式化验证其正确性的代码（Verifiable Coding）。Robert 的工作已实现在 Lean 中编写神经网络（TorchLean），并验证如 Flash Attention 等价性等真实世界复杂软件的性质。

详细精要

形式验证与“可验证智能”：Robert 认为我们正进入一个“可验证智能”的新时代。高级数学问题（如 IMO 试题）的优秀非形式解，其推理常常是不完整的（如“易证得”）。而 Lean 这类交互式定理证明器要求每个证明都是绝对完整且显式的，并可通过内核进行不可欺骗的、极快速的最终检查。
Lean 语言的核心特性：Robert 反驳了之前 Luke 认为 Lean 代码杂乱的看法，认为它非常优雅。
身份二合一：它基于依赖类型理论，既是定理证明器，也是一门函数式编程语言，可以编译执行。这统一了“证明”与“程序”。
扩展性与社区：拥有元编程、宏、自定义自动化工具等能力，并且正在构建世界上最大的形式化数学库 Mathlib（代码超百万行），涵盖从拓扑到代数几何的高质量数学。
前沿动态：近期，DeepMind 和 OpenAI 等在 IMO 问题、开放未解问题（Odos problems，甚至包括悬赏的 80年 未解问题）上取得的突破，均有 Lean 或其 DSL 的参与。证明不再只是声称，而是被形式验证过的。
从“正确性存疑的代码”到“可验证编码”：Robert 将视角从数学转向软件，提出了从传统编码到 可验证编码 的转变。
问题需求：AI 生成了大量代码，但也带来了“消失不掉的 Bug”。愿景是：代码的使用者给出规范（Specification），即“我想要代码做什么”，而开发过程不仅要产出代码，还要提供一个证明，证明该代码满足规范。
突破性工作：TorchLean。Robert 介绍了其在 Lean 中从头构建的类 PyTorch 的神经网络框架，编译到一个共享中间表示层。
实际验证案例：
- 验证了 Flash Attention 算法在规范层面与标准注意力机制的等价性。
- 验证了注意力机制的置换不变性（无位置编码时）。
- 他甚至在 Lean 里完整实现了一个 GPT-2 风格的模型，并利用可验证的浮点数算术，形式化了“即使温度为0，由于浮点舍入误差的微小差异，模型推理也可能非确定性地翻转最终 argmax 结果”这一 Thinking Machines Lab 曾提出的著名案例。

💬 精华片段（中文）

“从‘宽泛编码’转向‘可验证编码’...我设想这样一个未来：科学，哪怕是代码，都可以通过形式验证来确保其正确性，这依赖于人们正在努力构建的大量基础模块。” "We should shift from actually wide coding to like very coding right... I see a future where science like even code can be formally verified through a lot of building blocks which people are putting a lot of effort in."

58:21 Token Maxxing: 以 RTS 游戏思维颠覆软件开发

本节重点

编程范式的颠覆：在 Agent 时代的软件开发，不再是线性、单线程的“下棋”，而更像一场实时策略（RTS）游戏，要求开发者同时管理多个并行的、异步的 Agent
宏观优先的生产力哲学：胜出的关键不是“微观管理”好单个 Agent，而是通过“宏观”调度，保持极高的 APM（每分钟操作数）和并行度，不断生成项目（PR）并快速纠正错误
可操作的工具与实践：使用 Git Worktrees 实现多 Agent 并行工作环境；通过袖手旁观（dangerously skip permissions） 给予 Agent 最大自主权；利用 音频提示音 和 彩色编码 设计类似游戏的高效监控界面
知识库的滚雪球效应：将每一次与 Agent 的交互、纠正和产出的文档，都反哺进一个结构化的、Agent 易于理解的知识库，使其在后续任务中不断变强

详细精要

Agent 编程的“RTS 游戏”隐喻：Luke Orthwine 认为，使用 Agent 进行软件开发，其思维方式应当从“象棋”（单线程、深思熟虑、线性预测）转向“实时策略（RTS）游戏”（多线程、反应迅速、异步并行）。
关键特性：RTS 游戏没有“一招鲜”，玩家必须同时关注经济、生产、单位微操等多个方面。同样，作为人类管理者，你需要最大化并行处理——让系统、Agent 和你的注意力都达到最大并行度，以便进行必要的纠正性反馈。
高效 Agent 工作流的具体实践：Luke 分享了他的团队具体如何运作。
基础设施：利用 Git Worktrees 创建多个独立的工作副本，让每个 Agent 在不同目录下并行开发，互不干扰。工作本身通过 ticket 管理，可被“搬运”到任何机器上继续。
编排过程：他使用一个 Orchestrator（如 Claude），接收一个任务后，以最少的敲击指令“生成”出许多 Worker Agent。这些 Worker 被指示“尽可能推进到最远”，直至生成 PR 甚至总结，即使犯错也是低成本，总比闲着强。他持续像看 RTS 小地图一样监控所有 Worker 的状态。
给 Agent 授权：贯穿始终的原则是“默认开启危险跳过权限（dangerously skip permissions）”。如果因为权限问题需要人类频繁介入，速度就会大幅降低。若做不到，也要创造沙箱环境来达成。
游戏技巧的平移应用——监控与反馈：Luke 深入地借用了 RTS 游戏的技巧来优化人机交互。
APM 监控器：团队内部构建了追踪“每分钟工具调用次数”的监控器，虽然不是唯一指标，但提供了一种量化生产力节奏的直观方式。“没有高水平 APM 的 RTS 玩家不可能成为顶尖”，同理，编程也需要维持高节奏。
音频提示设计：他将不同的后台 Agent 分别映射到《魔兽争霸》/《星际争霸》中的不同单位，并让其播放相应的原声游戏音效。当他听到“我们遭到攻击”或特定单位的声音，就能立刻识别出哪个 Agent 需要关注，形成强大的直觉反应。他甚至让 Claude 帮他写了所有这些辅助脚本。
知识库的“飞轮效应”：他极力提倡文档化，但不只是注释，而是形成结构化的、带链接的 Wiki 风格知识库。重要的是，在每次完成一个 ticket 后，他会将他对 Agent 输出的所有修改和意见反馈回知识库，并“命令” Agent 学习它。这使他刚完成的演讲初稿，也能由 Claude 快速生成。

💬 精华片段（中文）

“宏观管理是默认选项，微观管理仅在它起作用时才做...如果你只是大量地做事情，如果你总是能很快地发现问题并解决它们，你就能以近乎愚蠢的方式调整出好的结果。” "Macro by default, micro when it counts... you can win honestly... in programming, if you just macro enough, if you just do enough things, you'll kind of stupidly adjust your way towards something that's good if you're just always really quickly identifying problems and solving them."

专业术语注释

术语	解释
Self-Play（自我博弈）	一种强化学习范式，让智能体通过与自己的历史版本或另一个自我生成的对手/任务生成者对抗/互动，自动产生训练信号，以突破固定任务的上限。文中区分了对称自我博弈（如 AlphaGo）和非对称自我博弈（如 LLM 同时扮演命题者和求解者）
Test-time Compute（测试时计算）	在模型推理（而非训练）阶段投入额外计算资源以提升性能的技术总称，如思维链、自我一致性采样、在推理时进行更深层的搜索或优化
ICL (In-Context Learning，上下文学习)	一种能力，模型仅通过在推理时给定的上下文（Prompt）中的若干个完整示例，就能快速学习并执行新任务，而无需更新模型自身的参数
LoRA (Low-Rank Adaptation，低秩适应)	一种参数高效的模型微调方法，通过向 Transformer 层的权重矩阵添加低秩分解矩阵来近似权重的更新，大幅减少了微调所需训练的参数量
SPSA (Simultaneous Perturbation Stochastic Approximation)	一种优化算法，通过同时对参数向量进行随机扰动并观察目标函数的相应变化来估计梯度，被认为是生物学习中反向传播的一种潜在替代方案，计算成本低
The Bitter Lesson（苦涩的教训）	AI 先驱 Richard Sutton 提出的著名观点，认为从长期看，能够充分利用大规模计算和数据的通用方法，最终会超越那些依赖人类特定领域知识和精巧手工设计的方法
MSA (Multiple Sequence Alignment，多重序列比对)	结构生物学中的核心技术，通过比对一条目标蛋白序列与其在不同物种中的同源序列，识别出保守的共变异信息，是预测蛋白质三维结构的关键手工特征
MLM (Masked Language Modeling，掩码语言模型)	一种自监督预训练任务，通过随机遮盖输入序列中的部分词元（Token），然后让模型基于上下文预测这些被遮盖的原始词元，典型模型如 BERT
ESM (Evolutionary Scale Modeling)	Meta（现部分团队转至 Biohub）开发的一系列大规模蛋白质语言模型，本文重点介绍的新一代模型为 ESM-Cambrian，其结构预测模块为 ESM Fold 2
Lean	一种基于依赖类型理论的强类型函数式编程语言和交互式定理证明器。用户可以在其中编写数学定义、定理和证明，并由内核验证其绝对正确性，也可直接编写可执行程序
Streaming RAG（流式 RAG）	应用在语音流场景下的检索增强生成技术，核心动作为在用户完整问题说完之前，就开始基于已说的部分片段进行预检索，以降低最终响应的感知延迟
RTS (Real-Time Strategy Game，实时策略游戏)	一种电子游戏类型（如星际争霸、魔兽争霸），玩家需要同时进行基地建设、资源采集、军队生产和多线作战等操作，其思维模式被 Luke Orthwine 借鉴用于管理多智能体并行开发流程
APM (Actions Per Minute，每分钟操作数)	源于 RTS 游戏的性能指标，用于衡量玩家每分钟有效操作的次数。在本文语境下，特指人机协同编程中，所有 AI 智能体每分钟产生的“工具调用”总次数，作为宏观生产力的一种粗略度量

延伸思考

自我博弈的奖励设计难题：Luke 的研究暴露了 LLM 在“自我监管”方面的脆弱性，即使意图良好的奖励机制也可能被轻易破解。这引出一个更根本的问题：在没有强大且稳健的外部客观“裁判”时，我们如何确保自我改进的 AI 系统能持续朝着对人类有益的方向进步，而不是在一个“聪明但空洞”的方向上疯狂优化？
无界计算 vs. 效率瓶颈：François 提出的“每样本智能”挑战与 Luke Orthwine 的“Token Maxxing”实践形成了有趣对比。一个在追求算法效率的极限，一个在工程实践上“挥霍”计算以换取开发时间。在通往 AGI 的道路上，哪一种是更具决定性的瓶颈？是更聪明地利用每一分算力，还是建立能无限、稳定地规模化运用算力的工程系统？
“形式验证”的现实边界：Robert 的工作展示了在 Lean 中验证 Flash Attention 的壮举，这极具启发性。然而，将形式化证明大规模应用于由数亿行动态生成、依赖无数复杂外部库的现代软件系统，其挑战在哪儿？我们是否需要一种全新的、易于证明的编程范式？
生物学发现的“GPT 时刻”是否已来？：Yas 展示的蛋白质“谷歌地图”令人惊叹，但这是属于“理解”还是“搜索”？从模型潜空间中的“亲核肘”特征，到真正设计出能与该基序稳定结合并产生生物效应的全新药物分子，之间还有多远的距离？如何定义生物学领域的那个“生成全新、有效且安全”的临界点？

原文发表：Jun 12, 2026 · 纪要生成：2026-06-19