▶ 原文链接

YC 论文俱乐部:LLM 自我博弈、生物学 AI、形式验证与更多前沿探讨

来源: YouTube (YC Paper Club) | 多位嘉宾 | Jun 12, 2026 分类: 其他 原文发表: Jun 12, 2026 纪要生成: 2026-06-19


全集重点


嘉宾/话题简介

本集 YC 论文俱乐部活动由 François 主持,邀请了多位背景各异的青年研究员和创业者,围绕 AI 在生物学、数学、语音及工程实践等多个应用领域的前沿进展进行分享。Yas Beg 是一位关注生物学的博士研究员,他讨论了“苦涩的教训”在蛋白质建模领域的体现;Luke Bailey 是聚焦于 LLM 自我博弈(Self-Play)的博士生,介绍了其论文《Scaling Self-Play with Self-Guidance》;Arnab Matei 来自高速成长的 YC 公司 Giga,探讨了语音 AI 中的流式 RAG 技术挑战;Robert George 是来自 Caltech 的博士生,展望了以 Lean 语言为核心的可验证智能时代;最后,Luke Orthwinechannel AI CEO 的身份,分享了其以实时策略游戏思维颠覆传统软件工程流程的实践经验。


分节详述

00:00 开幕介绍与前沿观点分享

本节重点

详细精要

💬 精华片段(中文)

“如果完整解空间 F 是 F,那么在已知人类解上训练,会将你限制在某个典型集合 H 内。即便使用任何可行量的测试时计算或递归自我改进,你也不可能可行地采样到 F - H 的部分。” "If the full solution space f is f, training on known human solutions will limit you to some typical set h despite any feasible amount of test time compute or recursive self improvement. You won't feasibly sample f minus h."


05:47 AI for Biology: 苦涩的教训在蛋白质领域上演

本节重点

详细精要

💬 精华片段(中文)

“苦涩的教训可以完美映射到生物学吗?还并不完美...但我们已非常接近。即便不关心任何具体的下游任务,仅通过相对简单的预训练目标和大量数据,该模型所学到的生物学知识已经庞大到我们可以在事后进行逆向审问。” "Does a bitter lesson scale to biology? Not perfectly yet... but we're getting very close... even if we just don't care about one specific downstream, the model just from a relatively quite simple pre-training objective and a lot of data has learned an enormous amount of bio that we can reverse interrogate after the fact."


25:28 Self-Play for LLMs: 基础算法与“自我引导”的优化

本节重点

详细精要

💬 精华片段(中文)

“原则上,没有什么能限制学习...自我博弈则说:我会不断生成新的学习信号与新的任务,学习它,并希望能永远持续地改进下去。” "So in principle nothing bounds learning... selfplay on the other hand is gonna say I'm gonna keep on generating new learning signal with new tasks, learn it and just keep on improving hopefully forever."


37:24 Stream RAG: 语音 AI 中的实时检索挑战

本节重点

详细精要

💬 精华片段(中文)

“关键点不在于方法本身,而在于:当你以数据块的形式接收到输入时,你该在哪个点停下来并说,‘好了,这个数据块对我来说已经足够相关了’?” "So the thing I want to stress is not the method per se but the point that okay when you are getting this input in chunks at what point can you stop and say that okay like this chunk is like super relevant for me?"


47:23 The Era of Verified Intelligence: Lean 语言的力量

本节重点

详细精要

💬 精华片段(中文)

“从‘宽泛编码’转向‘可验证编码’...我设想这样一个未来:科学,哪怕是代码,都可以通过形式验证来确保其正确性,这依赖于人们正在努力构建的大量基础模块。” "We should shift from actually wide coding to like very coding right... I see a future where science like even code can be formally verified through a lot of building blocks which people are putting a lot of effort in."


58:21 Token Maxxing: 以 RTS 游戏思维颠覆软件开发

本节重点

详细精要

💬 精华片段(中文)

“宏观管理是默认选项,微观管理仅在它起作用时才做...如果你只是大量地做事情,如果你总是能很快地发现问题并解决它们,你就能以近乎愚蠢的方式调整出好的结果。” "Macro by default, micro when it counts... you can win honestly... in programming, if you just macro enough, if you just do enough things, you'll kind of stupidly adjust your way towards something that's good if you're just always really quickly identifying problems and solving them."


专业术语注释

术语 解释
Self-Play(自我博弈) 一种强化学习范式,让智能体通过与自己的历史版本或另一个自我生成的对手/任务生成者对抗/互动,自动产生训练信号,以突破固定任务的上限。文中区分了对称自我博弈(如 AlphaGo)和非对称自我博弈(如 LLM 同时扮演命题者和求解者)
Test-time Compute(测试时计算) 在模型推理(而非训练)阶段投入额外计算资源以提升性能的技术总称,如思维链、自我一致性采样、在推理时进行更深层的搜索或优化
ICL (In-Context Learning,上下文学习) 一种能力,模型仅通过在推理时给定的上下文(Prompt)中的若干个完整示例,就能快速学习并执行新任务,而无需更新模型自身的参数
LoRA (Low-Rank Adaptation,低秩适应) 一种参数高效的模型微调方法,通过向 Transformer 层的权重矩阵添加低秩分解矩阵来近似权重的更新,大幅减少了微调所需训练的参数量
SPSA (Simultaneous Perturbation Stochastic Approximation) 一种优化算法,通过同时对参数向量进行随机扰动并观察目标函数的相应变化来估计梯度,被认为是生物学习中反向传播的一种潜在替代方案,计算成本低
The Bitter Lesson(苦涩的教训) AI 先驱 Richard Sutton 提出的著名观点,认为从长期看,能够充分利用大规模计算和数据的通用方法,最终会超越那些依赖人类特定领域知识和精巧手工设计的方法
MSA (Multiple Sequence Alignment,多重序列比对) 结构生物学中的核心技术,通过比对一条目标蛋白序列与其在不同物种中的同源序列,识别出保守的共变异信息,是预测蛋白质三维结构的关键手工特征
MLM (Masked Language Modeling,掩码语言模型) 一种自监督预训练任务,通过随机遮盖输入序列中的部分词元(Token),然后让模型基于上下文预测这些被遮盖的原始词元,典型模型如 BERT
ESM (Evolutionary Scale Modeling) Meta(现部分团队转至 Biohub)开发的一系列大规模蛋白质语言模型,本文重点介绍的新一代模型为 ESM-Cambrian,其结构预测模块为 ESM Fold 2
Lean 一种基于依赖类型理论的强类型函数式编程语言和交互式定理证明器。用户可以在其中编写数学定义、定理和证明,并由内核验证其绝对正确性,也可直接编写可执行程序
Streaming RAG(流式 RAG) 应用在语音流场景下的检索增强生成技术,核心动作为在用户完整问题说完之前,就开始基于已说的部分片段进行预检索,以降低最终响应的感知延迟
RTS (Real-Time Strategy Game,实时策略游戏) 一种电子游戏类型(如星际争霸、魔兽争霸),玩家需要同时进行基地建设、资源采集、军队生产和多线作战等操作,其思维模式被 Luke Orthwine 借鉴用于管理多智能体并行开发流程
APM (Actions Per Minute,每分钟操作数) 源于 RTS 游戏的性能指标,用于衡量玩家每分钟有效操作的次数。在本文语境下,特指人机协同编程中,所有 AI 智能体每分钟产生的“工具调用”总次数,作为宏观生产力的一种粗略度量

延伸思考

原文发表:Jun 12, 2026  ·  纪要生成:2026-06-19