🔬超越AlphaFold：Boltz如何开源药物发现的未来

来源： Latent Space播客 | Gabriele Corso & Jeremy Wohlwend | Feb 12, 2026
播客： Latent Space 分类： 科学 原文发表： Feb 12, 2026
纪要生成： 2026-04-28

全集重点

结构预测的“已解”假象：单链蛋白预测依赖进化共变信号取得突破，但缺乏演化信息的复杂互作和多构象动态仍是未解难题
从回归到生成式扩散：AlphaFold 3与Boltz-1将预测建模从单一坐标回归转向后验分布采样，更好地捕捉结构不确定性
专业化架构胜过通用Transformer：尽管有“苦涩教训”，等变架构在生物分子三维几何约束下仍显著优于普通transformer
Boltz-2统一结构与序列设计：通过原子组成编码氨基酸身份，将结构预测和序列设计合并为单一扩散任务，实现端到端的全新蛋白生成
开源+产品双轮驱动：Boltz Lab平台通过GPU加速、多Agent流水线与协作界面，将模型落地为药物化学家可用的工具，并在大量湿实验验证中取得纳摩尔级结合物

嘉宾/话题简介

Gabriele Corso和Jeremy Wohlwend是Boltz的联合创始人，也是《Boltz宣言》的作者。他们曾分别参与蛋白‑小分子对接模型DiffDock等早期工作，并在AlphaFold 2发表后投身于复杂生物分子互作的建模。本集对话从结构预测的进化性线索讲起，深入剖析AlphaFold 3引入的扩散生成框架，以及Boltz-1、Boltz-2和BoltzGen等开源模型如何将设计能力推向全新蛋白与药物分子的从头生成，并最终推出面向研究者的Boltz Lab平台。

分节详述

00:00 Introduction to Benchmarking and the “Solved” Protein Problem

本节重点

单链蛋白结构预测借助进化信号已近“解决”，但泛化到其他模态仍很难
模型在缺乏共进化景观时性能骤降，结构预测与折叠过程是两个不同问题
“解决”一词在学界争议很大，因为蛋白并非静态，多态性建模仍存巨大空白

详细精要

基准测试推动模型进步，CASP竞赛揭示能力边界：RJ指出，CASP14标志着单链蛋白预测取得了令人震惊的进步，但蛋白质其他形态（如多链、复合物）依然困难重重。
他强调需要持续构建更具挑战性的基准，才能准确掌握模型的真实泛化水平。
Gabriele补充，CASP14 可以说某个问题已被“全面解决”，但这只是起点，真正的开放问题远多于已闭合的。
单链蛋白预测高度依赖进化共变信号：模型通过比对新蛋白质在不同物种中的同源序列，发现某些位点倾向于同步突变，这种相关性暗示它们在三维空间中邻近。
当这种共进化景观（co-evolutionary landscape）丰富时，模型能找到结构所在的能量低谷区域，预测效果接近“解决”。
一旦缺失这类演化信息，模型就变得非常吃力，表明当前架构更多是在解码演化统计信号，而非真正从头学习物理原理。
结构预测 vs. 折叠动力学存在根本差异：RJ强调，常被混淆的“结构预测”是直接给出终态，“折叠”则是无序链如何经历一系列中间状态达到终态的动力学过程，后者几乎没有任何实质进展。
Brandon概括为：我们擅长从一条长链得到最终形状，但不知道它到底怎么走过来的，也无法描述其中的中间态和分步过程。
RJ补充，蛋白质并非静止，它们在能量曲面上的不同构象之间切换，当前模型对这种多态性及其概率分布的建模能力仍然很弱。
即便有进化线索，终结答案仍需要局部物理优化：RJ推测，模型在通过统计信号进入解空间大致区域后，可能学到了一种“轻量级”的物理知识，足以在那个谷底内微调至更低能量态，但远不足以在整个空间自由导航。
Gabriele后续引用Sergio Chinico的观点，将AlphaFold的框架比作利用MSA（多序列比对）给出的接触提示，再做类似于距离几何的推导：先构建残基间的距离矩阵，再解析出三维坐标。

💬 精华片段（中文）

"The problem that a lot of progress was made on was the ability to predict the structure of single chain proteins. … part of the breakthrough has been our ability to decode [co-evolutionary hints] very effectively. But in absence of that co-evolutionary landscape, the models don’t quite perform as well." “取得巨大进展的问题是对单链蛋白的结构预测……突破部分来自我们高效解码[共进化线索]的能力；但当这种共进化景观不存在时，模型的表现就差得多了。”

06:48 Evolutionary Hints and Co-evolution in Structure Prediction

本节重点

协同进化的残基对在三维结构中空间距离近，成为推断整体折叠的强线索
蛋白折叠问题曾被视作组合爆炸的NP难题，机器学习的成功令理论计算机科学界震惊
进化保守性不仅给出局部距离约束，还通过大量序列的统计模式串成全局构象

详细精要

共进化现象的本质是结构性补偿：RJ解释，当某一个氨基酸发生突变，会扰动三维环境中的邻近残基，如果最终构象要保持（因为功能依赖该构象），自然选择就会迫使另一个位置的氨基酸发生补偿性变化。
因此，在大规模同源序列中反复出现的成对相关突变，可以可靠地映射为空间中的接触对。
这些接触相当于给蛋白的“三维谷地”设置了路标，把搜索范围从天文数字缩小到可能解附近，极大降低了计算复杂度。
从理论CS难题到机器学习里程碑：Gabriele回忆，蛋白质折叠曾作为一个典型的NP完全问题被理论计算机科学家研究多年——可能的构象随序列长度呈组合爆炸，纯物理模拟几乎无解。
正因如此，当AlphaFold 2从序列中直接解出三维坐标时，整个领域都感到意外，证明了进化过程和模型学习能从看似杂乱的信息中提取出极其精确的结构信号。
Brandon提到Andrew White曾告诉他们，在AlphaFold之前甚至有专门为折叠问题开发的ASIC芯片，可见人们为此投入了数以百万计的计算小时。
从多序列比对到全局结构的“两阶段”假说：Gabriele借用MIT的Sergio Chinico的解释：AlphaFold的架构操作在残基成对上下文中，MSA首先给出“哪些残基可能接触”的初猜。
接着模型仿佛在运行一种距离几何算法——给定一组距离约束（这些必须近、那些稍远……），推导出一个近似的成对距离矩阵。
最后，从这张粗粒度的距离矩阵再解码出精确的三维坐标，相当于先粗后细的两步走，而非一步到位的物理模拟。

💬 精华片段（中文）

"It’s almost like the protein through several, probably random mutations and evolution, ends up sort of figuring out that this other amino acid needs to change as well for the structure to be conserved." “几乎可以说，蛋白在经历大量可能随机的突变和进化之后，最终‘摸索’出：为了保持结构，另一个氨基酸也必须一起变。”

10:00 The Importance of Protein Function and Disease States

本节重点

蛋白是细胞中的“分子机器”，其功能由与其他分子的相互作用决定
了解蛋白最终构象就像看到整辆车，而不仅仅是零件清单
折叠过程本身与疾病密切相关，不懂过程就无法干预错误折叠引发的疾病

详细精要

蛋白即机器，结构赋予功能：Gabriele将蛋白质比作身体里的机器，所有细胞过程几乎都由蛋白之间或蛋白与其他分子的相互作用驱动。
要理解正常生物学功能，就要知道哪些分子在何时如何相互作用；要理解疾病，就要找出这些互作中什么地方出了问题。
仅知道氨基酸序列就像只有零件列表，看到三维结构才相当于看到组装好的汽车，能真正理解其运作原理。
折叠过程的理解对疾病干预至关重要：Brandon追问“为什么中间状态重要”，Gabriele回答，很多疾病涉及蛋白错误折叠，如果我们不明白折叠是如何进行的，就无从设计干预手段。
例如某些神经退行性疾病与特定蛋白的异常聚集有关，若仅知道终态而不知中间步骤，很难阻断病理过程。
RJ引用AlphaFold 2论文中的点睛之笔：对于能正确折叠的蛋白，其折叠过程几乎是瞬时完成的，这本身就暗示该过程受物理定律严格约束，因此值得用计算方法去预测。
折叠的瞬时性提供了“可预测”的信心：RJ认为，那个观察——许多蛋白的折叠是瞬时的——是一个强烈的信号，表明这一过程并非混乱无章，而是遵循某种可捕捉的规律。
当然，并非所有蛋白都如此，细胞内还存在分子伴侣等复杂机制辅助折叠，这些暂时都不在模型覆盖范围之内。

💬 精华片段（中文）

"It’s a bit like seeing the difference between having a list of parts that you would put in a car and seeing the car in its final form — seeing the car really helps you understand what it does." “这有点像看汽车零件清单和看一辆完整汽车的区别——看到整车才真正理解它的功能。”

15:31 Transitioning from AlphaFold 2 to AlphaFold 3 Capabilities

本节重点

AlphaFold 2之后，领域最大挑战转向复合物互作预测（蛋白-蛋白、蛋白-小分子、蛋白-核酸）
AlphaFold 3通过统一多模态、切换至扩散生成框架并简化架构实现了新SOTA
交互建模直接关系到药物设计和功能理解，是蛋白质“功能解析”的核心

详细精要

从单链到互作：必然的下一步：Gabriele回忆，AlphaFold 2解决了单链预测后，他和Jeremy等人立刻意识到，下一个前沿是预测不同分子间的互作——蛋白-小分子、蛋白-蛋白、蛋白-RNA/DNA。
因为在细胞中，单一蛋白往往就是多链机器，这些复合物再与其他分子发生作用才产生功能。只有理解了这些互作，才可能设计出与特定靶蛋白结合的药物分子或诊断工具。
当时很多团队分开处理不同的互作类型，但AlphaFold 3的核心贡献在于用一个单一模型覆盖了所有这些模态，极大简化了应用和泛化。
扩散生成与架构进化是两大技术跨越：Gabriele列举了AlphaFold 3的关键革新：
从回归问题转为生成式扩散：不再预测单一静态坐标，而是从后验分布中采样多种可能构象，能更好处理多态性和不确定性。
最终模块向标准transformer靠近：原来AlphaFold 2中从成对表示到三维输出的极强专业化的等变模块，在AlphaFold 3中被大幅简化，更像传统transformer，但仍然保留了必要的等变特性。
这种简化提高了可扩展性，使得训练更深的模型成为可能，但也引发了领域内关于是否应完全拥抱“苦涩教训”的争论（后文展开）。
互作预测与功能揭示的直接链接：Gabriele进一步强调，当要设计干预分子时，我们实际上是在设计一个与靶蛋白以特定方式互作的新分子，因此互作预测几乎就等于功能预测。
无论是针对疾病靶标设计药物，还是开发生物传感器，本质都是一个“设计具有特定互作模式的分子”的问题。

💬 精华片段（中文）

"One of the interesting things that they were able to do … they put everything together and trained very large models … and managed to get a single model that was able to set this new state-of-the-art performance across all of these different modalities." “他们做的一件很有趣的事是……把所有东西放在一起训练成非常大的模型……最终得到的是一个单一模型就在所有这些不同模态上都树立了新的最先进性能。”

19:48 Generative Modeling vs. Regression in Structural Biology

本节重点

回归模型面对多解问题会产生“平均化”的虚假构象，扩散模型则能采样多种真实态
后验分布采样允许下游再用独立评分模型筛选最优构象，优于单点预测
生成式框架提供了“教你钓鱼”的能力，而不是只给你一条静态的结构信息

详细精要

回归模型的不确定性表现为有害的平均效应：Gabriele解释，当输入信息不足以确定唯一结构，回归模型会在不同可能性之间折中，输出一个平均结构，而这个平均结构在现实中既不存在也无功能。
比喻为：如果一张图既可能是猫又可能是狗，回归模型会画出一只半猫半狗的怪物；生成模型则会分别画一只猫和一只狗，再由人或其他系统挑选。
这意味着生成模型天然能够表示构象异质性，而无需显式定义有多少种状态。
生成式扩散如何重构结构预测：Boltz-1和AlphaFold 3采用的扩散流程从随机噪声出发，一步步去噪生成三维坐标。
不同于以往直接输出笛卡尔坐标的回归，扩散模型在去噪过程中能探索多种可能路径，每次运行都可能收敛到不同的合理构象，从而得到后验分布的采样。
多轮采样结合pLDDT等置信度指标或专门的评分模型，可以显著提高最终挑选出的构象质量，并且在抗体-抗原等高度困难的界面上，这种多次采样+排名策略已成为标准。
这一转变对整个设计任务的影响深远：RJ后来补充，当你能采样大量候选并有了好用的评分模型，本质就把“结构预测”变成了“排名”问题。
只要采样足够多，很可能有一个接近真实的构象隐藏在样本池中，如果评分模型足够强，就能把它揪出来。
这直接催生了后续BoltzGen中基于采样的蛋白设计流程：生成海量候选序列/结构，然后用Boltz-2类模型进行一致性验证和亲和力评分。

💬 精华片段（中文）

"When you move from a regression problem to a generative modeling problem, you are really tackling the way that you think about uncertainty in the model in a different way." “当你从回归问题转向生成式建模问题，你处理模型中不确定性的方式发生了根本改变。”

25:00 The “Bitter Lesson” and Specialized AI Architectures

本节重点

在结构生物学中，单纯堆算力和通用transformer并未带来如NLP那样的收益
等变架构等专门设计在几何约束强烈的分子数据上仍然遥遥领先
“苦涩教训”虽然部分成立（简化架构有效），但完全抛弃专门化目前不可行

详细精要

“苦涩教训”在蛋白领域的有限适用：面对Brandon的提问，Gabriele指出，AlphaFold 3确实在某些模块上向transformer靠拢，但其核心仍然高度专门化。
领域内不少团队尝试用纯粹的transformer替代等变网络，但绝大多数结果表明，专门考虑三维旋转平移等变性的架构在数据效率、泛化能力上优势巨大。
原因在于分子坐标天然带有欧几里德对称性，通用transformer需要花费极多样本和容量去从数据中“重新发明”这些对称性，而等变架构通过归纳偏置直接编码了物理约束。
缩放法则在结构预测中并未线性成立：Gabriele观察到，与语言模型不同，单纯扩大模型规模和数据量在蛋白结构预测中的收益并不显著。
AlphaFold 2和AlphaFold 3虽然本身也是大模型，但它们的突破更多来自多序列比对信息的利用和架构创新，而非靠暴力堆参数。
这也解释了为何像Boltz-1这样的模型能够在远比AlphaFold小的预算下达到接近水平的性能——设计巧妙的专门架构远胜不假思索的扩展。
业界共识：保留几何归纳偏置：Gabriele认为，在应用机器学习的少数几个仍然坚守专门架构的领域中，分子结构预测很可能是最重要之一。
许多尝试全盘transformer化的论文最终结果都难以令人满意，专门架构在几乎全部关键基准上的表现依然“遥遥领先”。

💬 精华片段（中文）

"There are many people that have tried to replace these architectures with simple transformers … the performance that we get from the specialized architecture is vastly superior than what we get through a single transformer." “有很多人尝试用简单的transformer替代这些架构……我们从专门架构得到的性能远优于单个transformer所能达到的。”

29:14 Development Anecdotes: Training Boltz-1 on a Budget

本节重点

Boltz-1仅训练过一次完整的大模型，全程边修bug边续训，极不稳定
受限于算力，早期模型在美国能源部集群上排队数天，完成训练充满戏剧性
获得Genesis GPU援助后训练才得以加速，突显小型团队起步时的资源瓶颈

详细精要

一次性的“外科手术式”训练：RJ回忆，由于算力极度有限，他们只能训练一次大模型。训练途中发现bug，RJ不得不在运行中热修复：暂停、修改、重新启动，从未从头重新开始。
这种不断叠加修复的“课程学习”让最终模型的训练轨迹无法复现，但他笑称“奇迹般地成功了”。
这反映了当时学术团队面对大规模训练时的无奈与即兴创造力。
排队等GPU的痛苦与转机：Gabriele描述，他们当时主要依赖美国能源部的共享集群，训练两天后作业就被送回队列，可能要再等一个星期才能排到。
这种间断性训练极不利于大规模模型的收敛，整个训练周期被无限拉长。
后来Gabriele向Genesis的CEOEvan介绍了项目困境，Genesis慷慨提供额外GPU支持，才帮助他们顺利跑完最后的训练阶段，否则可能还要多拖延数周。
从资源困境中走出的经验：尽管过程曲折，RJ认为这些经验让团队对数据和模型行为有了极深的直觉，为后续Boltz-2等项目的快速迭代打下了基础。
也直接塑造了他们后来对Boltz Lab中高效基础设施和GPU并行化极度重视的理念。

💬 精华片段（中文）

"We only trained the big model once. That’s how much compute we had. … while the model was training, we were finding bugs left and right. A lot of them that I wrote. And I remember doing surgery in the middle, stopping the run, making the fix, relaunching." “我们只训练过一次那个大模型，因为我们只有那么多算力。……训练过程中，我们不断发现各种bug，很多还是我写的。我记得我就像在做外科手术一样，中途停下训练、修复，然后重新启动。”

32:00 Validation Strategies and the Protein Data Bank (PDB)

本节重点

蛋白结构预测的“黄金标准”评估依赖PDB时间分割：用过去的数据训练，用未来的结构测试
开源发布DiffDock后，与哈佛团队合作发现了模型在远离训练集的蛋白上的泛化短板
由此催生了DocGen基准和新架构，展示出“发现弱点→设计新基准→改进模型”的闭环

详细精要

PDB时间分割保证评估的诚实性：Gabriele解释，PDB是所有结构生物学家共享的实验数据库，评估时通常以某个截止日期前的结构做训练，之后新解析出的结构做测试。
特意挑选那些与训练集高度不相似的新结构，能真正衡量模型的泛化能力，而非记忆能力。
这种方法与CASP竞赛的理念一致，成为蛋白结构预测领域相对其他AI领域而言更为严谨的标准之一。
开源反馈直接暴露出模型的弱点：Gabriele分享了DiffDock的故事：他在博一发表了早期蛋白-小分子对接模型，在当时的基准上表现不错，优于传统物理方法。
但当他们将模型交给哈佛Nick Polizzi组等生物学家使用时，发现模型对与训练蛋白相差较大的新靶点出现了明显的性能骤降。
这一反馈非常宝贵，直接促使他们与Nick合作构建了更有针对性的新基准DocGen，并重新设计架构来提升泛化性。
持续构建更难的基准是领域进步的引擎：Gabriele强调，无论在哪个机器学习子领域，只有设立清晰且不断升级的基准，才能避免模型在“假”指标上过拟合。
他们至今仍采用同样的方法论：不断寻找模型失效的情景，转换成定量基准，再针对性地改进架构和数据策略。
RJ补充，领域内存在大量健康的怀疑精神，大家普遍承认模型还有很多弱点，但每年快速的进步速度也让未来看起来极其乐观。

💬 精华片段（中文）

"One of the amazing things about putting things open source is that we get a ton of feedback from the field. … most of the times, the most useful feedback is people sharing about where it doesn’t work." “开源的一大利好是我们从社区获得大量反馈……大多数时候，最有用的反馈就是人们告诉我们模型哪里不工作。”

37:26 The Mission of Boltz: Democratizing Access and Open Source

本节重点

仅在GitHub上开源模型远不够让生物/化学家真正用上，需要产品化层
Boltz作为公益性公司，使命是民主化获取这些先进工具，服务从学术到药企的所有人
开源模型与商业产品可以互补：开源促进科研进步，商业产品提供极致体验和规模效应

详细精要

模型≠产品，开源只是第一步：Gabriele指出，他们意识到Boltz必须成为一家公司而不是纯学术项目，因为只把模型代码放在GitHub上，绝大多数生物、化学研究者和药企科学家根本无法或不愿自己去配置GPU、处理环境、优化运行。
因此Boltz的愿景是围绕开源模型，构建完整的工作流、界面和基础设施，真正“赋能”科学家，而不是仅仅发布权重文件。
运行成本与推理规模正在成为壁垒：RJ提到，越来越多的情况下，推理阶段的计算量超过了训练，比如采样大量结构需要成百上千次前向传播，这是个人用户很难承担的。
Boltz Lab通过自建GPU集群、编写专用CUDA内核来大幅降低每次推理的延迟和成本，已经能做到比个人自行跑开源代码更低的价格和更高的速度。
他认为这类似LLM领域API价格因为规模经济而断崖式下跌，结构预测服务同样可以做到“花少量的钱，用不起自己运行的费用”。
开源与商业的共生关系：Gabriele明确，即便有优质产品，他们仍会持续开源基础模型，因为：
开源模型能够让全球研究者在上面改进，产生大量可融入产品的创新（比如社区贡献的GPU内核）。
同时，产品层通过对开源模型进行极致优化（如小分子筛选管道10倍加速），提供了一个“无脑”选择的理由，让用户直接在平台上使用更高效的服务。
他将这种关系比作：即使你是AI科学家，也不会自己装一个开源LLM从头运行，而是直接打开ChatGPT或Claude。

💬 精华片段（中文）

"Putting a model on GitHub is definitely not enough to get chemists and biologists across academia, biotech and pharma to use your model in their therapeutic programs." “仅仅把模型放在GitHub上，绝对不足以让学术界、生物科技和制药公司的化学家与生物学家在他们的治疗项目中使用你的模型。”

41:43 Building a Self-Sustaining Research Community

本节重点

Boltz官方Slack社群已有数千人，形成了自发互助的自持生态
社区贡献远非issue报告，包括深入代码的GPU内核优化和巧妙的应用级hack
持续发布多代模型（Boltz-1→Boltz-2→蛋白设计模型）建立了“模型套件”的信任

详细精要

自持社区出乎意料地蓬勃：RJ回忆，他们早期在Slack上回答每个问题几乎不可能，但很快社区成员开始相互回答、分享经验，形成了一个不需要官方时刻干预的自持循环。
每次新模型发布都会引发一波社区增长跳跃，这也反过来激励团队在博文和代码易用性上投入更多精力。
社区贡献深度远超预期：RJ举了两个代表性例子：
有一位开发者针对Boltz架构中一个从AlphaFold 2沿用至今的模块，贡献了一个复杂的GPU内核优化，令他们不解“为什么偏偏是在Boltz上才有人做这件事”。
Gabriele提到Tim O’Donnell在Slack上分享的技巧：由于抗体-抗原预测中模型常常卡在错误构象，他生成了一个“扫描残基”的提示条件——对抗原上的每个第10、第20…个氨基酸硬编码一个“应结合于此”的信号，运行全部扫描后看哪个条件下模型置信度最高，相当于一种粗暴但有效的推理时搜索。
这些灵感直接启发了Boltz团队在后续模型中系统性地发展推理时采样和排序策略。
模型套件生态的护城河：Gabriele认为，社区信任不仅来自单个模型，更来自他们持续释放的一个涵盖结构预测、亲和力预测和蛋白设计的模型套件。
开发者与研究者预期Boltz会在整个任务谱上保持领先或至少极具竞争力，从而将他们作为开源工具的首选，这又进一步放大了社区反馈回路。

💬 精华片段（中文）

"It actually like self-sustaining now … people would answer each other’s questions and help one another, and so the Slack has been really self-sustaining and that’s been really cool to see." “社群现在已经自持了……大家互相回答问题、互相帮助，Slack上的确靠自己运行起来了，这让我们看着特别振奋。”

44:40 Boltz-2 Advancements: Affinity Prediction and Design

本节重点

Boltz-2在结构预测基础上扩展出亲和力预测，直接估算结合剂与靶标的结合强度
蛋白设计采用空白token+条件提示的方案，同时生成折叠结构和氨基酸序列
设计流程中的评分包括结构一致性检验和亲和力预测，后者正替代不准确的置信度指标

详细精要

从结构到亲和力：超越置信度：Gabriele指出，结构预测模型的常用信心指标（如pLDDT）并不能很好反映实际结合强度。
Boltz-2通过在基础结构模型上微调，直接学习预测“这个分子与这个蛋白结合得有多紧”，即亲和力预测。
相比简单地看模型对输出结构的自我置信度，显式的亲和力预测能极大提高从海量设计候选中挑出真正强结合物的命中率。
蛋白设计的工作流程：Gabriele描述BoltzGen的工作方式：
用户输入一个靶蛋白（或DNA/RNA），并提供一个高层“设计规格”——例如“我要一个基于某种抗体框架的纳米抗体”。
模型接收规格后，对应输出一串空白token（代表待设计的蛋白），扩散过程同时去噪出三维结构和各位置氨基酸的原子的精确坐标。
生成后，先通过一致性过滤（预测的结构是否与设计意图一致），再结合亲和力评分筛选。
RJ补充，这本质上是把设计过程变成了一个“采样大量候选+高效排名”的问题，只要排名模型够好，推理时扩展就能持续提升设计成功率。
团队内部功臣Hannes Stark的领导：RJ特别强调，Hannes Stark是实现Boltz-2架构创新的关键人物，贡献了大量核心工作。这也凸显了Boltz在平衡开源研究与产品化时对顶尖人才的追求。

💬 精华片段（中文）

"Our ability to take a structure and determine that that structure is good … is a really powerful way of improving the models. … now part of the inference time scaling … is very much that: the more we sample, the more the ranking model ends up finding something it really likes." “我们判断一个结构好不好的能力，是极强大的模型提升手段。……现在推理时间扩展的很大一部分就体现在：采样越多，评分模型就越可能发现它真正喜欢的好构象。”

51:03 BoltzGen: Merging Structure and Sequence Prediction

本节重点

BoltzGen的创新在于将离散的序列预测和连续的结构预测统一为单一的原子坐标预测任务
通过一种特定编码，氨基酸身份由原子的空间排列自然确定，无需单独的序列监督
这一设计解决了离散与连续监督信号不兼容的难题，极大提升了可扩展性和性能

详细精要

统一监督信号的优雅设计：Gabriele揭示了BoltzGen的核心思想：扩散模型只接收来自三维结构的监督信号。
由于每个氨基酸都有独特的原子组成和空间排布，如果模型正确预测了原子的种类和位置，就等于隐式地决定了那是哪种氨基酸。
由此，一个单一的、连续的坐标损失就能同时优化结构和序列，避免了以往模型需要同时处理离散序列交叉熵和坐标MSE时的训练不稳和信号冲突。
空白token与条件机制：设计时，待设计的蛋白部分由空白token填充，这些token不携带序列信息，仅提供占位。
模型在扩散去噪过程中，会根据靶标和给出的框架条件，自动“想出”最适合这些位置的原子，进而解码出氨基酸序列。
Brandon惊叹这种“原子排列编码氨基酸”的想法非常聪明，Gabriele和RJ指出这一概念在之前已有几篇论文提出，但Hannes Stark真正将其推到了大规模生产级别。
该方案的可扩展性：由于整个流程建立在与AlphaFold 3相似的扩散框架上，推理和训练都高度可并行，BoltzGen可以直接从大规模结构数据中受益，而无需额外的高质量序列-结构对等双向标注数据。
这也使得他们在多个湿实验验证中能够进行上万级别的候选生成与筛选，而不被序列解码的复杂性所限。

💬 精华片段（中文）

"Because the structure is atomic and the different amino acids have a different atomic composition, basically from the way that you place the atoms, we also understand not only the structure but also the identity of the amino acid." “因为结构是原子级的，不同氨基酸具有不同的原子组成，从你放置原子的方式，我们就不仅能知道结构，还能推断出那是哪个氨基酸。”

55:18 Large-Scale Wet Lab Validation Results

本节重点

为获得广泛统计信心，Boltz组织了25个学术/工业实验室对多种设计任务进行测试
在9个无已知互作PDB记录的靶点上，三分之二获得了纳摩尔级结合物
验证覆盖了纳米抗体、肽、小分子结合蛋白、无序蛋白等多种模态，强有力地支撑了模型泛化能力

详细精要

跨上超多实验室的协同验证：Gabriele强调，Boltz并非湿实验团队，因此Hannes Stark等人主动联络了约25个实验室，涵盖学术界和工业界，共同验证模型生成的设计。
每个实验室在自己的靶点和体系上测试设计结果，并将数据返回给Boltz，部分实验仍在进行中。
已在论文中发布的初步结果来自8到10个不同实验室，跨越了多种设计任务：肽设计、有序蛋白靶向、无序蛋白靶向、蛋白与小分子结合、纳米体设计等，充分证明了模型的广泛适用性。
关键的通用性验证：无已知互作的9个靶点：Gabriele描述了最严谨的一项泛化测试：
他们从PDB中筛选出9个没有任何已知配体或结合伙伴的靶蛋白，确保模型在训练时从未见过类似的复合物。
与Adaptive CRO合作，针对每个靶点设计并实际合成测试了15个微型蛋白和15个纳米抗体。
结果：三分之二的靶点上获得了纳摩尔级的结合物。纳摩尔亲和力通常被认为是治疗性抗体的标准范围。
这一结果极其有力地证明了BoltzGen并非对训练数据的简单复现，而是真正掌握了某种通用设计能力。
验证与产品化的联结：RJ补充，这些湿实验数据不仅用于发论文，更是Boltz Lab产品中评分模型和Agent优化的直接反馈源。
随着更多靶点和更多轮次测试的数据回流，Boltz的模型能够从真实的物理结合结果中持续学习改进。

💬 精华片段（中文）

"We took nine targets from the PDB, filtering to things where there is no known interaction in the PDB … on two thirds of those targets, we were able to get nanomolar binders." “我们从PDB中拿了九个没有任何已知互作的靶标……在三分之二的靶标上，我们得到了纳摩尔级的结合物。”

01:02:44 Boltz Lab Product Launch: Agents and Infrastructure

本节重点

Boltz Lab平台提供一站式蛋白与small molecule设计Agent，封装完整管线
平台基础设施通过专用GPU内核实现了比开源快10倍的速度，并支持大规模并行筛选
用户界面支持多位药物化学家协作排名、建立共识，API面向企业集成，学术用户免费额度

详细精要

Agent理念：设计空间的自动化搜索：RJ将Boltz Lab中的核心逻辑称为Agent，目前有蛋白设计Agent和小分子设计Agent。
这些Agent不仅仅是单个模型调用，而是一整套管线，包括：靶标准备（运用各种技巧提升目标结构预测质量）、设计生成（扩散模型产生候选）、可合成性过滤（小分子方面，确保输出的分子能用商业砌块合成）、亲和力评分和排名。
RJ比喻为“一份菜谱”，将复杂的多步操作包装成自动化流水线。
基础设施的速度与规模：并行化是Boltz Lab的核心竞争力之一。RJ解释，设计10万个小分子候选，每个需要几秒，若串行则需要数周，但在Boltz Lab的多GPU集群上可以极短时间完成。
他们投入巨大精力开发专用GPU内核，使得小分子筛选流水线比开源版本快10倍，大大降低了时间和金钱成本。
技术上，一台GPU运行1分钟和一万台GPU运行1分钟成本可趋同，并行化就是将用户从等待中解放出来的关键。
界面：从计算科学家到药物化学家的桥梁：RJ描述Boltz Lab提供两种接口：
API适合公司集成，已有合作分销商准备将API嵌入他们的平台。
用户界面则面向更广泛的科学家，包含协作功能，例如多位药物化学家可以对同一批生成分子各自打分，再求共识排名，最后选出送湿实验室的候选物。
这种设计直接回应了Gabriele“让外科医生直接买手术刀，而不是设计手术刀”的理念：让用户专注于科学假设，而不是GPU运维。
普适的接入政策：RJ强调，Boltz延续开源精神，对学术界提供大量免费额度，对初创和生物科技公司也通常会通过电话了解需求并赠送启动额度，大型药企则可定制化部署。
这种全覆盖策略意在确保不会因为价格或规模壁垒将任何潜在使用者拒之门外。

💬 精华片段（中文）

"Our small molecule screening pipeline is 10x faster on Boltz Lab than it is in the open source … we really wanted to get to a point where it would be a no-brainer to use Boltz through our platform." “我们在Boltz Lab上的小分子筛选管道比开源版本快10倍……我们真的想做到一点：通过我们平台使用Boltz是完全不需要思考的选择。”

01:13:06 Future Directions: Developpability and the “Virtual Cell”

本节重点

下一阶段需要从“设计结合剂”延伸到考虑ADME等成药性特征，即“可开发性”
实现可开发性需要模型对细胞内通路和相互作用有更深入的理解，但不等于造“虚拟细胞”
反馈循环：根据体内实验数据迭代模型预测，让模型不仅能预测生物物理结合，还能预测功能结果

详细精要

从结合到成药，差距巨大：Gabriele强调，他们设计出的分子只是潜在“结合剂”，离真正的药物还有漫长的开发过程（临床前、临床I/II/III期、审批）。
药物开发中还需考虑可开发性（developability properties）：溶解度、代谢稳定性、渗透性、毒性等，模型下一步需要开始朝这些属性优化。
这要求模型开始理解分子在细胞环境中的行为，而不只是孤立的两分子结合。
无需模拟整个细胞，但要懂得语境：Gabriele澄清，他们并没有在建造一个“虚拟细胞”的宏大蓝图，但他们确实在深入思考：当一个药物分子与靶标结合时，会如何扰动细胞内已存在的信号通路。
例如，即使是针对同一病毒靶标，不同的表位结合模式可能引发截然不同的细胞应答，这需要模型不仅能预测结合，还能将实验反馈整合进来。
因此，Boltz Lab的平台设计本就蕴含了实验-模型闭环：科学家在体内模型上测试不同表位的设计后，把有效/无效的结果喂回给模型，让模型从一个纯“生物物理学家”成长为一个“功能洞察者”。
持续推动边界的目标：Gabriele说，他们选择验证靶点时，总是刻意挑选刚好在现有技术“可行边界”上的那些，既不太简单（容易饱和），也不太难（无法衡量进展）。
对可开发性的探索将是下一个边界，随着模型能力增强，适用靶点范围会逐步从“容易成药”的经典靶点向更复杂的无序蛋白、蛋白-蛋白界面等延伸。

💬 精华片段（中文）

"We try to keep ourselves on the boundary of what’s possible … you don’t want something too easy, you don’t want something too hard." “我们试图把自己保持在可能性边界上……既不要选太简单的，也不要选太难的。”

01:17:35 Interacting with Skeptical Medicinal Chemists

本节重点

药物化学家对AI生成分子最初极为怀疑，需要实际的实验成功才能改变观念
招募专业药物化学家Jeffrey加入团队，他从怀疑转变为平台重度用户
产品设计上鼓励化学家进行并行假设筛选，利用人类直觉过滤模型输出

详细精要

药物化学家的“魔法”与怀疑：Brandon坦言，他遇到的资深药物化学家往往极度怀疑机器学习模型，但同时他们又像是拥有某种“魔法直觉”，屡屡成功却难以言传。
Gabriele承认初期也面临这种阻力，产品初期甚至不被内部化学家看好。
内部的“转化者”Jeffrey：Gabriele分享，招聘药物化学家Jeffrey加入后，他第一天就对产品提出了大量批评和修改意见。
但随着平台根据他的反馈不断迭代，Jeffrey逐渐从被动的怀疑者变成了全公司最活跃的平台用户。
他经常利用数百个GPU并行运行多个假设性的“筛选子空间”：比如“如果我针对这个蛋白的这种构象”，“如果我优化这种特定分子砌块库”，生成好几批候选，再结合化学直觉圈定最有潜力的分子，最终筛选出既有模型高分又符合人工经验的化合物。
用产品设计来赢得信任：Gabriele和RJ总结，只有通过实验验证获得真正的hits，才能让化学家真正信服，但产品设计可以加速这个过程。
Boltz Lab的协作排名功能正是为此而生：让多位化学家分别评判、汇总共识，给予他们掌控感，而不是一个黑箱。
RJ认为，每个人都需要一次“啊哈时刻”——即模型预测了一个化学家原以为不可能的分子，并真的在实验中生效，之后整个态度就会彻底转变。

💬 精华片段（中文）

"I think at the end of the day, for people to be convinced, you have to show them something that they didn’t think was possible. And until you have that aha moment, the skepticism will remain." “说到底，要让人们信服，你得给他们展示一个他们原本认为不可能的东西。在迎来那个‘啊哈’瞬间之前，怀疑会一直存在。”

专业术语注释

术语	解释
AlphaFold	DeepMind开发的蛋白质结构预测模型，AlphaFold 2几乎解决了单链蛋白预测，AlphaFold 3扩展到多模态复合物预测
Boltz-1 / Boltz-2 / BoltzGen	Boltz公司开发的系列开源模型，分别专注于结构预测、亲和力预测和蛋白从头设计
Boltz Lab	Boltz推出的商业化平台，提供蛋白与小分子设计Agent、GPU加速和协作界面
CASP	蛋白质结构预测关键评估竞赛，被视作该领域的“奥赛”，每两年评估模型在全新靶点上的表现
PDB	蛋白质数据银行，所有结构生物学实验结果的公共数据库，用于训练和评估
MSA	多序列比对，通过比对不同物种同源序列提取共进化信息，是AlphaFold类模型关键输入
共进化景观	序列中性位变异的统计模式，反映空间邻近残基的协同演进
扩散模型	一种生成式模型，从噪声逐步去噪生成数据，用于采样蛋白质结构的后验分布
回归 vs. 生成式建模	回归直接预测单一点估计，生成式建模学习分布并采样多种可能解
等变架构	一种神经网络设计，保证输出随输入坐标的旋转、平移而相应等量变化，适合分子三维数据
pLDDT	预测局部差异检验分数，AlphaFold输出的逐残基置信度指标
亲和力	分子间结合的强度，通常用解离常数Kd表示，纳摩尔级是治疗性抗体的典型要求
纳米抗体	来源于骆驼科重链抗体的单域抗体，体积小、稳定性高，是新兴药物模态
CRO	合同研究组织，提供外包的湿实验室实验服务
ADME / 可开发性	吸收、分布、代谢、排泄及毒性等药物属性，决定候选分子是否能成为药物
推理时扩展	在推理阶段通过多采样、自洽性检查等手段提升输出质量的技术

延伸思考

进化信号的过度依赖：当前模型在缺乏MSA的蛋白、de novo蛋白和抗体等分子上性能下降，未来能否通过更好的预训练或物理先验弥补？
开源与商业化的平衡：Boltz的模式（开源底层模型+商业化加速服务）是否能够持续吸引社区贡献，同时避免被云厂商直接提供基于开源模型的竞争服务？
湿实验验证闭环：若模型真的开始输出“药物候选”，Boltz作为工具提供者如何与客户划分知识产权？纯粹工具化是否会限制自身在更早期发现阶段的深度参与？
药物化学家的信任鸿沟：除了生成hits，还需要什么样的解释性、可控性和合规性功能，才能让AI设计分子真正融入药企的决策管线？
泛化的“虚拟细胞”：玻尔兹曼等公司不追求虚拟细胞，但为了可开发性预测，模型对细胞过程的理解需要多深？是否可能出现介于分子对接与系统生物学之间的新型建模范式？

原文发表：Feb 12, 2026 · 纪要生成：2026-04-28