来源: Latent Space播客 | Gabriele Corso & Jeremy Wohlwend | Feb 12, 2026
分类: 其他
原文发表: Feb 12, 2026
纪要生成: 2026-04-28
Gabriele Corso和Jeremy Wohlwend是Boltz的联合创始人,也是《Boltz宣言》的作者。他们曾分别参与蛋白‑小分子对接模型DiffDock等早期工作,并在AlphaFold 2发表后投身于复杂生物分子互作的建模。本集对话从结构预测的进化性线索讲起,深入剖析AlphaFold 3引入的扩散生成框架,以及Boltz-1、Boltz-2和BoltzGen等开源模型如何将设计能力推向全新蛋白与药物分子的从头生成,并最终推出面向研究者的Boltz Lab平台。
本节重点 - 单链蛋白结构预测借助进化信号已近“解决”,但泛化到其他模态仍很难 - 模型在缺乏共进化景观时性能骤降,结构预测与折叠过程是两个不同问题 - “解决”一词在学界争议很大,因为蛋白并非静态,多态性建模仍存巨大空白
详细精要
Gabriele补充,CASP14 可以说某个问题已被“全面解决”,但这只是起点,真正的开放问题远多于已闭合的。
单链蛋白预测高度依赖进化共变信号:模型通过比对新蛋白质在不同物种中的同源序列,发现某些位点倾向于同步突变,这种相关性暗示它们在三维空间中邻近。
一旦缺失这类演化信息,模型就变得非常吃力,表明当前架构更多是在解码演化统计信号,而非真正从头学习物理原理。
结构预测 vs. 折叠动力学存在根本差异:RJ强调,常被混淆的“结构预测”是直接给出终态,“折叠”则是无序链如何经历一系列中间状态达到终态的动力学过程,后者几乎没有任何实质进展。
RJ补充,蛋白质并非静止,它们在能量曲面上的不同构象之间切换,当前模型对这种多态性及其概率分布的建模能力仍然很弱。
即便有进化线索,终结答案仍需要局部物理优化:RJ推测,模型在通过统计信号进入解空间大致区域后,可能学到了一种“轻量级”的物理知识,足以在那个谷底内微调至更低能量态,但远不足以在整个空间自由导航。
💬 精华片段(中文)
"The problem that a lot of progress was made on was the ability to predict the structure of single chain proteins. … part of the breakthrough has been our ability to decode [co-evolutionary hints] very effectively. But in absence of that co-evolutionary landscape, the models don’t quite perform as well." “取得巨大进展的问题是对单链蛋白的结构预测……突破部分来自我们高效解码[共进化线索]的能力;但当这种共进化景观不存在时,模型的表现就差得多了。”
本节重点 - 协同进化的残基对在三维结构中空间距离近,成为推断整体折叠的强线索 - 蛋白折叠问题曾被视作组合爆炸的NP难题,机器学习的成功令理论计算机科学界震惊 - 进化保守性不仅给出局部距离约束,还通过大量序列的统计模式串成全局构象
详细精要
这些接触相当于给蛋白的“三维谷地”设置了路标,把搜索范围从天文数字缩小到可能解附近,极大降低了计算复杂度。
从理论CS难题到机器学习里程碑:Gabriele回忆,蛋白质折叠曾作为一个典型的NP完全问题被理论计算机科学家研究多年——可能的构象随序列长度呈组合爆炸,纯物理模拟几乎无解。
Brandon提到Andrew White曾告诉他们,在AlphaFold之前甚至有专门为折叠问题开发的ASIC芯片,可见人们为此投入了数以百万计的计算小时。
从多序列比对到全局结构的“两阶段”假说:Gabriele借用MIT的Sergio Chinico的解释:AlphaFold的架构操作在残基成对上下文中,MSA首先给出“哪些残基可能接触”的初猜。
💬 精华片段(中文)
"It’s almost like the protein through several, probably random mutations and evolution, ends up sort of figuring out that this other amino acid needs to change as well for the structure to be conserved." “几乎可以说,蛋白在经历大量可能随机的突变和进化之后,最终‘摸索’出:为了保持结构,另一个氨基酸也必须一起变。”
本节重点 - 蛋白是细胞中的“分子机器”,其功能由与其他分子的相互作用决定 - 了解蛋白最终构象就像看到整辆车,而不仅仅是零件清单 - 折叠过程本身与疾病密切相关,不懂过程就无法干预错误折叠引发的疾病
详细精要
仅知道氨基酸序列就像只有零件列表,看到三维结构才相当于看到组装好的汽车,能真正理解其运作原理。
折叠过程的理解对疾病干预至关重要:Brandon追问“为什么中间状态重要”,Gabriele回答,很多疾病涉及蛋白错误折叠,如果我们不明白折叠是如何进行的,就无从设计干预手段。
RJ引用AlphaFold 2论文中的点睛之笔:对于能正确折叠的蛋白,其折叠过程几乎是瞬时完成的,这本身就暗示该过程受物理定律严格约束,因此值得用计算方法去预测。
折叠的瞬时性提供了“可预测”的信心:RJ认为,那个观察——许多蛋白的折叠是瞬时的——是一个强烈的信号,表明这一过程并非混乱无章,而是遵循某种可捕捉的规律。
💬 精华片段(中文)
"It’s a bit like seeing the difference between having a list of parts that you would put in a car and seeing the car in its final form — seeing the car really helps you understand what it does." “这有点像看汽车零件清单和看一辆完整汽车的区别——看到整车才真正理解它的功能。”
本节重点 - AlphaFold 2之后,领域最大挑战转向复合物互作预测(蛋白-蛋白、蛋白-小分子、蛋白-核酸) - AlphaFold 3通过统一多模态、切换至扩散生成框架并简化架构实现了新SOTA - 交互建模直接关系到药物设计和功能理解,是蛋白质“功能解析”的核心
详细精要
当时很多团队分开处理不同的互作类型,但AlphaFold 3的核心贡献在于用一个单一模型覆盖了所有这些模态,极大简化了应用和泛化。
扩散生成与架构进化是两大技术跨越:Gabriele列举了AlphaFold 3的关键革新:
这种简化提高了可扩展性,使得训练更深的模型成为可能,但也引发了领域内关于是否应完全拥抱“苦涩教训”的争论(后文展开)。
互作预测与功能揭示的直接链接:Gabriele进一步强调,当要设计干预分子时,我们实际上是在设计一个与靶蛋白以特定方式互作的新分子,因此互作预测几乎就等于功能预测。
💬 精华片段(中文)
"One of the interesting things that they were able to do … they put everything together and trained very large models … and managed to get a single model that was able to set this new state-of-the-art performance across all of these different modalities." “他们做的一件很有趣的事是……把所有东西放在一起训练成非常大的模型……最终得到的是一个单一模型就在所有这些不同模态上都树立了新的最先进性能。”
本节重点 - 回归模型面对多解问题会产生“平均化”的虚假构象,扩散模型则能采样多种真实态 - 后验分布采样允许下游再用独立评分模型筛选最优构象,优于单点预测 - 生成式框架提供了“教你钓鱼”的能力,而不是只给你一条静态的结构信息
详细精要
这意味着生成模型天然能够表示构象异质性,而无需显式定义有多少种状态。
生成式扩散如何重构结构预测:Boltz-1和AlphaFold 3采用的扩散流程从随机噪声出发,一步步去噪生成三维坐标。
多轮采样结合pLDDT等置信度指标或专门的评分模型,可以显著提高最终挑选出的构象质量,并且在抗体-抗原等高度困难的界面上,这种多次采样+排名策略已成为标准。
这一转变对整个设计任务的影响深远:RJ后来补充,当你能采样大量候选并有了好用的评分模型,本质就把“结构预测”变成了“排名”问题。
💬 精华片段(中文)
"When you move from a regression problem to a generative modeling problem, you are really tackling the way that you think about uncertainty in the model in a different way." “当你从回归问题转向生成式建模问题,你处理模型中不确定性的方式发生了根本改变。”
本节重点 - 在结构生物学中,单纯堆算力和通用transformer并未带来如NLP那样的收益 - 等变架构等专门设计在几何约束强烈的分子数据上仍然遥遥领先 - “苦涩教训”虽然部分成立(简化架构有效),但完全抛弃专门化目前不可行
详细精要
原因在于分子坐标天然带有欧几里德对称性,通用transformer需要花费极多样本和容量去从数据中“重新发明”这些对称性,而等变架构通过归纳偏置直接编码了物理约束。
缩放法则在结构预测中并未线性成立:Gabriele观察到,与语言模型不同,单纯扩大模型规模和数据量在蛋白结构预测中的收益并不显著。
这也解释了为何像Boltz-1这样的模型能够在远比AlphaFold小的预算下达到接近水平的性能——设计巧妙的专门架构远胜不假思索的扩展。
业界共识:保留几何归纳偏置:Gabriele认为,在应用机器学习的少数几个仍然坚守专门架构的领域中,分子结构预测很可能是最重要之一。
💬 精华片段(中文)
"There are many people that have tried to replace these architectures with simple transformers … the performance that we get from the specialized architecture is vastly superior than what we get through a single transformer." “有很多人尝试用简单的transformer替代这些架构……我们从专门架构得到的性能远优于单个transformer所能达到的。”
本节重点 - Boltz-1仅训练过一次完整的大模型,全程边修bug边续训,极不稳定 - 受限于算力,早期模型在美国能源部集群上排队数天,完成训练充满戏剧性 - 获得Genesis GPU援助后训练才得以加速,突显小型团队起步时的资源瓶颈
详细精要
这反映了当时学术团队面对大规模训练时的无奈与即兴创造力。
排队等GPU的痛苦与转机:Gabriele描述,他们当时主要依赖美国能源部的共享集群,训练两天后作业就被送回队列,可能要再等一个星期才能排到。
后来Gabriele向Genesis的CEOEvan介绍了项目困境,Genesis慷慨提供额外GPU支持,才帮助他们顺利跑完最后的训练阶段,否则可能还要多拖延数周。
从资源困境中走出的经验:尽管过程曲折,RJ认为这些经验让团队对数据和模型行为有了极深的直觉,为后续Boltz-2等项目的快速迭代打下了基础。
💬 精华片段(中文)
"We only trained the big model once. That’s how much compute we had. … while the model was training, we were finding bugs left and right. A lot of them that I wrote. And I remember doing surgery in the middle, stopping the run, making the fix, relaunching." “我们只训练过一次那个大模型,因为我们只有那么多算力。……训练过程中,我们不断发现各种bug,很多还是我写的。我记得我就像在做外科手术一样,中途停下训练、修复,然后重新启动。”
本节重点 - 蛋白结构预测的“黄金标准”评估依赖PDB时间分割:用过去的数据训练,用未来的结构测试 - 开源发布DiffDock后,与哈佛团队合作发现了模型在远离训练集的蛋白上的泛化短板 - 由此催生了DocGen基准和新架构,展示出“发现弱点→设计新基准→改进模型”的闭环
详细精要
这种方法与CASP竞赛的理念一致,成为蛋白结构预测领域相对其他AI领域而言更为严谨的标准之一。
开源反馈直接暴露出模型的弱点:Gabriele分享了DiffDock的故事:他在博一发表了早期蛋白-小分子对接模型,在当时的基准上表现不错,优于传统物理方法。
这一反馈非常宝贵,直接促使他们与Nick合作构建了更有针对性的新基准DocGen,并重新设计架构来提升泛化性。
持续构建更难的基准是领域进步的引擎:Gabriele强调,无论在哪个机器学习子领域,只有设立清晰且不断升级的基准,才能避免模型在“假”指标上过拟合。
💬 精华片段(中文)
"One of the amazing things about putting things open source is that we get a ton of feedback from the field. … most of the times, the most useful feedback is people sharing about where it doesn’t work." “开源的一大利好是我们从社区获得大量反馈……大多数时候,最有用的反馈就是人们告诉我们模型哪里不工作。”
本节重点 - 仅在GitHub上开源模型远不够让生物/化学家真正用上,需要产品化层 - Boltz作为公益性公司,使命是民主化获取这些先进工具,服务从学术到药企的所有人 - 开源模型与商业产品可以互补:开源促进科研进步,商业产品提供极致体验和规模效应
详细精要
因此Boltz的愿景是围绕开源模型,构建完整的工作流、界面和基础设施,真正“赋能”科学家,而不是仅仅发布权重文件。
运行成本与推理规模正在成为壁垒:RJ提到,越来越多的情况下,推理阶段的计算量超过了训练,比如采样大量结构需要成百上千次前向传播,这是个人用户很难承担的。
他认为这类似LLM领域API价格因为规模经济而断崖式下跌,结构预测服务同样可以做到“花少量的钱,用不起自己运行的费用”。
开源与商业的共生关系:Gabriele明确,即便有优质产品,他们仍会持续开源基础模型,因为:
💬 精华片段(中文)
"Putting a model on GitHub is definitely not enough to get chemists and biologists across academia, biotech and pharma to use your model in their therapeutic programs." “仅仅把模型放在GitHub上,绝对不足以让学术界、生物科技和制药公司的化学家与生物学家在他们的治疗项目中使用你的模型。”
本节重点 - Boltz官方Slack社群已有数千人,形成了自发互助的自持生态 - 社区贡献远非issue报告,包括深入代码的GPU内核优化和巧妙的应用级hack - 持续发布多代模型(Boltz-1→Boltz-2→蛋白设计模型)建立了“模型套件”的信任
详细精要
每次新模型发布都会引发一波社区增长跳跃,这也反过来激励团队在博文和代码易用性上投入更多精力。
社区贡献深度远超预期:RJ举了两个代表性例子:
这些灵感直接启发了Boltz团队在后续模型中系统性地发展推理时采样和排序策略。
模型套件生态的护城河:Gabriele认为,社区信任不仅来自单个模型,更来自他们持续释放的一个涵盖结构预测、亲和力预测和蛋白设计的模型套件。
💬 精华片段(中文)
"It actually like self-sustaining now … people would answer each other’s questions and help one another, and so the Slack has been really self-sustaining and that’s been really cool to see." “社群现在已经自持了……大家互相回答问题、互相帮助,Slack上的确靠自己运行起来了,这让我们看着特别振奋。”
本节重点 - Boltz-2在结构预测基础上扩展出亲和力预测,直接估算结合剂与靶标的结合强度 - 蛋白设计采用空白token+条件提示的方案,同时生成折叠结构和氨基酸序列 - 设计流程中的评分包括结构一致性检验和亲和力预测,后者正替代不准确的置信度指标
详细精要
相比简单地看模型对输出结构的自我置信度,显式的亲和力预测能极大提高从海量设计候选中挑出真正强结合物的命中率。
蛋白设计的工作流程:Gabriele描述BoltzGen的工作方式:
RJ补充,这本质上是把设计过程变成了一个“采样大量候选+高效排名”的问题,只要排名模型够好,推理时扩展就能持续提升设计成功率。
团队内部功臣Hannes Stark的领导:RJ特别强调,Hannes Stark是实现Boltz-2架构创新的关键人物,贡献了大量核心工作。这也凸显了Boltz在平衡开源研究与产品化时对顶尖人才的追求。
💬 精华片段(中文)
"Our ability to take a structure and determine that that structure is good … is a really powerful way of improving the models. … now part of the inference time scaling … is very much that: the more we sample, the more the ranking model ends up finding something it really likes." “我们判断一个结构好不好的能力,是极强大的模型提升手段。……现在推理时间扩展的很大一部分就体现在:采样越多,评分模型就越可能发现它真正喜欢的好构象。”
本节重点 - BoltzGen的创新在于将离散的序列预测和连续的结构预测统一为单一的原子坐标预测任务 - 通过一种特定编码,氨基酸身份由原子的空间排列自然确定,无需单独的序列监督 - 这一设计解决了离散与连续监督信号不兼容的难题,极大提升了可扩展性和性能
详细精要
由此,一个单一的、连续的坐标损失就能同时优化结构和序列,避免了以往模型需要同时处理离散序列交叉熵和坐标MSE时的训练不稳和信号冲突。
空白token与条件机制:设计时,待设计的蛋白部分由空白token填充,这些token不携带序列信息,仅提供占位。
Brandon惊叹这种“原子排列编码氨基酸”的想法非常聪明,Gabriele和RJ指出这一概念在之前已有几篇论文提出,但Hannes Stark真正将其推到了大规模生产级别。
该方案的可扩展性:由于整个流程建立在与AlphaFold 3相似的扩散框架上,推理和训练都高度可并行,BoltzGen可以直接从大规模结构数据中受益,而无需额外的高质量序列-结构对等双向标注数据。
💬 精华片段(中文)
"Because the structure is atomic and the different amino acids have a different atomic composition, basically from the way that you place the atoms, we also understand not only the structure but also the identity of the amino acid." “因为结构是原子级的,不同氨基酸具有不同的原子组成,从你放置原子的方式,我们就不仅能知道结构,还能推断出那是哪个氨基酸。”
本节重点 - 为获得广泛统计信心,Boltz组织了25个学术/工业实验室对多种设计任务进行测试 - 在9个无已知互作PDB记录的靶点上,三分之二获得了纳摩尔级结合物 - 验证覆盖了纳米抗体、肽、小分子结合蛋白、无序蛋白等多种模态,强有力地支撑了模型泛化能力
详细精要
已在论文中发布的初步结果来自8到10个不同实验室,跨越了多种设计任务:肽设计、有序蛋白靶向、无序蛋白靶向、蛋白与小分子结合、纳米体设计等,充分证明了模型的广泛适用性。
关键的通用性验证:无已知互作的9个靶点:Gabriele描述了最严谨的一项泛化测试:
这一结果极其有力地证明了BoltzGen并非对训练数据的简单复现,而是真正掌握了某种通用设计能力。
验证与产品化的联结:RJ补充,这些湿实验数据不仅用于发论文,更是Boltz Lab产品中评分模型和Agent优化的直接反馈源。
💬 精华片段(中文)
"We took nine targets from the PDB, filtering to things where there is no known interaction in the PDB … on two thirds of those targets, we were able to get nanomolar binders." “我们从PDB中拿了九个没有任何已知互作的靶标……在三分之二的靶标上,我们得到了纳摩尔级的结合物。”
本节重点 - Boltz Lab平台提供一站式蛋白与small molecule设计Agent,封装完整管线 - 平台基础设施通过专用GPU内核实现了比开源快10倍的速度,并支持大规模并行筛选 - 用户界面支持多位药物化学家协作排名、建立共识,API面向企业集成,学术用户免费额度
详细精要
RJ比喻为“一份菜谱”,将复杂的多步操作包装成自动化流水线。
基础设施的速度与规模:并行化是Boltz Lab的核心竞争力之一。RJ解释,设计10万个小分子候选,每个需要几秒,若串行则需要数周,但在Boltz Lab的多GPU集群上可以极短时间完成。
技术上,一台GPU运行1分钟和一万台GPU运行1分钟成本可趋同,并行化就是将用户从等待中解放出来的关键。
界面:从计算科学家到药物化学家的桥梁:RJ描述Boltz Lab提供两种接口:
这种设计直接回应了Gabriele“让外科医生直接买手术刀,而不是设计手术刀”的理念:让用户专注于科学假设,而不是GPU运维。
普适的接入政策:RJ强调,Boltz延续开源精神,对学术界提供大量免费额度,对初创和生物科技公司也通常会通过电话了解需求并赠送启动额度,大型药企则可定制化部署。
💬 精华片段(中文)
"Our small molecule screening pipeline is 10x faster on Boltz Lab than it is in the open source … we really wanted to get to a point where it would be a no-brainer to use Boltz through our platform." “我们在Boltz Lab上的小分子筛选管道比开源版本快10倍……我们真的想做到一点:通过我们平台使用Boltz是完全不需要思考的选择。”
本节重点 - 下一阶段需要从“设计结合剂”延伸到考虑ADME等成药性特征,即“可开发性” - 实现可开发性需要模型对细胞内通路和相互作用有更深入的理解,但不等于造“虚拟细胞” - 反馈循环:根据体内实验数据迭代模型预测,让模型不仅能预测生物物理结合,还能预测功能结果
详细精要
这要求模型开始理解分子在细胞环境中的行为,而不只是孤立的两分子结合。
无需模拟整个细胞,但要懂得语境:Gabriele澄清,他们并没有在建造一个“虚拟细胞”的宏大蓝图,但他们确实在深入思考:当一个药物分子与靶标结合时,会如何扰动细胞内已存在的信号通路。
因此,Boltz Lab的平台设计本就蕴含了实验-模型闭环:科学家在体内模型上测试不同表位的设计后,把有效/无效的结果喂回给模型,让模型从一个纯“生物物理学家”成长为一个“功能洞察者”。
持续推动边界的目标:Gabriele说,他们选择验证靶点时,总是刻意挑选刚好在现有技术“可行边界”上的那些,既不太简单(容易饱和),也不太难(无法衡量进展)。
💬 精华片段(中文)
"We try to keep ourselves on the boundary of what’s possible … you don’t want something too easy, you don’t want something too hard." “我们试图把自己保持在可能性边界上……既不要选太简单的,也不要选太难的。”
本节重点 - 药物化学家对AI生成分子最初极为怀疑,需要实际的实验成功才能改变观念 - 招募专业药物化学家Jeffrey加入团队,他从怀疑转变为平台重度用户 - 产品设计上鼓励化学家进行并行假设筛选,利用人类直觉过滤模型输出
详细精要
Gabriele承认初期也面临这种阻力,产品初期甚至不被内部化学家看好。
内部的“转化者”Jeffrey:Gabriele分享,招聘药物化学家Jeffrey加入后,他第一天就对产品提出了大量批评和修改意见。
他经常利用数百个GPU并行运行多个假设性的“筛选子空间”:比如“如果我针对这个蛋白的这种构象”,“如果我优化这种特定分子砌块库”,生成好几批候选,再结合化学直觉圈定最有潜力的分子,最终筛选出既有模型高分又符合人工经验的化合物。
用产品设计来赢得信任:Gabriele和RJ总结,只有通过实验验证获得真正的hits,才能让化学家真正信服,但产品设计可以加速这个过程。
💬 精华片段(中文)
"I think at the end of the day, for people to be convinced, you have to show them something that they didn’t think was possible. And until you have that aha moment, the skepticism will remain." “说到底,要让人们信服,你得给他们展示一个他们原本认为不可能的东西。在迎来那个‘啊哈’瞬间之前,怀疑会一直存在。”
| 术语 | 解释 |
|---|---|
| AlphaFold | DeepMind开发的蛋白质结构预测模型,AlphaFold 2几乎解决了单链蛋白预测,AlphaFold 3扩展到多模态复合物预测 |
| Boltz-1 / Boltz-2 / BoltzGen | Boltz公司开发的系列开源模型,分别专注于结构预测、亲和力预测和蛋白从头设计 |
| Boltz Lab | Boltz推出的商业化平台,提供蛋白与小分子设计Agent、GPU加速和协作界面 |
| CASP | 蛋白质结构预测关键评估竞赛,被视作该领域的“奥赛”,每两年评估模型在全新靶点上的表现 |
| PDB | 蛋白质数据银行,所有结构生物学实验结果的公共数据库,用于训练和评估 |
| MSA | 多序列比对,通过比对不同物种同源序列提取共进化信息,是AlphaFold类模型关键输入 |
| 共进化景观 | 序列中性位变异的统计模式,反映空间邻近残基的协同演进 |
| 扩散模型 | 一种生成式模型,从噪声逐步去噪生成数据,用于采样蛋白质结构的后验分布 |
| 回归 vs. 生成式建模 | 回归直接预测单一点估计,生成式建模学习分布并采样多种可能解 |
| 等变架构 | 一种神经网络设计,保证输出随输入坐标的旋转、平移而相应等量变化,适合分子三维数据 |
| pLDDT | 预测局部差异检验分数,AlphaFold输出的逐残基置信度指标 |
| 亲和力 | 分子间结合的强度,通常用解离常数Kd表示,纳摩尔级是治疗性抗体的典型要求 |
| 纳米抗体 | 来源于骆驼科重链抗体的单域抗体,体积小、稳定性高,是新兴药物模态 |
| CRO | 合同研究组织,提供外包的湿实验室实验服务 |
| ADME / 可开发性 | 吸收、分布、代谢、排泄及毒性等药物属性,决定候选分子是否能成为药物 |
| 推理时扩展 | 在推理阶段通过多采样、自洽性检查等手段提升输出质量的技术 |