▶ 原文链接

🔬超越AlphaFold:Boltz如何开源药物发现的未来

来源: Latent Space播客 | Gabriele Corso & Jeremy Wohlwend | Feb 12, 2026
分类: 其他
原文发表: Feb 12, 2026
纪要生成: 2026-04-28


全集重点


嘉宾/话题简介

Gabriele CorsoJeremy WohlwendBoltz的联合创始人,也是《Boltz宣言》的作者。他们曾分别参与蛋白‑小分子对接模型DiffDock等早期工作,并在AlphaFold 2发表后投身于复杂生物分子互作的建模。本集对话从结构预测的进化性线索讲起,深入剖析AlphaFold 3引入的扩散生成框架,以及Boltz-1Boltz-2BoltzGen等开源模型如何将设计能力推向全新蛋白与药物分子的从头生成,并最终推出面向研究者的Boltz Lab平台。


分节详述

00:00 Introduction to Benchmarking and the “Solved” Protein Problem

本节重点 - 单链蛋白结构预测借助进化信号已近“解决”,但泛化到其他模态仍很难 - 模型在缺乏共进化景观时性能骤降,结构预测与折叠过程是两个不同问题 - “解决”一词在学界争议很大,因为蛋白并非静态,多态性建模仍存巨大空白

详细精要

💬 精华片段(中文)

"The problem that a lot of progress was made on was the ability to predict the structure of single chain proteins. … part of the breakthrough has been our ability to decode [co-evolutionary hints] very effectively. But in absence of that co-evolutionary landscape, the models don’t quite perform as well." “取得巨大进展的问题是对单链蛋白的结构预测……突破部分来自我们高效解码[共进化线索]的能力;但当这种共进化景观不存在时,模型的表现就差得多了。”


06:48 Evolutionary Hints and Co-evolution in Structure Prediction

本节重点 - 协同进化的残基对在三维结构中空间距离近,成为推断整体折叠的强线索 - 蛋白折叠问题曾被视作组合爆炸的NP难题,机器学习的成功令理论计算机科学界震惊 - 进化保守性不仅给出局部距离约束,还通过大量序列的统计模式串成全局构象

详细精要

💬 精华片段(中文)

"It’s almost like the protein through several, probably random mutations and evolution, ends up sort of figuring out that this other amino acid needs to change as well for the structure to be conserved." “几乎可以说,蛋白在经历大量可能随机的突变和进化之后,最终‘摸索’出:为了保持结构,另一个氨基酸也必须一起变。”


10:00 The Importance of Protein Function and Disease States

本节重点 - 蛋白是细胞中的“分子机器”,其功能由与其他分子的相互作用决定 - 了解蛋白最终构象就像看到整辆车,而不仅仅是零件清单 - 折叠过程本身与疾病密切相关,不懂过程就无法干预错误折叠引发的疾病

详细精要

💬 精华片段(中文)

"It’s a bit like seeing the difference between having a list of parts that you would put in a car and seeing the car in its final form — seeing the car really helps you understand what it does." “这有点像看汽车零件清单和看一辆完整汽车的区别——看到整车才真正理解它的功能。”


15:31 Transitioning from AlphaFold 2 to AlphaFold 3 Capabilities

本节重点 - AlphaFold 2之后,领域最大挑战转向复合物互作预测(蛋白-蛋白、蛋白-小分子、蛋白-核酸) - AlphaFold 3通过统一多模态、切换至扩散生成框架并简化架构实现了新SOTA - 交互建模直接关系到药物设计和功能理解,是蛋白质“功能解析”的核心

详细精要

💬 精华片段(中文)

"One of the interesting things that they were able to do … they put everything together and trained very large models … and managed to get a single model that was able to set this new state-of-the-art performance across all of these different modalities." “他们做的一件很有趣的事是……把所有东西放在一起训练成非常大的模型……最终得到的是一个单一模型就在所有这些不同模态上都树立了新的最先进性能。”


19:48 Generative Modeling vs. Regression in Structural Biology

本节重点 - 回归模型面对多解问题会产生“平均化”的虚假构象,扩散模型则能采样多种真实态 - 后验分布采样允许下游再用独立评分模型筛选最优构象,优于单点预测 - 生成式框架提供了“教你钓鱼”的能力,而不是只给你一条静态的结构信息

详细精要

💬 精华片段(中文)

"When you move from a regression problem to a generative modeling problem, you are really tackling the way that you think about uncertainty in the model in a different way." “当你从回归问题转向生成式建模问题,你处理模型中不确定性的方式发生了根本改变。”


25:00 The “Bitter Lesson” and Specialized AI Architectures

本节重点 - 在结构生物学中,单纯堆算力和通用transformer并未带来如NLP那样的收益 - 等变架构等专门设计在几何约束强烈的分子数据上仍然遥遥领先 - “苦涩教训”虽然部分成立(简化架构有效),但完全抛弃专门化目前不可行

详细精要

💬 精华片段(中文)

"There are many people that have tried to replace these architectures with simple transformers … the performance that we get from the specialized architecture is vastly superior than what we get through a single transformer." “有很多人尝试用简单的transformer替代这些架构……我们从专门架构得到的性能远优于单个transformer所能达到的。”


29:14 Development Anecdotes: Training Boltz-1 on a Budget

本节重点 - Boltz-1仅训练过一次完整的大模型,全程边修bug边续训,极不稳定 - 受限于算力,早期模型在美国能源部集群上排队数天,完成训练充满戏剧性 - 获得Genesis GPU援助后训练才得以加速,突显小型团队起步时的资源瓶颈

详细精要

💬 精华片段(中文)

"We only trained the big model once. That’s how much compute we had. … while the model was training, we were finding bugs left and right. A lot of them that I wrote. And I remember doing surgery in the middle, stopping the run, making the fix, relaunching." “我们只训练过一次那个大模型,因为我们只有那么多算力。……训练过程中,我们不断发现各种bug,很多还是我写的。我记得我就像在做外科手术一样,中途停下训练、修复,然后重新启动。”


32:00 Validation Strategies and the Protein Data Bank (PDB)

本节重点 - 蛋白结构预测的“黄金标准”评估依赖PDB时间分割:用过去的数据训练,用未来的结构测试 - 开源发布DiffDock后,与哈佛团队合作发现了模型在远离训练集的蛋白上的泛化短板 - 由此催生了DocGen基准和新架构,展示出“发现弱点→设计新基准→改进模型”的闭环

详细精要

💬 精华片段(中文)

"One of the amazing things about putting things open source is that we get a ton of feedback from the field. … most of the times, the most useful feedback is people sharing about where it doesn’t work." “开源的一大利好是我们从社区获得大量反馈……大多数时候,最有用的反馈就是人们告诉我们模型哪里不工作。”


37:26 The Mission of Boltz: Democratizing Access and Open Source

本节重点 - 仅在GitHub上开源模型远不够让生物/化学家真正用上,需要产品化层 - Boltz作为公益性公司,使命是民主化获取这些先进工具,服务从学术到药企的所有人 - 开源模型与商业产品可以互补:开源促进科研进步,商业产品提供极致体验和规模效应

详细精要

💬 精华片段(中文)

"Putting a model on GitHub is definitely not enough to get chemists and biologists across academia, biotech and pharma to use your model in their therapeutic programs." “仅仅把模型放在GitHub上,绝对不足以让学术界、生物科技和制药公司的化学家与生物学家在他们的治疗项目中使用你的模型。”


41:43 Building a Self-Sustaining Research Community

本节重点 - Boltz官方Slack社群已有数千人,形成了自发互助的自持生态 - 社区贡献远非issue报告,包括深入代码的GPU内核优化和巧妙的应用级hack - 持续发布多代模型(Boltz-1→Boltz-2→蛋白设计模型)建立了“模型套件”的信任

详细精要

💬 精华片段(中文)

"It actually like self-sustaining now … people would answer each other’s questions and help one another, and so the Slack has been really self-sustaining and that’s been really cool to see." “社群现在已经自持了……大家互相回答问题、互相帮助,Slack上的确靠自己运行起来了,这让我们看着特别振奋。”


44:40 Boltz-2 Advancements: Affinity Prediction and Design

本节重点 - Boltz-2在结构预测基础上扩展出亲和力预测,直接估算结合剂与靶标的结合强度 - 蛋白设计采用空白token+条件提示的方案,同时生成折叠结构和氨基酸序列 - 设计流程中的评分包括结构一致性检验和亲和力预测,后者正替代不准确的置信度指标

详细精要

💬 精华片段(中文)

"Our ability to take a structure and determine that that structure is good … is a really powerful way of improving the models. … now part of the inference time scaling … is very much that: the more we sample, the more the ranking model ends up finding something it really likes." “我们判断一个结构好不好的能力,是极强大的模型提升手段。……现在推理时间扩展的很大一部分就体现在:采样越多,评分模型就越可能发现它真正喜欢的好构象。”


51:03 BoltzGen: Merging Structure and Sequence Prediction

本节重点 - BoltzGen的创新在于将离散的序列预测和连续的结构预测统一为单一的原子坐标预测任务 - 通过一种特定编码,氨基酸身份由原子的空间排列自然确定,无需单独的序列监督 - 这一设计解决了离散与连续监督信号不兼容的难题,极大提升了可扩展性和性能

详细精要

💬 精华片段(中文)

"Because the structure is atomic and the different amino acids have a different atomic composition, basically from the way that you place the atoms, we also understand not only the structure but also the identity of the amino acid." “因为结构是原子级的,不同氨基酸具有不同的原子组成,从你放置原子的方式,我们就不仅能知道结构,还能推断出那是哪个氨基酸。”


55:18 Large-Scale Wet Lab Validation Results

本节重点 - 为获得广泛统计信心,Boltz组织了25个学术/工业实验室对多种设计任务进行测试 - 在9个无已知互作PDB记录的靶点上,三分之二获得了纳摩尔级结合物 - 验证覆盖了纳米抗体、肽、小分子结合蛋白、无序蛋白等多种模态,强有力地支撑了模型泛化能力

详细精要

💬 精华片段(中文)

"We took nine targets from the PDB, filtering to things where there is no known interaction in the PDB … on two thirds of those targets, we were able to get nanomolar binders." “我们从PDB中拿了九个没有任何已知互作的靶标……在三分之二的靶标上,我们得到了纳摩尔级的结合物。”


01:02:44 Boltz Lab Product Launch: Agents and Infrastructure

本节重点 - Boltz Lab平台提供一站式蛋白与small molecule设计Agent,封装完整管线 - 平台基础设施通过专用GPU内核实现了比开源快10倍的速度,并支持大规模并行筛选 - 用户界面支持多位药物化学家协作排名、建立共识,API面向企业集成,学术用户免费额度

详细精要

💬 精华片段(中文)

"Our small molecule screening pipeline is 10x faster on Boltz Lab than it is in the open source … we really wanted to get to a point where it would be a no-brainer to use Boltz through our platform." “我们在Boltz Lab上的小分子筛选管道比开源版本快10倍……我们真的想做到一点:通过我们平台使用Boltz是完全不需要思考的选择。”


01:13:06 Future Directions: Developpability and the “Virtual Cell”

本节重点 - 下一阶段需要从“设计结合剂”延伸到考虑ADME等成药性特征,即“可开发性” - 实现可开发性需要模型对细胞内通路和相互作用有更深入的理解,但不等于造“虚拟细胞” - 反馈循环:根据体内实验数据迭代模型预测,让模型不仅能预测生物物理结合,还能预测功能结果

详细精要

💬 精华片段(中文)

"We try to keep ourselves on the boundary of what’s possible … you don’t want something too easy, you don’t want something too hard." “我们试图把自己保持在可能性边界上……既不要选太简单的,也不要选太难的。”


01:17:35 Interacting with Skeptical Medicinal Chemists

本节重点 - 药物化学家对AI生成分子最初极为怀疑,需要实际的实验成功才能改变观念 - 招募专业药物化学家Jeffrey加入团队,他从怀疑转变为平台重度用户 - 产品设计上鼓励化学家进行并行假设筛选,利用人类直觉过滤模型输出

详细精要

💬 精华片段(中文)

"I think at the end of the day, for people to be convinced, you have to show them something that they didn’t think was possible. And until you have that aha moment, the skepticism will remain." “说到底,要让人们信服,你得给他们展示一个他们原本认为不可能的东西。在迎来那个‘啊哈’瞬间之前,怀疑会一直存在。”


专业术语注释

术语 解释
AlphaFold DeepMind开发的蛋白质结构预测模型,AlphaFold 2几乎解决了单链蛋白预测,AlphaFold 3扩展到多模态复合物预测
Boltz-1 / Boltz-2 / BoltzGen Boltz公司开发的系列开源模型,分别专注于结构预测、亲和力预测和蛋白从头设计
Boltz Lab Boltz推出的商业化平台,提供蛋白与小分子设计Agent、GPU加速和协作界面
CASP 蛋白质结构预测关键评估竞赛,被视作该领域的“奥赛”,每两年评估模型在全新靶点上的表现
PDB 蛋白质数据银行,所有结构生物学实验结果的公共数据库,用于训练和评估
MSA 多序列比对,通过比对不同物种同源序列提取共进化信息,是AlphaFold类模型关键输入
共进化景观 序列中性位变异的统计模式,反映空间邻近残基的协同演进
扩散模型 一种生成式模型,从噪声逐步去噪生成数据,用于采样蛋白质结构的后验分布
回归 vs. 生成式建模 回归直接预测单一点估计,生成式建模学习分布并采样多种可能解
等变架构 一种神经网络设计,保证输出随输入坐标的旋转、平移而相应等量变化,适合分子三维数据
pLDDT 预测局部差异检验分数,AlphaFold输出的逐残基置信度指标
亲和力 分子间结合的强度,通常用解离常数Kd表示,纳摩尔级是治疗性抗体的典型要求
纳米抗体 来源于骆驼科重链抗体的单域抗体,体积小、稳定性高,是新兴药物模态
CRO 合同研究组织,提供外包的湿实验室实验服务
ADME / 可开发性 吸收、分布、代谢、排泄及毒性等药物属性,决定候选分子是否能成为药物
推理时扩展 在推理阶段通过多采样、自洽性检查等手段提升输出质量的技术

延伸思考

原文发表:Feb 12, 2026  ·  纪要生成:2026-04-28