▶ 原文链接
材料搜索:生成、仿真、模拟
来源: YouTube | Max Welling | May 06, 2025
分类: 其他
原文发表: May 06, 2025
纪要生成: 2026-06-25
全集重点
- 非平衡热力学与生成式AI的统一框架:自由能概念是连接物理学与机器学习(尤其是扩散模型、VAE等)的数学桥梁,信息论是二者共同的底层理论。这一框架可用于理解和改进多种模型。
- 碳捕集的严峻现实与材料设计的使命:从大气中直接捕集二氧化碳(DAC)是应对气候变化的必要技术路径,但理论能耗极高,开发高效的吸附材料(如金属有机框架,MOFs)是降低能耗、实现可行的关键。
- “仿真”范式:通过构建多保真度评估栈(从廉价预测到昂贵模拟),用机器学习模型替代或加速传统的量子力学计算和蒙特卡洛采样,从而将“模拟”转化为“仿真”,大幅提升材料筛选速度。
- 经典密度泛函理论(cDFT)的机器学习复兴:通过用神经网络学习自由能泛函,并利用自动微分直接从分子动力学数据中训练模型,可以极低计算成本快速获得吸附平衡态和动力学行为,加速材料评估。
- 贝叶斯不确定性量化用于序列模型:开发了名为BARN的贝叶斯自回归模型,可对物理过程(PDEs)和分子生成(SMILES)提供良好校准的不确定性估计,确保在高通量筛选时能可靠地剔除不合格材料。
嘉宾/话题简介
Max Welling教授是阿姆斯特丹大学机器学习领域的教授和研究主席,同时也是材料设计初创公司Cusp AI(原名Carbon AI)的联合创始人兼首席技术官。他拥有理论高能物理学博士学位,之后转向机器学习领域。Welling教授是机器学习领域的先驱,共同发明了变分自编码器(VAE),并担任过NeurIPS的程序主席和大会主席,也是ELLIS的创始成员。本次演讲主要阐述了他将非平衡热力学与生成式AI联系起来的深刻见解,并展示了如何利用这一框架以及多保真度仿真技术来加速新型吸附材料的发现,以应对气候变化中直接空气碳捕集的巨大挑战。
分节详述
[00:00] 开场介绍与两个核心动机
本节重点
- 介绍演讲的两个相互交织的核心动机:理论动机(非平衡热力学与生成式AI的联系)和现实动机(应对气候变化,开发碳捕集材料)。
- 介绍演讲者 Max Welling 的学术与工业背景。
- 提出自由能是连接讲座两大主题的核心概念。
详细精要
- 核心论点 A:讲座将围绕一个理论动机和一个实践动机展开。
- 理论动机是揭示非平衡热力学与生成式人工智能之间的内在联系。
- 实践动机是人类正面临严峻的气候变化问题,需要开发全新的吸附材料,用以直接从大气中捕获二氧化碳(直接空气捕获,DAC)。
-
这两个动机将在整个讲座中交织出现。
-
核心论点 B:演讲者 Max Welling 拥有跨学科的背景。
- 他在阿姆斯特丹大学担任机器学习教授。
- 他是初创公司 Cusp AI(聚焦材料设计)的联合创始人和CTO。
- 他拥有理论高能物理学博士学位,后转向机器学习,师从 Pietro Perona 和 Geoffrey Hinton。
-
他为机器学习的基础发展做出了巨大贡献,例如共同发明了变分自编码器(VAE),并多次在 NeurIPS 担任要职,也是欧洲学习与智能系统实验室(ELLIS) 的创始成员。
-
核心论点 C:“自由能”是贯穿整个理论框架的基石。
- 自由能的定义为能量减去温度与熵的乘积。
- 能量部分与工业革命相关,代表着我们利用机器劳动替代人类劳动的能力,即做“有用功”的能力。
- 熵是一个负贡献项,代表我们对系统微观状态信息的缺失。信息丢失越多,系统可用于做功的能量就越少。
- 演讲的核心思想之一:如果能通过建模恢复熵项中的信息,就能减少负贡献,从信息的角度增加自由能。
💬 精华片段(中文)
“如果你是一种外星物种,能够追踪世界上每个分子的每一个细节,你就不会体验到或定义任何熵。在微观层面,熵并不真正存在。它只存在于我们的宏观层面。”
"If you would be an alien species and you would be able to track every detail about every molecule in the world, you would not experience or define any entropy. There would not be any entropy. So, at the microscopic level, entropy really doesn't exist. It's only at our macroscopic level that entropy exists."
[05:12] 碳捕集的挑战:用热力学算一笔账
本节重点
- 展示CO₂排放的严峻现状与实现碳中和的必要步骤。
- 使用热力学第二定律进行粗略估算,揭示直接空气碳捕集所需的巨大理论最低能耗。
- 阐明开发更高效吸附材料是降低该能耗的关键,并引出 Cusp AI 的使命。
详细精要
- 核心论点 A:人类面临严峻的碳减排挑战,除了零排放,还必须进行碳移除。
- 数据显示,自蒸汽机发明以来,大气中二氧化碳水平急剧上升,在演讲者出生那一年后尤为陡峭。
- 到2050年,世界必须实现碳中和,即排放与吸收的碳量相当。最好的方法是完全停止排放(电气化、使用可持续能源)。
-
即使实现净零排放,所有气候情景都表明,之后还需要超过一个世纪的时间,以当前排放速率约一半的速度,主动从大气中移除二氧化碳。这项技术目前远未达到实用化水平。
-
核心论点 B:从大气中分离CO₂是一个能量密集型过程,其能耗有明确的热力学下限。
- 应用热力学第二定律进行“信封背面计算”,可知分离气体需要做功,其最小功等于系统初态与终态之间自由能的差值。
- 对于浓度极低(0.04%)的大气,这个理论最低能耗约为600兆焦耳/每吨捕获的CO₂。
-
作为对比,从烟囱(高浓度)捕获的能耗要低得多,但最优策略始终是不排放。
-
核心论点 C:即使按照理论最低能耗计算,全球为捕获40亿吨CO₂所需的总能耗也极为惊人,但改进材料可以显著降低能耗。
- 在绝对理想情况下,人类需要投入当前全球总能耗的约5%来实现碳移除。这个数字与预计到2027年用于AI和数据中心的全球能耗相当,并非完全不可想象。
- 然而,现实中实际过程的能耗远高于理论值,一个更现实的估计是能达到理论值的10%效率就算不错,这意味着实际能耗可能高达全球总能耗的50%。
- 通过开发更先进的吸附材料,有可能将真实能耗降低30%到40%。这就是 Cusp AI 创立的根本原因——通过AI加速材料搜索,以大幅降低碳捕集的能耗。
💬 精华片段(中文)
“所以我们就处于这个绝妙的、有趣的境地:为了计算实现分离所需的能量,我们可以进行一个组合论证。我们只需要看信息。我们可以数数。”
"And so, we're now at this fantastic interesting situation that in order to compute the amount of energy that we need to do in order to achieve the separation, we can do a combinatorial argument. We can just look at information. We can count things."
[12:29] 生成式AI与热力学的联系:从VAE到扩散模型
本节重点
- 介绍 Cusp AI 的材料搜索平台,由生成模型、搜索引擎和多保真度评估栈组成。
- 将变分自编码器(VAE) 和扩散模型的原理与热力学过程进行类比和数学联系。
- 详细阐述非平衡热力学与机器学习之间“一对一映射”的数学框架,核心是变分自由能。
详细精要
- 核心论点 A:Cusp AI的材料搜索平台核心是一个生成模型。
- 生成模型(如扩散模型)从一个随机数开始,随机数可视为某种未知材料的代码。模型将这个高熵的随机数转化为一个代表热力学稳定材料的低熵结构。
- 若模型是条件生成模型,就能指定所需的属性,直接生成具有这些属性的新材料。
- 平台包含一个搜索引擎(目前是贝叶斯优化,未来会更复杂),用于协调搜索过程。
-
关键部分是一个多保真度评估栈,从极快的廉价预测模型到昂贵的量子力学计算甚至真实实验,快速筛选并淘汰不合格的候选材料。所有生成的数据都会存入数据库,并用于定期重新训练平台上的所有模型。
-
核心论点 B:变分自编码器(VAE) 和扩散模型的原理可以完美地用热力学语言描述。
- 在VAE中,编码器将数据点(复杂的、低熵的流形)映射到一个简单(接近高斯分布)的潜在空间,这一过程增加了熵,类似于物理中的扩散过程。而解码器则做相反的事情,将简单分布的采样点映射回复杂的原始数据流形,这是一个“非物理”的、减少熵的过程,需要消耗能量(通过训练模型)。
- 扩散模型是这一思想的极致发展,它通过一个固定的马尔可夫链(前向过程)将数据逐步变成纯高斯噪声(高熵态)。这一过程中,信息不断丢失,产生了大量熵。
-
扩散模型的训练核心,是学习一个评分函数(Score Function) 驱动的反向过程,将噪声“倒放电影”般变回结构化数据。这个反向过程极大地降低了系统的熵,相当于对系统做了功。
-
核心论点 C:热力学和机器学习的数学基础是同构的,核心在于变分自由能。
- 在热力学中,描述平衡态的玻尔兹曼分布和配分函数定义了亥姆霍兹自由能。这个自由能被一个变分自由能所上界,该变分自由能由能量项和熵项组成,适用于非平衡态。系统自发向平衡态演化,本质就是最小化这个变分自由能。
- 在机器学习中,给定观测数据X和潜变量Z,我们关心后验分布P(Z|X)。我们可以构建一个证据下界(ELBO),它等价于负的变分自由能。最大化ELBO等价于最小化变分自由能。
- 机器学习的EM算法(期望最大化算法)完美对应了热力学过程:E步(变分推断步)最小化与变分分布Q相关的自由能,对应系统自发松弛到平衡态;M步(学习步)最小化与模型参数(哈密顿量)相关的自由能,对应外界对系统做功来改变系统。
- 结论:描述非平衡热力学系统的数学与描述机器学习系统的数学完全相同,因为它们共同的更深层理论是信息论。
💬 精华片段(中文)
“我的观点是,描述热力学系统或非平衡热力学系统的数学,与描述机器学习系统的数学是完全相同的。”
"So, my point is that the mathematics that describes thermodynamic systems or non-equilibrium thermodynamic system is exactly the same mathematics as describes machine learning systems."
[26:58] 统一框架:从扩散模型到薛定谔桥
本节重点
- 提出一个包含一个前向物理链和一个后向非物理链的统一框架。
- 展示扩散模型、归一化流、MCMC、变分推断、强化学习、薛定谔桥和最优传输如何作为该框架的特例。
- 将生成模型应用于分子生成的实际案例(金属有机框架,MOFs),并介绍 Cusp AI 的六个月内完成设计到测试的挑战——“天穹计划”。
详细精要
- 核心论点 A:多种主流的机器学习和计算方法都可以纳入一个基于“有信息损失的前向过程”和“可学习的反向过程”的统一框架。
- 该框架的核心要素是变分自由能(即ELBO) 以及两个“链”。物理的前向链F是系统自身生成熵的过程;非物理的反向链B是模型学习如何“将煎蛋变回鸡蛋”的过程,需要做功(即模型训练)。
- 扩散模型是此框架最直接的体现:前向链是加噪声的编码器(固定),后向链是去噪的解码器(需训练评分函数)。
- 归一化流是扩散模型在零温度、零噪声极限下的确定性版本。
- MCMC采样是设计前向链F,使其在无穷时间极限下能采样到目标分布。变分推断则可视为MCMC的确定性版本。
- 强化学习和随机最优控制也符合此框架,其中评分函数可被视为驱动系统达到目标的控制器或策略。
-
薛定谔桥问题和最优传输也可纳入,薛定谔桥对过渡路径采样非常有用,而最优传输是其确定性极限。所有这些领域都是同一主题下的变体。
-
核心论点 B:该生成模型已被用于生成可用于碳捕集的金属有机框架(MOFs)。
- MOFs是一类纳米多孔材料,由成百上千个原子组成,能在其孔隙中捕获CO₂,并可通过加热或减压再生。
- Cusp AI 的生成模型能够生成数百万种从未被真实制造过的、全新的、假设性的MOF结构。
-
他们正在从中筛选出最优候选分子,并送至合成实验室进行实际合成和测试。
-
核心论点 C:Cusp AI 正在通过一个名为 “天穹计划”(Sky Vault) 的挑战项目,极速压缩材料发现的周期。
- 该计划的目标是在六个月内,完成一种用于碳捕获的金属有机框架的设计、合成和测试的完整流程。
- 在演讲时(项目的第四个月),团队已完成所有计算,从生成的超过一百万个结构中筛选出约10个顶级候选体,并完成了许多等温线计算。
- 接下来的步骤是将这些候选分子送往合成合作伙伴处进行合成,然后在六七月份送到另一家公司,集成到真实的碳捕获机器中进行测试。项目进度几乎完全按计划进行。
💬 精华片段(中文)
“但要做一些真正有用的事,你实际上也可以生成分子,对吗?去解决一个真实的问题,比如疾病或开发药物。”
"But to do something truly useful, you can actually also generate molecules, right? And solve maybe a real problem like you know, a disease."
[30:33] 从模拟到仿真:多保真度加速
本节重点
- 提出 “仿真” 概念,即利用机器学习模型替代或加速传统昂贵的物理模拟。
- 展示一个多尺度模拟的金字塔,从量子力学第一性原理计算到宏观连续介质的偏微分方程。
- 详细介绍机器学习在力场学习和天气预测模型中的巨大成功。
详细精要
- 核心论点 A:材料科学需要从每次独立进行昂贵模拟的传统范式转向能复用数据加速计算的 “仿真” 范式。
- 传统做法中,科学家每次设计出一个新分子,都要进行一次耗时长达一周的密度泛函理论(DFT) 级别模拟,若失败则前功尽弃,能量被“浪费”。
- 仿真范式的核心是回收利用之前模拟所产生的能量和数据。将模拟数据存入数据库,用于训练属性预测器。
-
训练出的模型可以以多种方式加速后续模拟:最直接的是训练一个端到端的模型,直接预测模拟的最终结果(如化合物与蛋白的结合能力)。如果这太复杂,可以训练一个模型来预测模拟过程中每一步所需的原子间作用力,并以此来替代DFT的计算部分,这能将模拟加速数个数量级。任何嵌入了神经网络的模拟过程,都被称为仿真。
-
核心论点 B:对不同尺度的物理过程,存在一个多层次的模拟和仿真堆栈。
- 最底层是从头计算电子结构方法,直接求解薛定谔方程,精度极高但计算复杂度随电子数指数级增长。
- 上一层是密度泛函理论(DFT),将问题简化为电子密度,计算复杂度为电子数目的三次方,是实用的标准方法,但仍非常昂贵。
- 再上一层是使用经典力场的原子/分子模拟,计算更快。
- 继续向上是各种粗粒化方法,进一步整合原子,计算更宏观的粒子行为。
- 再往上是经典密度泛函理论(cDFT),使用连续的密度场描述系统,这是演讲后面的重点。
-
最顶层是描述宏观流体和天气系统的偏微分方程(PDEs),如纳维-斯托克斯方程。
-
核心论点 C:机器学习在替代传统力场和天气预测模型方面已取得革命性成功。
- 分子模拟的核心是牛顿力学,即位置的变化是速度,速度的变化是力。而计算原子间作用力是一个量子力学问题,且分子动力学是混沌系统,预测很困难。
- 等变神经网络力场能够解决这个问题。它们通过在模型中内置物理对称性(如旋转不变性),可以用接近经典力场的速度,达到接近DFT的计算精度。当在GPU上运行时,它们速度极快,能处理大分子体系。
- 在天气预测领域,像ForecastNet、GraphCast、Aurora这样的模型,通过在海量历史数据和数百个GPU上训练,已经能够做出比传统数值天气预报系统更准确的预测。它们甚至可以利用传统方法无法使用的观测数据。这已经成为一场正在进行中的革命,并被全球多个机构采用。
💬 精华片段(中文)
“我们想用一种仿真来替代执行如量子化学模拟这样的昂贵仿真。那么,什么是仿真?……我们想要做的是,在某种意义上,回收我们以前模拟所使用的能量。”
"We want to change that to emulations. Okay, so what is an emulation? ... So how do we do that? ... what we want is to recycle the energy in some sense that we used for this simulation."
[37:50] 极致加速:构建可学习的经典密度泛函理论
本节重点
- 介绍使用蒙特卡洛方法模拟吸附过程(等温线)的高昂计算成本。
- 提出用经典密度泛函理论(cDFT) 作为变分方法替代基于采样的模拟。
- 详细介绍如何通过从简单的“体相”分子动力学模拟中学习自由能函数,并利用自动微分来训练神经网络和求解平衡态,实现多个数量级的加速。
详细精要
- 核心论点 A:计算吸附等温线的传统方法——巨正则蒙特卡洛模拟——极其耗时,亟需加速。
- 要评估一个纳米多孔材料捕获CO₂的性能,需要进行巨正则蒙特卡洛模拟:通过随机地插入、删除和移动粒子,观察粒子如何附着在材料中。
- 一次完整的模拟计算一个材料在不同温度和压力下的等温线,可能需要数天到一周的时间。
-
得到的等温线数据随后被输入到过程模型中,以评估该材料在实际碳捕集机器中的工作表现。这个评估流程太慢了,无法支撑起百万级材料的筛选。
-
核心论点 B:经典密度泛函理论(cDFT) 提供了一个可以作为“模拟器”的变分替代框架。
- cDFT的核心思想是将粒子在空间中的分布表示为连续的概率密度场,而非追踪单个粒子。
- 系统的状态由一个被称为巨势的泛函决定,它本身就是一种自由能。这个自由能包含两部分:流体分子内部的自由能(这部分很难显式写出),以及密度场与外部势场和化学势的相互作用能(这部分可以显式写出)。
-
对于一个新的外部势场(即新的材料结构),只需对总自由能泛函关于密度场求极小化,即可得到吸附平衡态,完全无需进行耗时的粒子采样,这是一个变分优化问题。
-
核心论点 C:用神经网络从数据中学习自由能泛函,并结合自动微分,是复兴cDFT的关键。
- 过去的难点在于,对于真实流体,无法写出一个好的自由能泛函的解析形式。
- 研究团队提出的创新方法:根本不需要直接学习自由能泛函。他们只在外部势为零(即体相)的条件下进行简单的分子动力学模拟,这是一个非常简单的计算。
- 从体相模拟中,可以测量出径向分布函数,进而通过Ornstein-Zernike关系得到系统的两点关联函数。
- 与此同时,构建一个卷积神经网络(CNN),它以密度场为输入,输出预测的自由能值。然后,对该网络进行两次自动微分,就能得到模型预测的两点关联函数。
- 模型的训练目标就是让模型预测的关联函数与从体相模拟中测量到的关联函数一致。这让物理学家们感到惊讶,因为自动微分让推导变得极其简单。
-
模型训练好后,要求解平衡态,只需对自由能泛函进行一次自动微分得到作用在密度场上的“力”,然后迭代地更新密度场(类似DFT中的自洽场迭代),就能快速收敛到平衡态分布。此方法在一维中得到了验证,并正扩展到三维。
-
核心论点 D:学习到的自由能泛函不仅能求解平衡态,还能通过Fokker-Planck方程用于预测非平衡动力学,且速度极快。
- 将学习到自由能泛函代入Fokker-Planck方程,就可以模拟系统的动态过程。
- 即使模型仅在平衡态数据上训练,它也能很好地预测动力学过程。实验显示,神经网络模型在模拟开始时可能过于急切地奔向能量最优点,但最终能找到比传统物理学家手工近似的解法好得多的解。
- 该方法被用于计算穿透曲线,模拟气体在多孔材料中的动态吸附前端移动。与需要计算数天的布朗动力学模拟相比,这种基于cDFT的仿真方法只需几秒钟即可完成,实现了数量级的加速。
- 这使其成为多保真度评估栈中极具价值的一环,能以极低成本获得高精度结果。
💬 精华片段(中文)
“这个故事的妙处在于,我们仅仅使用了势为零的体相数据。……我们做两次自动微分——顺便说一句,对一些物理学家来说,这曾是一个巨大的惊喜——你居然可以做到这一点。”
"And the the beauty of this method was is we can always we just we only use bulk which is the potential zero... We do two times auto differentiation which by the way was a big surprise to some physicists that you can do this."
[45:37] 可信的筛选:贝叶斯不确定性量化
本节重点
- 强调在多保真度筛选流程中,不确定性量化(UQ) 至关重要。
- 介绍一种用于自回归序列模型的新型贝叶斯模型 BARN。
- 展示BARN在物理过程(PDEs)模拟和分子生成(SMILES)中,不仅能提供良好校准的不确定性,还能提升模型预测精度。
详细精要
- 核心论点 A:在多保真度评估栈中,我们需要极高的置信度来支撑“淘汰”决策。
- 当我们使用廉价的快速模型筛选材料时,当一个材料被判定为不佳而被丢弃,我们需要确保这个决定的置信度是99%,不能错失潜在的好材料。
-
主流的集成方法虽然有效,但速度太慢,需要更高效的不确定性量化方法。
-
核心论点 B:提出 BARN——一个用于自回归模型的贝叶斯框架,能提供校准良好的不确定性。
- 该方法的目标是构建一个全贝叶斯模型,而不是通过采样来估计不确定性。
- 研究的对象是自回归模型,这类模型通过预测序列的下一个状态来工作,无论是物理过程的离散化(如PDEs求解器),还是生成分子的SMILES字符串,都可视为如此。
- BARN的核心是,不再将模型的参数视为固定值,而是为其引入一个先验分布。在预测下一个状态时,模型参数是从由过去状态决定的变分后验分布中动态生成的,而不是直接从先验分布中采样。
-
这构建了一个ELBO目标函数,使得模型在学习时,其参数的近似后验分布能够更好地解释数据。这样,模型不仅能给出预测均值,还能给出该预测的置信区间。该模型利用了诸如变分贝叶斯Dropout等先进的贝叶斯推断技术。
-
核心论点 C:BARN在两个关键应用上展示了优越性。
- 物理过程预测(PDE求解器):模型在预测一段时间后会逐渐偏离真实求解器。BARN模型本身从未见过真实值,但其输出的不确定性能够准确地反映出模型预测何时开始变得不可靠。实验证明,BARN的不确定性是非常良好校准的。
- 分子生成(SMILES生成):模型在利用Alice SMILE LSTM等专业分子生成模型作为基线进行测试时,BARN不仅提供了可靠的不确定性估计,其作为自回归模型的预测精度本身也更高,特别是在生成环状结构(如苯环) 时,错误率远低于对比方法。这表明,引入贝叶斯推断不仅带来了不确定性感知能力,甚至能作为一个更好的正则化器,提升模型的长程预测能力。
💬 精华片段(中文)
“我们在做廉价快速计算并丢弃东西时,你想知道你99%确定那确实是个好决定。所以你想知道,做出那个决定的置信度是多少。”
"If you have this multi-fidelity stack and you're throwing away things when you're doing cheap fast calculations, you want to know that you're 99% certain that that was actually a good decision. And so, you want to know what is the your confidence in making that decision."
[51:21] 总结与问答环节
本节重点
- 总结AI作为新超能力在材料科学中的变革性作用。
- 问答1:关于模型再训练策略,强调针对具体领域的微调比从头训练大模型更具价值,并结合主动学习生成数据。
- 问答2:关于生成模型中的等变性与数据增强之争,认为这不是一个非此即彼的已解决问题,并讨论了将等变性“退火”进模型的混合策略的可能性。
- 问答3:关于投入AI的能源与解决气候问题所得回报之间的权衡,指出直接空气捕获的前提是能源变得极其廉价,这依赖于太阳能、核聚变等技术的突破。
- 问答4:关于“天穹计划”的最新进展,确认六个月的进度几乎完全按计划进行。
详细精要
- 核心论点 A(总结):我们正处在一个AI赋能的“物质设计”新时代的黎明。
- AI不仅可以生成聊天机器人,还可以按需设计材料,这或将戏剧性地改变世界。
- 从药物、能源转型、碳捕获到半导体的众多挑战,其根源往往在于材料的局限性。
- 分子科学、计算科学与具体应用的交汇,使得这个领域异常激动人心。
-
自由能或非平衡热力学是连接AI与科学的桥梁,AI是科学家应拥抱的新超能力。
-
核心论点 B(问答:模型训练):实践中最有效的策略是微调预训练基础模型。
- 所有生成的数据存入数据库,模型应尽可能频繁地重新训练(或更确切地说是微调)。
- 与从头开始与大公司竞争训练基础模型相比,针对某个具体客户或项目的、具有独特复杂性的较小领域,对预训练模型进行微调更具价值。
-
为此,需要有能力快速为该特定应用生成数据,方法是使用主动学习:运行采样器,在当前模型表现不佳的区域进行采样,然后用DFT进行高保真计算,建立专门数据库用于微调。
-
核心论点 C(问答:等变性 vs 数据增强):两者的优劣对比是一个悬而未决的议题。
- 一种实用观点是,数据增强方法更简单,无需费心设计复杂的等变模型,后者可能引入难以优化的约束。
- 如果是对称性是精确的物理定律(如能量守恒),那么等变模型在理论上无论数据量大小都应成立。目前数据增强占优可能是因为训练动力学更好的缘故。
-
一个可能的创新方法是结合二者:一开始使用数据增强进行无约束训练,当模型基本对称后,在训练末期将等变性“退火” 回模型,强制使其精确满足对称性,看能否获得性能提升。关于物理归纳偏置何时有用的更大辩论将持续多年。
-
核心论点 D(问答:AI能耗与碳移除的回报):碳捕获的真正可行性依赖于近乎免费的清洁能源。
- 演讲中的“信封计算”是基于使用可再生能源的前提。
- 直接从空气中捕获二氧化碳只有在能源本质上变得免费的情况下才真正有意义。如果用煤炭发电来做碳捕获,排放的碳会比捕获的还多,是南辕北辙。
-
好消息是,太阳能、风能、电池等技术正处于学习曲线上,成本正变得越来越便宜。未来核聚变等技术也可能提供终极解决方案。关键是到2050年左右,能源必须变得可持续且极其廉价。
-
核心论点 E(问答:“天穹计划”状况):项目进展顺利。
- 项目当时处于第4个月。
- 团队已经从超过一百万个生成结构中筛选到约10个顶级候选分子,并进行了大量等温线计算。
- 正按计划(仅延迟一周左右)将候选分子运送给合成合作伙伴,随后将进行测试并集成到真实的碳捕集机器中。
💬 精华片段(中文)
“我认为我们有一项非常重要的共同任务,那就是解决社会在医疗健康和气候方面的一些最大问题。不幸的是,如今我们不能指望我们的政客,所以我们得自己动手。”
"And I think we have a very important task together to solve some of society's biggest problems in both healthcare and climate. And unfortunately these days we cannot count on our politicians. So we have to do it ourselves."
专业术语注释
| 术语 |
解释 |
| 自由能 |
在热力学和统计力学中,指系统在等温等容或等温等压过程中能对外做的最大有用功。在本集中,它是连接物理熵、能量和机器学习(ELBO)的核心概念。 |
| 非平衡热力学 |
研究不处于热力学平衡态的系统的热力学分支。本集将其用于理解和统一扩散模型、VAE等生成式AI模型的工作机制。 |
| 熵 |
在热力学中代表系统的无序性或我们对其微观状态的信息缺失。在机器学习中,它衡量概率分布的不确定性。本集多次强调熵是信息论的直接体现。 |
| 变分自编码器(VAE) |
一种由Max Welling等人在2013年提出的生成式模型,由一个编码器(将数据压缩到潜在空间)和一个解码器(从潜在空间重建数据)组成。 |
| 扩散模型 |
一种生成式模型,通过逐步向数据添加噪声(前向过程)直至变成纯噪声,然后学习一个反向去噪过程来生成新数据。 |
| 直接空气捕获(DAC) |
一种从大气中直接捕获并分离二氧化碳的技术,区别于从烟囱等点源捕获。 |
| 金属有机框架(MOFs) |
一类由金属离子或簇与有机配体桥接形成的具有周期性网络结构的多孔晶体材料,具有极高的比表面积,非常适合气体吸附和分离。 |
| 吸附剂 |
在本集中指能够从气体或液体混合物中吸附特定分子(如CO₂)的固体材料,MOFs是其一种。 |
| 密度泛函理论(DFT) |
一种研究多电子体系电子结构的量子力学计算方法,是材料科学和量子化学中最广泛应用的计算方法之一,计算成本较高。 |
| 等温线 |
在恒定温度下,吸附剂对某种气体的吸附量随气体压力变化的曲线。是评估吸附材料性能的关键数据。 |
| 巨正则蒙特卡洛模拟 |
一种模拟系统与外界可交换粒子和能量以达到平衡状态的统计力学方法,常用于模拟吸附过程,计算量大。 |
| 仿真 |
在本集中指代用机器学习模型替代或加速传统物理模拟过程的新范式。 |
| 证据下界(ELBO) |
在变分推断中,是模型对数似然的变分下界。它可以被解读为负的自由能,是本集统一物理学和机器学习的数学支点。 |
| 评分函数 |
在扩散模型中,指对数概率密度关于数据的梯度,它指示了如何修改当前数据点以使其概率更高,是训练扩散模型的关键。 |
| 经典密度泛函理论(cDFT) |
一种用粒子密度场而非单个粒子坐标来描述流体平衡态热力学性质的理论框架,通过最小化巨势自由能泛函来求解。 |
| 薛定谔桥 |
一个在给定初始和终止概率分布的条件下,寻找最有可能的随机演化路径的问题,在物理学、控制论和机器学习中都有应用。 |
| 变分推断 |
一种近似复杂概率分布的机器学习方法,通过优化一个更简单的分布(变分分布)来逼近目标后验分布。 |
| EM算法(期望最大化算法) |
一种用于在含有隐变量的概率模型中寻找参数最大似然估计的迭代方法。本集将其与热力学的松弛(E步)和做功(M步)类比。 |
| SMILES |
全称"简化分子线性输入规范",是一种用ASCII字符串明确描述分子结构的规范。机器学习和生成模型常用它来生成和表示分子。 |
| Fokker-Planck方程 |
描述在微小的随机涨落下,粒子速度或位置的概率密度函数随时间演化的偏微分方程,用于模拟动力学过程。 |
| BARN |
演讲团队开发的一种贝叶斯自回归神经网络,能够为序列模型(如PDE求解器、SMILES生成器)提供良好校准的不确定性估计。 |
| 径向分布函数 |
描述粒子密度围绕一个参考粒子如何变化的函数,是表征流体结构的关键物理量。 |
| 自洽场迭代 |
一种用于求解多体问题(如DFT)的数值方法,通过反复迭代直到输入和输出场达到一致(自洽)为止。 |
延伸思考
- “仿真”范式的潜力与局限:该讲座展示了用ML替代物理模拟的巨大加速潜力。然而,对于超出训练分布之外的“外插”问题,这些“仿真器”的泛化能力如何保证?BARN这样的贝叶斯方法能否给出可靠的外插不确定性警告?
- 物理归纳偏置的未来:关于等变性与数据增强的讨论,其本质是“结构先验”与“从大规模数据中学习”之争的一个缩影。在数据量持续爆炸的未来,精确物理模型的地位是会被彻底取代,还是会作为一种极端有效的先验知识,在关键领域(如安全攸关的应用)始终占据一席之地?
- 计算范式变迁的能耗悖论:讲座一方面指出碳捕集需要巨大能量,另一方面又提出用AI加速实现它。建设并运行支撑这些AI模型(尤其是训练)的数据中心本身也需要巨大的能源。我们是否有一个全局优化模型,能计算出为解决某个问题(如气候)而投入的计算本身所造成的环境成本与最终收益的盈亏平衡点?
- 材料发现的“最后一公里”问题:AI可以快速生成和筛选成千上万的候选材料,但化学合成和工艺放大是高度劳动密集且失败率极高的步骤。“天穹计划”是在极速推进这个过程。未来,AI驱动的自动化实验室(机器人化学家)是否是将此流程闭环、真正实现在数周内完成“设计-制造-测试”循环的必然选择?
原文发表:May 06, 2025 · 纪要生成:2026-06-25