机器学习先驱与 AI4Science 愿景家 Max Welling 教授专访

来源： Neil Ashton Podcast | Prof. Max Welling | Jul 09, 2024 分类： 其他 原文发表： Jul 09, 2024 纪要生成： 2026-06-25

全集重点

AI 与科学的双向赋能：机器学习不仅加速科学发现，科学的对称性、扩散过程等原理也反过来启发更好的 ML 模型。
数据驱动 vs. 物理驱动：当数据量极大时（如天气预测），纯数据驱动模型可媲美甚至超越物理约束模型；但在数据稀缺时，物理定律作为归纳偏置至关重要。
科学基础模型的“八二法则”：训练科学领域的基础模型，前 80% 的准确度相对容易，但最后 20% 的极端情况（如罕见气候事件）极难攻克，需依靠不确定性量化。
数据激励机制的创新：单纯呼吁开源数据已不现实，需建立基于隐私保护技术与区块链的市场化数据交易机制，让数据贡献者获得公平回报。
初创公司的独特节奏：相较于大公司的官僚化和学术界的资源限制，AI 初创公司能获得同等级别的 GPU 资源，且拥有极高的敏捷性和愿景执行力。

嘉宾/话题简介

Max Welling 教授是机器学习领域的顶尖专家之一，现为阿姆斯特丹大学教授，曾师从“AI 教父” Geoffrey Hinton。他不仅在学术界地位超然，担任过 NeurIPS 等顶级会议主席，还曾出任 高通（Qualcomm） 和 微软（Microsoft） 的副总裁及杰出科学家。近期，他离开微软创立了专注于利用机器学习进行碳捕获材料发现的新公司 CuspAI。本期节目围绕 AI 用于科学（AI4Science） 这一宏大主题，深入探讨了物理学与数据驱动的博弈、基础模型的未来、开源伦理以及学术与产业界的职业路径选择。

分节详述

05:23 AI 用于科学与科学用于 AI

本节重点

AI 正在全尺度地改变科学发现，从高能物理到天文学。
科学与 AI 的因果关系是双向的，科学原理能反向优化机器学习模型结构。
不同科学领域使用的数学工具有显著共性。

详细精要

AI 用于科学 (AI for Science) 的定义与范围：利用机器学习和 AI 工具辅助科学领域的发现与数据分析过程。
科学范围极广：从极小的 飞秒（femtosecond）、飞米（femtometer） 尺度的高能物理，到分子、流体，再到地球科学，乃至宇宙尺度的天文学。
双向影响：不仅 AI 推动科学进步，科学和数学中的原理（如对称性、类似热力学的扩散过程）也被用来构建更好的机器学习模型。
科学计算工具的共性：尽管科学学科在尺度上跨度巨大，但底层的数学工具惊人地相似。
物理系统通常是因果的（从过去预测未来）。
物理过程多为连续的，通常用偏微分方程（PDE）、随机微分方程（SDE） 或常微分方程（ODE） 建模。
物理交互通常是局部的（Local），即远处的事件不会瞬间影响当前位置。
图像/视频生成模型与科学模拟的深度关联：看似不相关的领域之间存在工具的直接复用。
扩散模型（Diffusion Models）：这一生成图像与视频的技术，几乎可以直接用于生成分子或模拟流体。流体本身在计算机中常表现为随时间演化的像素点阵。
等变方法（Equivariant Methods）：源于物理学对称性的概念，被开发成处理图像的网络工具，如今又回流到物理领域处理分子。
- 分子颠倒或平移后，其化学性质保持不变，因此需要网络具备识别这种几何等变性的能力。
- 例子：在病理切片中寻找癌细胞，无论切片如何旋转，结果都应相同。

💬 精华片段（中文）

"The interesting thing is that there‘s also signs for A I in a way which is the, you know, using principles from the sciences and the mathematics such as [...] symmetries, diffusion processes like thermodynamics to build better machine learning models." “有趣的是，也存在着‘科学用于 AI’的情况，也就是利用科学和数学的原理，比如对称性、类似热力学的扩散过程，来构建更好的机器学习模型。”

11:16 数据驱动与物理约束的博弈

本节重点

数据量是决定是否嵌入物理定律的关键裁决指标。
在小数据场景，物理定律是极佳的归纳偏置；在大数据场景，近似的物理约束反而可能成为性能天花板。
天气预测模型 Aurora 展示了纯数据驱动模型的巨大潜力。

详细精要

大数据场景：让模型摆脱物理定律的束缚：当数据量巨大时，物理先验可能限制模型学习更精确的模式。
微软项目 Aurora：使用高达 PB 级 的历史与实测天气数据，完全放弃显式物理方程，仅用 Transformer 等技术将预测视为纯粹的机器学习问题。
- 表现：可与传统数值求解器相媲美，且速度提升最高达 四个数量级（10,000倍）。
风险提示：当需要预测训练数据分布之外的情况时，纯数据驱动模型必须极其谨慎。
过约束风险：科学家使用的物理方程往往是宏观上的粗粒化（Coarse-grained）近似。若将此近似作为硬性约束，而模型凭海量数据本可以学到比该近似更精确的规律时，物理约束就成了人为强加的“性能天花板”。
小数据场景：物理定律作为归纳偏置：当数据匮乏时，必须引入物理结构使学习变得可行。
示例（流体力学）：我们知道流体遵循连续性方程（如纳维-斯托克斯方程），但可能不清楚具体的源项（外部作用力）。
策略：约束模型使其输出必须符合连续性方程的结构（表示流体如何移动），仅让它学习那些未知的力项。这是一种强有力的先验知识。
灵活性的价值：人类虽然知道微观量子力学层面的普适物理规律，但全尺度模拟大气是完全不可行的。因此宏观模型本质上都是近似，死板地硬性编码所有近似方程收益有限。

💬 精华片段（中文）

"If you have so much data that the model can actually learn something that‘s more precise than [...] those constraints you’re giving it, then you‘re constraining the model over constraining the model and that’s, that’s hurtful." “如果你拥有如此多的数据，使得模型实际上能学到比你给它设定的约束更精确的东西，那么你就是在过度约束模型，这是有害的。”

16:37 基础模型、科学挑战与“八二法则”

本节重点

科学领域正在向跨领域预训练基础模型范式迈进，并支持通过微调解决特定问题。
科学应用面临极端的“八二法则”：最后 20% 的准确率涉及极端罕见事件，极难解决。
可靠的不确定性量化是应对罕见灾难性事件（如 50°C 极端热浪）的关键。

详细精要

科学基础模型的可行性：Max Welling 认为训练大型科学基础模型完全合理。
范式：收集来自不同领域和状态的数据进行预训练，然后针对特定问题用少量数据进行微调（Fine-tuning）。
验证：目前已有充分证据表明，这种“预训练 + 微调”的范式在科学领域行之有效，且在可预见的未来会继续有效。
科学领域的“八二法则”：能达到 80% 的准确率往往只需 20% 的努力，但最后的 20% 极其艰难。
自动驾驶类比：在宽阔马路上让汽车自动驾驶很简单（前 80%），但要在阿姆斯特丹那种混乱的街道（行人闯红灯、自行车乱窜、道路不规整）上达到安全驾驶的最后 20% 极其困难，可能需要引入基于规则的辅助方法。
大语言模型类比：ChatGPT 等聊天机器人完成了 80% 的惊艳表现，但现阶段的攻坚点在于防止模型被诱导说出“在披萨里放胶水”或“吃石头”等荒谬言论，这涉及到常识推理、社会交互理解和伦理规则。
科学预测的致命尾部风险：在物理世界应用中，最后 20% 的错误可能是灾难性的。
极端事件预警：如果模型预见到一个前所未有的 50°C 热浪初值条件，决策者是否应该向公众发布警告？模型对这类训练分布外极端样本的判断失败，代价极高。
应对策略：目前业界尚未完全解决上述问题，Max 认为关键在于可靠的、经过严格验证的不确定性量化（Uncertainty Quantification）。

💬 精华片段（中文）

"You can get it right 80% and that hopefully is useful. But then how do you protect yourself against that 20%? You know, an unseen initial condition with incredibly important consequences like [...] a heat wave, 50 °C. Do we warn the public or do we not because we don’t know precisely what's going on?" “你可以把 80% 的事情做对，这希望是有用的。但是你该如何防范那剩下的 20% 呢？比如一个未见的、但后果极其严重的初始条件——比如 50 摄氏度的热浪。我们是向公众发出警告，还是因为我们并不确切知道会发生什么而保持沉默？”

21:53 数据困境与市场化共享机制

本节重点

科学数据的私有化和封闭性是阻碍 AI4Science 发展的核心瓶颈。
单纯呼吁“开源”违背商业逻辑，需构建数据交易市场以激励共享。
基于隐私计算的技术方案可让模型在不暴露原始数据的情况下进行训练。

详细精要

数据不平等导致发展失衡：
那些数据共享程度高的领域（如生物学中的组学数据（Omics），材料科学中的材料项目（Materials Project））进步神速。
大多数公司和大学将数据视为昂贵资产，囤积在防火墙之后（如飞机设计、工业流体数据），导致科学发展缓慢。
构想：基于隐私保护的 AI 数据市场：
代理协商机制：允许数据提供方将数据保存在本地防火墙后，模型训练方通过支付费用访问数据源，代理自动协商价格。
技术保障：在训练过程中，通过技术手段（如联邦学习等）保证模型更新参数时，绝不可能重建出原始数据。
数据定价与确权：用户应有权决定数据用途。帮助非营利医院可免费，但如 Google 等巨头使用则应收费。这能解决当前艺术创作者被无授权抓取音视频用于训练 生成式 AI 并被诉诸法院的普遍矛盾。
激励相容优于道德呼吁：
单纯呼吁企业或在职研究者“为了科学”开放数据是不现实的，因为个体总会优先做符合自身利益的事。
竞争力优势：波音或空客绝不可能会开源其飞机气动数据，因为这是绝对的商业护城河。解决问题的唯一方式是调整激励机制，让数据贡献变得有利可图，区块链（Blockchain） 技术可能在确权和记录交易中发挥作用。

💬 精华片段（中文）

"We have to realize that data is perhaps the most important [...] resource. It’s kind of the the new oil on which these machines [...] and compute, I guess, right? So it’s computing and data that these machine learning methods need and we just need to put a real value on it." “我们必须认识到，数据可能是最重要的资源。它就像是驱动这些机器的新石油，我想算力也是如此。机器学习和人工智能方法需要算力和数据，我们需要给它赋予真实的价值。”

23:29 开源模型的伦理边界与商业逻辑

本节重点

模型开源与否受制于安全伦理与商业动机的双重制约。
对小企业而言，开源联盟是抵抗大公司碾压的有效竞争策略。
大型企业出于应对气候变化的共同责任，有动力在环保科技上开源或共享。

详细精要

开源的潜在危险与伦理审查：
安全红线：如果某模型包含了制造恐怖病原体的“实验室制造配方”，那绝对不应开源。类似逻辑适用于可被恶意用于深度伪造诈骗（如模仿亲属声音索要钱财）或网络攻击的模型。
伦理委员会：Max 认为未来可能需要设立专门的伦理委员会，对某些过于强大技术的开源进行安全评估与审批。
商业导向的开源逻辑：
企业主权：不可能强制公司开源其核心技术，除非这在长期对其商业利润有利。很多公司虽然开源了模型，但这往往是其商业战略的一部分。
社区防御策略：小公司无法单独与大公司对抗，但如果一群小公司联合起来，共建一个基础模型并开源共享，各家企业就能基于此模型与大公司竞争，这是一个明显的激励联盟。
基于危机的协作动因：
气候变化的公共悲剧：地球大气层是共享资源，很多大公司都做出了可持续发展和碳中和承诺。尽管同时身处 AI 军备竞赛，但在应对气候变化上，大企业有动力成为“世界好公民”，将自己的科学数据适度开放给公众，以共同促进例如直接空气碳捕获等技术的进步。

34:11 三大阵营：学术界、大工业与初创公司

本节重点

大学适合广泛探索与培养人才，影响力相对间接且分散。
大公司资源雄厚但流程臃肿，需将科研目标与商业化路径高度对齐。
现在的 AI 初创公司在 GPU 等资源上已不输大公司，且具备无可比拟的敏捷性。

详细精要

学术界（University）的角色：
核心使命：用纳税人的钱培养下一代人才，进行极其前沿且探索性的研究（例如：“黑洞内部是什么样的”），这类课题几乎没有公司会资助。
影响力特征：通过发表论文让他人借鉴实现影响力，过程间接且分散。学术研究风格独特，但也面临身兼数职（写申请、教书、管理、做科研）和获得终身教职前缺乏保障的职业压力。
大工业（Big Companies）的角色：
资源优势：可以调动海量 GPU 等计算资源，去攻克像通用人工智能（AGI） 这样有明确商业回报的大目标。
结构性内耗：大公司是“缓慢的政治野兽”。任何微小改动都需要漫长的法律审查和层层审批，流动性极低，如同高粘滞性的流体。
初创公司（Startups）的角色：
资源对等：在当下的 AI 热潮中，只要有好的愿景，初创公司能从 VC 获取的资源规模已不亚于甚至超过大公司内部的分配。
愿景执行力：创始人可以做自己的老板，不需要向上级层层校准，只要找到志同道合的联合创始人和团队，就能以极快速度行动。
人才活力：Max 喜欢初创界积极的态度和敏捷的氛围，这是他目前选择并打算长期坚持的模式。

💬 精华片段（中文）

"To my surprise, perhaps is that the amount of resources you can get in a start up these days in the field of A I is no less than what you would get in a big tech company." “令我惊讶的是，当今在 AI 领域，你在一个初创公司能获得的资源规模，一点也不比在一家大型科技公司里所能获得的少。”

39:27 欧洲初创生态与跨国对比

本节重点

欧洲拥有巨大的低薪高质人才红利，正吸引美英资本目光。
硅谷的核心优势在于由大学、风投、创业者构成的协同生态。
欧洲距离形成活跃的创业润滑剂效应还有差距。

详细精要

资本与人才的地理错配：
资本来源：Max 的初创公司 CuspAI 的主要投资者来自英国和美国，他并不强调欧洲本土资金的界线。
人才红利：欧洲的 AI 顶尖人才库极其庞大，且许多人喜欢欧洲的生活环境。欧洲的工程师薪资远低于硅谷湾区。这意味着用更少的投资就能在欧洲搭建起一支世界级团队，这一巨大价值吸引了越来越多的国际投资人。
硅谷生态系统的运作机理：
地理核心：斯坦福大学和加州大学伯克利分校提供了源源不断的创业人才和创业精神。
协同网络：风投、创业者之间彼此熟识，形成了高效的“供应链”。找投资时，只需要和几个人谈，他们就会迅速把你引荐给下家，这是一个充满协作精神的体系。
欧洲现状：欧洲虽然拥有剑桥、伦敦、阿姆斯特丹、柏林、巴黎乃至斯德哥尔摩等亮点区域，但这些地方尚未形成硅谷那种极高密度的局部协同生态，这是欧洲需要加快追赶的方向。

43:10 CUSP AI：利用生成模型突破碳捕获

本节重点

CuspAI 专注于发现新型金属有机框架（MOFs）用于碳捕获。
利用扩散模型生成新材料，并用机器学习加速筛选与模拟管道。
技术思路与流体模拟有深层相似性，且市场潜力巨大。

详细精要

核心技术目标与对象：
目标：发现并优化金属有机框架（Metal-Organic Frameworks，MOFs） 材料。
MOF 结构：由含金属的节点与有机连接物构成的框架结构，拥有数以万亿计的庞大设计空间，不同组合会产生完全不同的理化特性。
工作原理：当空气吹入 MOF，材料会选择性地优先结合二氧化碳分子，而非氮气或水蒸气。随后通过改变温度或压力（例如减压和加热）将捕获的纯净二氧化碳释放并隔离或再利用。
全流程 AI 加速管道：
生成阶段：使用与生成图像相同的生成模型（扩散模型）来生成全新的候选材料。
测试阶段：使用融入机器学习加速器的传统化学测试管道，或用机器学习直接预测材料属性如力场（Force Fields）。传统力场需要昂贵的量子力学计算，而机器学习力场不仅速度快了几个数量级，精确度也不相上下。
搜索策略：由一个中心化搜索智能体（Search Agent） 统筹调度，以最快速度在万亿级空间中找到拥有理想 CO2 吸附特性的材料。
商业与市场逻辑：
市场预期：企业需要承担起气候责任并抵消碳排放，政府未来极可能强制推行碳税或净零排放，这为碳捕获方案创造了一个巨大的商业市场。
平台扩展性：这套发现平台不仅可用于碳捕获，还可用于储氢、催化、药物递送、毒素检测和水净化等广泛的材料发现领域。

51:38 人生轨迹：从博士后到连环创业

本节重点

Max Welling 经历了从学术博士后，到工业界 VP，再到初创创始人的职业路径。
他鼓励青年科学家利用博士后阶段打下扎实的科研基础，不必为短期的薪资差距焦虑。
未来的理想模式是产研结合，例如像荷兰推行的兼职教授制度。

详细精要

个人成长经历：
Max 在 1998 年博士毕业后做了许多年的博士后，曾在加州理工待了几年，又在 Geoffrey Hinton 组里待了 3 年。他回忆那段贫穷但纯粹的科学家时光是极其美好的。
现今的年轻人面临着更艰难的抉择，因为工业界提供的起薪可能是学术界的 10 倍。
是否读博士/做博后的取舍：
优势：博后是建立独立研究策略、打好科研根基的黄金时期。加上期间发表的好论文，绝对不会成为未来的劣势。
心态：不要为金钱过度焦虑，选择能让你能够真正投入的科研方向。
非单一线性路径：职业道路已不再是单向单程。可以先创业再回学术界，也可以先在大厂任职。关键是在工业界也要坚持适时发表高质量论文，保持重返学术界的通道畅通。
学术界与工业界的弹性结合：
欧洲教职压力：在荷兰等欧洲国家，获得终身教职的概率极高，相对美国常春藤残酷的淘汰制（如 MIT 或哈佛淘汰近半），年轻学者面临的不确定性要小得多。
混合制度：Max 观察到，在现在的 AI 领域，大厂里的顶尖科学家往往在大学保有教职。这种模式不仅给了他们接触年轻人才、“聆听博士生解释新趋势”的机会，也让企业通过这种接口获取稀缺资源。
灵活合同倡议：阿姆斯特丹大学正在尝试允许博士后签订更灵活的合同，如半边在初创公司赚钱、半边留在大学做研究或教学，这不仅解决了薪资问题，且不增加大学的财政负担。

1:00:08 五年展望：AI4Science 的突破与气候压力

本节重点

AI4Science 将在未来五年将经历持续稳健的增长。
产生“ChatGPT”式的颠覆性突破尚需时日，因为科学数据稀缺。
气候变化的紧迫性将成为 AI4Science 技术爆发的最强催化剂。

详细精要

现状评估与发展局限：
增长走势：AI4Science 将随着更多学生、初创企业和大公司的涌入而稳步增长。天气预测是其中的一个“分水岭时刻”例子，其表现远超预期是因为天气数据相对充裕。
数据壁垒：AI4Science 难以立刻复制 ChatGPT 的巨大成功，根本原因在于其他科学领域缺乏互联网级别的公开数据沉淀。
气候倒逼技术突破的必然性：
迫在眉睫的危机：全球碳排放仍在增长（过去 5 年增加了约 12%），许多国家仍有待完成工业化。作为一种共享资源问题，气候变化的解决如果仅靠政治将非常棘手。
“狮子在面前”效应：人类往往只有在大难临头时才会反应激烈。当气候变化从其面目狰狞地呈现在所有人面前时（巨大直接损失），社会对技术解决方案的渴求将达到顶峰。
资金与人才的洪流：随着灾难事件的清晰化，将会有巨额资金和大量人才涌入聚变（Fusion）、碳捕获、清洁能源等赛道，利用量子计算与AI创造出前所未见的神奇新材料。
社会使命感与人才流动：
Max 对 AGI 的商业化竞赛（主要由巨头主导）有清醒认识，但他同时乐观地发现，大多数年轻人渴望做对社会有意义的工作。这批优秀人才会将他们的天赋投入到气候可持续等议题中，去创造不仅是“广告位投放优化”这样纯粹的商业价值，而是真正能改变世界、造福社会的成果，并与此同时获得体面的薪水。

原文发表：Jul 09, 2024 · 纪要生成：2026-06-25