▶ 原文链接

Max Welling:机器学习中的量子、流形与对称性

来源: YouTube (Machine Learning Street Talk) | Max Welling | 发布于 Jan 03, 2021 分类: 其他 原文发表: Jan 03, 2021 纪要生成: 2026-06-25


全集重点


嘉宾/话题简介

Max Welling 是机器学习领域最具影响力的研究者之一,拥有近 40,000 次引用。他现任阿姆斯特丹大学 AMLab 的研究主席和正教授,同时也是高通公司(Qualcomm)的副总裁。Welling 教授拥有物理学博士学位,他将物理学中对称性、流形、拓扑等深刻概念作为“操作手册”引入了机器学习领域,开创并推动了非欧几里得几何深度学习的发展。本集节目围绕他在机器学习中引入归纳偏置、对称性的工作展开,并深入探讨了量子概率、科研创新机制以及通往通用人工智能(AGI)的路径。


分节详述

00:34 几何深度学习与非欧数据

本节重点

详细精要

💬 精华片段(中文)

"It's the idea of performing deep learning...on data that is not euclidean in some sense...but perhaps a sphere or a graph or something more exotic like some kind of manifold with arbitrary curvature." “这个想法是,在某种意义上非欧几里得的数据上执行深度学习……也许是球体或图,或者更奇特的东西,比如某种具有任意曲率的流形。”


02:16 对称性、归纳偏置与 CNN 的成功

本节重点

详细精要

💬 精华片段(中文)

"In this blank slate paradigm...we're essentially wasting the representational capacity of the neural network because we're just learning the same thing again and again..." “在这种白板范式中……我们基本上是在浪费神经网络的表征能力,因为我们只是一遍又一遍地学习同样的东西……”


04:33 DeepMind AlphaFold 2 中的 SE(3) 等变性

本节重点

详细精要

💬 精华片段(中文)

"In short, this module is a neural network that iteratively refines the structured predictions while respecting and leveraging an important symmetry of the problem, namely that of roto-translations." “简而言之,这个模块是一个神经网络,它迭代地优化结构预测,同时尊重并利用问题的一个重要对称性,即旋转平移。”


09:30 机器学习中的“潮流”与 Max 的研究起落

本节重点

详细精要

💬 精华片段(中文)

"It's incredibly hard to predict what will become well known...when we did things like the VAE or graph neural nets, it didn't feel at all like this was going to be a big hit." “预测什么会变得众所周知是极其困难的……当我们做 VAE 或图神经网络这些事情时,完全没感觉这将会是一个巨大的成功。”


11:00 计算效率、先验与通用人工智能 (AGI)

本节重点

详细精要

💬 精华片段(中文)

"We all have the Matrix going on inside our heads, we are running simulations of reality and we're kind of integrating over the expected value of those simulations." “我们脑子里都上演着《黑客帝国》,我们在运行对现实的模拟,并在某种程度上对这些模拟的期望值进行整合。”


16:00 数据驱动 vs. 知识模型驱动

本节重点

详细精要


18:00 回顾与创新:胶囊网络、科研探索与学术界

本节重点

详细精要

💬 精华片段(中文)

"I do feel very strongly that as a field we need to open up, so we should value original ideas much more than we currently do... I think the reviewing in our community is far too grumpy." “我强烈地感觉到,作为一个领域,我们需要开放。我们应该比现在更珍视原创想法……我认为我们社区的评审太过暴躁了。”


20:15 量子机器学习:概率平方根的游戏

本节重点

详细精要

💬 精华片段(中文)

"Instead of calculating with probabilities, you calculate with something like the square root of probabilities... and thus events that can only stack in classical probability theory can all of a sudden cancel each other out." “你不是在用概率计算,而是在用类似概率的平方根的东西计算……因此,在经典概率论中只会叠加的事件,可以突然相互抵消。”


23:00 概率数值卷积神经网络

本节重点

详细精要


28:30 物理学家涌入机器学习与未来研究展望

本节重点

详细精要

💬 精华片段(中文)

"It turns out the best place to be is at the edge of two things... you can go to the right a little bit and be more stable, and go to the left a little bit and you can transform things and compute things." “事实证明,最好的位置是在两件事的交界处……稍微向右一点,可以更稳定;稍微向左一点,可以变换和计算。”


专业术语注释

术语 解释
几何深度学习 (Geometric Deep Learning) 在非欧几里得结构的数据(如图、流形、球面)上进行深度学习,而不是传统的网格状数据(如图像、音频)。
非欧几里得 (Non-Euclidean) 指不满足欧几里得几何中“直线”、“平面”和“平行公设”的空间或数据结构,例如有任意曲率的流形或社交网络图。
流形 (Manifold) 局部看起来像欧几里得空间,但整体可以弯曲、扭曲的空间。例如,球面是一个二维流形。
图神经网络 (GNN, Graph Neural Networks) 一种专门用于处理图结构数据的神经网络,其计算依赖于节点间的连接关系。
全连接网络 (Fully Connected Neural Network) 一种神经网络结构,其每一层的每个神经元都与下一层的所有神经元相连接。
卷积神经网络 (CNN, Convolutional Neural Networks) 一种包含卷积层的网络,通过共享权重的滤波器在数据上滑动,来高效提取局部特征。
归纳先验/偏置 (Inductive Prior/Bias) 在模型学习之前,根据对问题的先验知识,对模型结构或学习算法施加的偏好或假设,使其向更好的解偏移。
平移不变性 (Translational Invariance) 输入发生了平移,模型的输出保持不变。CNN 中的池化层提供了这种特性。
等变性 (Equivariance) 输入发生了某种变换,模型的输出也发生相应的可预测变换。例如,输入平移,CNN 特征图也随之平移。
AlphaFold 2 由 DeepMind 开发的 AI 系统,能基于蛋白质的氨基酸序列高精度预测其三维结构。
旋转平移 (Roto-Translations) 指在三维空间中,同时包含旋转(Rotation)和平移(Translation)的几何变换组合。
SE(3) Transformer SE(3) 指“特殊欧几里得群”,描述了三维空间的刚体运动。SE(3) Transformer 是一种对其输入进行旋转平移变换时,输出也会相应等变的自注意力网络架构。
变分自编码器 (VAE, Variational Autoencoder) 一种生成模型,通过编码器将数据映射到一个潜在空间中的概率分布,再通过解码器从该分布中采样生成新数据。由 Max Welling 和 Diederik Kingma 提出。
通用人工智能 (AGI, Artificial General Intelligence) 一种能执行任何人类智能可以完成的任务的机器智能,具备跨领域的灵活性、学习和泛化能力。
生成模型 (Generative Model) 学习并模拟数据生成过程的模型,可用于生成符合原始数据分布的新样本。
因果关系 (Causality) 指“A 导致 B”的关系,超越了纯粹的统计相关性,具有更好的跨领域泛化能力。
GPT-3 由 OpenAI 开发的大型语言模型,以其 1750 亿参数量和强大的少样本学习能力而闻名,是纯粹数据驱动方法的一个巅峰代表。
退却的地平线 (Receding Horizon) 一种现象,指每当技术取得重大突破,解决了部分问题,人们会看到更远处尚未解决的问题,从而认为目标依然遥远,地平线似乎不断后退。
胶囊网络 (Capsule Networks) Jeff Hinton 提出的一种网络架构,旨在通过一组神经元向量(胶囊)来建模物体及其部件之间的层级姿态关系。
硬件彩票 (Hardware Lottery) Sara Hooker 提出的概念,指一个研究想法的成功不仅取决于其本身的价值,还极大地依赖于当时可用的硬件和软件生态是否对其有利。
量子波幅 (Quantum Amplitude) 量子力学中描述一个事件发生可能性的复数,其模的平方等于该事件的概率。波幅可以相互干涉,导致增强或抵消。
量子纠缠 (Entanglement) 一种量子力学现象,指两个或多个粒子的状态变得相互关联,以至于无法单独描述各个粒子的状态,即使它们相隔很远。
高斯过程 (Gaussian Process) 一种随机过程,其中任意有限维度的随机变量集合都服从联合高斯分布。在 ML 中,它被用作一种强大的非参数贝叶斯模型,能提供预测的不确定性。
偏微分方程 (PDE, Partial Differential Equation) 包含未知多元函数及其偏导数的微分方程,常用于描述物理现象(如波动、热传导)。论文中用它来重新定义连续空间上的卷积。
格林函数 (Green's Function) 求解带有初始条件或边界条件的非齐次微分方程的解时的一种函数。在本文语境下,卷积被看作是 PDE 的格林函数解。
重整化 (Renormalization) 物理学中处理无穷大,并建立不同尺度下物理规律之间联系的一种数学技术。
混沌边缘 (Edge of Chaos) 指系统处于严格有序和完全混沌之间的一种过渡状态,被认为能产生最复杂、最丰富的计算行为。

延伸思考

  1. 归纳偏置的“度”在哪里? 虽然 Welling 论证了正确先验的好处,但 Yannic Kilcher 的提问指出了风险:不完美的先验(如认为天空可在图片下方)是否会限制模型性能?在什么情况下,弱先验 + 大量数据会胜过强先验 + 少量数据,这个临界点如何判断?
  2. 开放评审系统的可操作性挑战:节目中设想的“论文市场”和“评审即成果”的模式极具吸引力,但它能否真正解决马太效应(知名学者仍更易获得关注)和评审质量参差不齐的问题?如何设计激励机制才能防止新系统变成另一种形式的混乱?
  3. 量子机器学习的“杀手级应用”:Welling 承认,量子神经网络在解决经典问题上是否更好尚属未知。量子机器学习是会催生出像 Shor 算法之于因数分解那样的革命性应用,还是会长期停留在寻找问题与工具的匹配阶段?它的“平方根加速”极限在规模化数据面前是否足够有吸引力?
  4. 物理学家主导 AI 研究的利与弊:大量物理学博士进入机器学习领域带来了深刻的数学和理论物理视角,这是否会使得机器学习领域的知识体系和研究文化过于“物理学化”,从而挤占了来自神经科学、认知科学等背景的研究者的空间,导致发展方向单一?

原文发表:Jan 03, 2021  ·  纪要生成:2026-06-25