来源: YouTube (Machine Learning Street Talk) | Max Welling | 发布于 Jan 03, 2021 分类: 其他 原文发表: Jan 03, 2021 纪要生成: 2026-06-25
Max Welling 是机器学习领域最具影响力的研究者之一,拥有近 40,000 次引用。他现任阿姆斯特丹大学 AMLab 的研究主席和正教授,同时也是高通公司(Qualcomm)的副总裁。Welling 教授拥有物理学博士学位,他将物理学中对称性、流形、拓扑等深刻概念作为“操作手册”引入了机器学习领域,开创并推动了非欧几里得几何深度学习的发展。本集节目围绕他在机器学习中引入归纳偏置、对称性的工作展开,并深入探讨了量子概率、科研创新机制以及通往通用人工智能(AGI)的路径。
本节重点
详细精要
应用场景包括对气候模式或社交互动数据进行建模。
图神经网络(GNN)与几何深度学习的关系:如果已经在使用图神经网络,那就已经在进行非欧几何深度学习。
💬 精华片段(中文)
"It's the idea of performing deep learning...on data that is not euclidean in some sense...but perhaps a sphere or a graph or something more exotic like some kind of manifold with arbitrary curvature." “这个想法是,在某种意义上非欧几里得的数据上执行深度学习……也许是球体或图,或者更奇特的东西,比如某种具有任意曲率的流形。”
本节重点
详细精要
这导致了网络表征能力的极大浪费。
CNN 的突破性原因:CNN 引入了平移权重共享的概念。
这使得模型可以学习到视觉场中不同位置的相同概念,这是一个难以置信的突破。
归纳先验(Inductive Prior)的定义与价值:
Max Welling 被认为是设计复杂归纳先验的大师。
3D 数据处理的实际挑战与解决方案:
💬 精华片段(中文)
"In this blank slate paradigm...we're essentially wasting the representational capacity of the neural network because we're just learning the same thing again and again..." “在这种白板范式中……我们基本上是在浪费神经网络的表征能力,因为我们只是一遍又一遍地学习同样的东西……”
本节重点
详细精要
该模型很可能用 Transformer 风格的注意力层取代了传统的卷积网络。
等变性的核心作用:文章 “AlphaFold and Equivariance” 的评论指出,DeepMind 的系统一个关键模块是一个迭代优化结构预测的神经网络。
该架构与 SE(3) Transformer 非常相似。
SE(3) Transformer 与 Max Welling 的关联:Max Welling 深度参与了 SE(3) Transformer 的研究。
等变性对于在存在输入数据的“讨厌变换”(如旋转)时,确保模型性能的稳定和可预测至关重要。
群论的抽象之美:SE(3) 属于群论(Group Theory) 的范畴,这是数学中的一个抽象概念。
关键评论者 Fabian Fuchs 的研究主题是学习不变性表征,即关注忽略输入中的有害或无关信息,而不是仅仅寻找重要信息,这有助于对抗偏见或更好地利用数据结构。
DeepMind 的官方佐证:DeepMind 发布的关于 AlphaFold 2 的演示文稿明确指出,他们为深度学习模型构建了归纳偏置。
💬 精华片段(中文)
"In short, this module is a neural network that iteratively refines the structured predictions while respecting and leveraging an important symmetry of the problem, namely that of roto-translations." “简而言之,这个模块是一个神经网络,它迭代地优化结构预测,同时尊重并利用问题的一个重要对称性,即旋转平移。”
本节重点
详细精要
VAE 的诞生:早在 2004 年,Max Welling 就与 Kingma 一起发明了变分贝叶斯自编码器(VAE),这是生成模型领域的里程碑式工作。
领域潮流的周期性:和其他领域一样,机器学习界也受“潮流(Fashion)”影响。
Welling 的经历:他起步于双图模型和独立成分分析;后来是支持向量机和非参数方法;再后来是贝叶斯方法和非参数贝叶斯方法;现在则是深度学习的天下。
重大发现的不可预测性:预测什么工作会成为众所周知的“爆款”是极其困难的。
💬 精华片段(中文)
"It's incredibly hard to predict what will become well known...when we did things like the VAE or graph neural nets, it didn't feel at all like this was going to be a big hit." “预测什么会变得众所周知是极其困难的……当我们做 VAE 或图神经网络这些事情时,完全没感觉这将会是一个巨大的成功。”
本节重点
详细精要
因此,提升深度学习和机器学习的能效是一个必然趋势。
泛化、先验与经验:理想的模型应能泛化到训练时未见过的新环境或新情境中,这是通用人工智能(AGI) 的核心。
人类的灵活性则强得多,在一个情景下学到的东西,可以很好地迁移到一个从未见过的新情景。
生成模型是未来方向:Max Welling 和 Karl Friston 的观点可能一致,都认为生成模型是关键。
人脑中都在运行着对现实的模拟,并不断整合这些模拟的期望值,这似乎是人类智能的真正诀窍。
因果关系促进泛化:因果关系具有更好地泛化的特性。
💬 精华片段(中文)
"We all have the Matrix going on inside our heads, we are running simulations of reality and we're kind of integrating over the expected value of those simulations." “我们脑子里都上演着《黑客帝国》,我们在运行对现实的模拟,并在某种程度上对这些模拟的期望值进行整合。”
本节重点
详细精要
Max Welling 的立场:他稍微倾向于“需要将生成性信息放入模型”的阵营。
GPT-3 带来的惊喜与“退却的地平线”:
这形成了一个“退却的地平线(Receding Horizon)”现象:新突破出现时人们极度震撼,随后发现其局限,期待值稍有回落,等待下一次突破。
数据与先验的辩证关系:
本节重点
详细精要
与 Welling 工作的区别:Welling 的方法是显式地定义变换方式;而胶囊网络保持高度抽象,只表示“某种东西的堆栈以某种方式变换”,然后让模型去学习所有这些变换。
历史经验的重复:许多前沿想法因为硬件局限而沉寂,等待时机重生。
胶囊网络可能在未来 5 到 10 年或将再次流行。
学术界“探索”与“利用”的失衡:
科学应该像“寻宝(Treasure Hunting)”一样,是关于探索(Exploration)而非利用(Exploitation)。但当前的同行评审却促成了共识和趋同。
对现行评审体系的批判与改革建议:
💬 精华片段(中文)
"I do feel very strongly that as a field we need to open up, so we should value original ideas much more than we currently do... I think the reviewing in our community is far too grumpy." “我强烈地感觉到,作为一个领域,我们需要开放。我们应该比现在更珍视原创想法……我认为我们社区的评审太过暴躁了。”
本节重点
详细精要
关键区别:波幅可以是负数。例如, (-2)^2 = 4,4 是概率,-2 可以作为波幅。
反直觉的抵消现象:这是最反直觉的部分。
Max Welling 对此评价:“这看起来很离奇,但自然选择了这种统计学理论。”
量子变形神经网络的基本原理:
优势:以这种特定方式构建的网络,可以在经典计算机上高效模拟,但它与普通神经网络完全不同。同时,一旦量子计算机问世,它就能释放全部潜力,高效运行。
量子与贝叶斯推断的联系:
存在一种使用密度矩阵(Density Matrices) 的方式,可以与贝叶斯后验推断之间建立相当精确的联系。
量子计算的加速潜力与不确定性:
💬 精华片段(中文)
"Instead of calculating with probabilities, you calculate with something like the square root of probabilities... and thus events that can only stack in classical probability theory can all of a sudden cancel each other out." “你不是在用概率计算,而是在用类似概率的平方根的东西计算……因此,在经典概率论中只会叠加的事件,可以突然相互抵消。”
本节重点
详细精要
思维实验:如果移除每隔一个像素,或让像素随机分布在平面上,理想的预测器行为应保持一致性,而非变成完全不同的网络。
高斯过程(Gaussian Process)扮演的角色:
其均值函数是一个平滑的、实际的连续函数。
用偏微分方程(PDE)定义卷积:
将卷积视为对一个连续函数应用由导数构成的算符,而这个算符本身就是其 PDE 的格林函数(Green's Function)。
方法的优势与泛化能力:
本节重点
详细精要
他们带来了极强的数学工具箱、对偏微分方程和世界运作方式的深刻直觉,以及对称性、流形等概念。
重整化(Renormalization)与深度学习:
重整化理论的思想可以很自然地应用于神经网络。
混沌理论(Chaos Theory)与采样:
“混沌边缘”假说:计算要求在存储信息(稳定)和变换信息(混沌)之间取得平衡。最佳的计算位置正是在混沌与非混沌的边界上。过于稳定,一切输入都映射到同一点;过于混沌,则完全没有预测性。
矩阵指数的中心地位:
💬 精华片段(中文)
"It turns out the best place to be is at the edge of two things... you can go to the right a little bit and be more stable, and go to the left a little bit and you can transform things and compute things." “事实证明,最好的位置是在两件事的交界处……稍微向右一点,可以更稳定;稍微向左一点,可以变换和计算。”
| 术语 | 解释 |
|---|---|
| 几何深度学习 (Geometric Deep Learning) | 在非欧几里得结构的数据(如图、流形、球面)上进行深度学习,而不是传统的网格状数据(如图像、音频)。 |
| 非欧几里得 (Non-Euclidean) | 指不满足欧几里得几何中“直线”、“平面”和“平行公设”的空间或数据结构,例如有任意曲率的流形或社交网络图。 |
| 流形 (Manifold) | 局部看起来像欧几里得空间,但整体可以弯曲、扭曲的空间。例如,球面是一个二维流形。 |
| 图神经网络 (GNN, Graph Neural Networks) | 一种专门用于处理图结构数据的神经网络,其计算依赖于节点间的连接关系。 |
| 全连接网络 (Fully Connected Neural Network) | 一种神经网络结构,其每一层的每个神经元都与下一层的所有神经元相连接。 |
| 卷积神经网络 (CNN, Convolutional Neural Networks) | 一种包含卷积层的网络,通过共享权重的滤波器在数据上滑动,来高效提取局部特征。 |
| 归纳先验/偏置 (Inductive Prior/Bias) | 在模型学习之前,根据对问题的先验知识,对模型结构或学习算法施加的偏好或假设,使其向更好的解偏移。 |
| 平移不变性 (Translational Invariance) | 输入发生了平移,模型的输出保持不变。CNN 中的池化层提供了这种特性。 |
| 等变性 (Equivariance) | 输入发生了某种变换,模型的输出也发生相应的可预测变换。例如,输入平移,CNN 特征图也随之平移。 |
| AlphaFold 2 | 由 DeepMind 开发的 AI 系统,能基于蛋白质的氨基酸序列高精度预测其三维结构。 |
| 旋转平移 (Roto-Translations) | 指在三维空间中,同时包含旋转(Rotation)和平移(Translation)的几何变换组合。 |
| SE(3) Transformer | SE(3) 指“特殊欧几里得群”,描述了三维空间的刚体运动。SE(3) Transformer 是一种对其输入进行旋转平移变换时,输出也会相应等变的自注意力网络架构。 |
| 变分自编码器 (VAE, Variational Autoencoder) | 一种生成模型,通过编码器将数据映射到一个潜在空间中的概率分布,再通过解码器从该分布中采样生成新数据。由 Max Welling 和 Diederik Kingma 提出。 |
| 通用人工智能 (AGI, Artificial General Intelligence) | 一种能执行任何人类智能可以完成的任务的机器智能,具备跨领域的灵活性、学习和泛化能力。 |
| 生成模型 (Generative Model) | 学习并模拟数据生成过程的模型,可用于生成符合原始数据分布的新样本。 |
| 因果关系 (Causality) | 指“A 导致 B”的关系,超越了纯粹的统计相关性,具有更好的跨领域泛化能力。 |
| GPT-3 | 由 OpenAI 开发的大型语言模型,以其 1750 亿参数量和强大的少样本学习能力而闻名,是纯粹数据驱动方法的一个巅峰代表。 |
| 退却的地平线 (Receding Horizon) | 一种现象,指每当技术取得重大突破,解决了部分问题,人们会看到更远处尚未解决的问题,从而认为目标依然遥远,地平线似乎不断后退。 |
| 胶囊网络 (Capsule Networks) | Jeff Hinton 提出的一种网络架构,旨在通过一组神经元向量(胶囊)来建模物体及其部件之间的层级姿态关系。 |
| 硬件彩票 (Hardware Lottery) | Sara Hooker 提出的概念,指一个研究想法的成功不仅取决于其本身的价值,还极大地依赖于当时可用的硬件和软件生态是否对其有利。 |
| 量子波幅 (Quantum Amplitude) | 量子力学中描述一个事件发生可能性的复数,其模的平方等于该事件的概率。波幅可以相互干涉,导致增强或抵消。 |
| 量子纠缠 (Entanglement) | 一种量子力学现象,指两个或多个粒子的状态变得相互关联,以至于无法单独描述各个粒子的状态,即使它们相隔很远。 |
| 高斯过程 (Gaussian Process) | 一种随机过程,其中任意有限维度的随机变量集合都服从联合高斯分布。在 ML 中,它被用作一种强大的非参数贝叶斯模型,能提供预测的不确定性。 |
| 偏微分方程 (PDE, Partial Differential Equation) | 包含未知多元函数及其偏导数的微分方程,常用于描述物理现象(如波动、热传导)。论文中用它来重新定义连续空间上的卷积。 |
| 格林函数 (Green's Function) | 求解带有初始条件或边界条件的非齐次微分方程的解时的一种函数。在本文语境下,卷积被看作是 PDE 的格林函数解。 |
| 重整化 (Renormalization) | 物理学中处理无穷大,并建立不同尺度下物理规律之间联系的一种数学技术。 |
| 混沌边缘 (Edge of Chaos) | 指系统处于严格有序和完全混沌之间的一种过渡状态,被认为能产生最复杂、最丰富的计算行为。 |