Max Welling：机器学习中的量子、流形与对称性

来源： YouTube (Machine Learning Street Talk) | Max Welling | 发布于 Jan 03, 2021 分类： 其他 原文发表： Jan 03, 2021 纪要生成： 2026-06-25

全集重点

几何深度学习先驱：Max Welling 开创了在非欧几里得数据（如图、流形）上进行深度学习的范式，将物理学的对称性与流形概念引入机器学习。
归纳偏置至关重要：无假设则无预测。CNN 通过平移权重共享获得成功，而将更复杂的对称性（如旋转不变性）作为归纳先验植入模型，能极大提升模型的样本效率和泛化能力。
量子力学是一种新的统计学：量子概率（概率的平方根）允许事件相互抵消，为机器学习提供了全新的数学框架，尽管其实用性尚不明确，但潜力巨大。
探索 vs. 利用的科研哲学：当前的学术评审体系过于保守和暴躁，扼杀了原创思想。应建立一个类似“开放评审”的持续交流市场，鼓励探索式科研，珍视想法的新颖性。
生成模型与因果关系是未来：人类智能的核心在于能在大脑中“生成”世界并进行因果推断。纯数据驱动方法有其局限，需向模型注入关于世界物理结构的知识以实现真正的泛化。

嘉宾/话题简介

Max Welling 是机器学习领域最具影响力的研究者之一，拥有近 40,000 次引用。他现任阿姆斯特丹大学 AMLab 的研究主席和正教授，同时也是高通公司（Qualcomm）的副总裁。Welling 教授拥有物理学博士学位，他将物理学中对称性、流形、拓扑等深刻概念作为“操作手册”引入了机器学习领域，开创并推动了非欧几里得几何深度学习的发展。本集节目围绕他在机器学习中引入归纳偏置、对称性的工作展开，并深入探讨了量子概率、科研创新机制以及通往通用人工智能（AGI）的路径。

分节详述

00:34 几何深度学习与非欧数据

本节重点

几何深度学习就是处理非欧几里得结构的数据。
现实世界存在大量非欧数据，如社交网络、球面数据。
实现的关键在于抽象化距离和邻域的概念。

详细精要

几何深度学习的定义：处理不是欧几里得结构的数据。
传统欧几里得数据具有整齐的网格结构，如音频的一维链式结构或图像的二维平面结构。
非欧数据则可能是球体、图（Graph）或具有任意曲率的更奇特的流形（Manifold）。
应用场景包括对气候模式或社交互动数据进行建模。
图神经网络（GNN）与几何深度学习的关系：如果已经在使用图神经网络，那就已经在进行非欧几何深度学习。
核心在于对概念的抽象化：欧几里得距离或邻域变成了一个关于连接性的函数。
就像在社交图谱上判断“我是否与 John 相连，John 是否认识 Bob”，与物理距离无关。

💬 精华片段（中文）

"It's the idea of performing deep learning...on data that is not euclidean in some sense...but perhaps a sphere or a graph or something more exotic like some kind of manifold with arbitrary curvature." “这个想法是，在某种意义上非欧几里得的数据上执行深度学习……也许是球体或图，或者更奇特的东西，比如某种具有任意曲率的流形。”

抽象化链接的威力：这种抽象方法在数学的许多领域都行之有效。
通过将物理结构抽象为关系结构，可以让神经网络在非传统数据上工作。
Max Welling 及其合作者（如 Taco Cohen）是这一领域的开拓者，他们将此应用于球面 CNN 等模型。

02:16 对称性、归纳偏置与 CNN 的成功

本节重点

全连接网络会浪费表征能力去学习重复概念（如不同位置的狗）。
CNN 通过引入平移权重共享（一种归纳偏置），成功复用了参数。
将对称性等先验知识植入模型，能提升样本效率和泛化能力。

详细精要

全连接网络的表征浪费：在全连接网络中，必须在图像的每个位置（左上角、右上角）分别学习识别“狗”这个概念。
这是因为网络缺乏平移对称性的先验知识，不知道平移后的物体是同一个东西。
这导致了网络表征能力的极大浪费。
CNN 的突破性原因：CNN 引入了平移权重共享的概念。
它设想有一个可以在整个平面流形上滑动的滤波器，让同一套参数可以在视野的不同位置被复用。
这使得模型可以学习到视觉场中不同位置的相同概念，这是一个难以置信的突破。
归纳先验（Inductive Prior）的定义与价值：
归纳先验是指将关于世界如何运作的先验知识植入（Impute）到深度学习模型中。
主要价值在于两点：使模型样本效率更高（用更少数据学到更多）和泛化能力更强（更好地处理未见过的数据）。
Max Welling 被认为是设计复杂归纳先验的大师。
3D 数据处理的实际挑战与解决方案：
如何在弯曲物体（如球体）上采集的图像数据中理解信息是一个巨大挑战。
通过应用推广相对论和量子场论的数学，一种新型卷积可以直接在几乎任何弯曲物体上处理数据，即使移动物体，AI 仍能识别。
高通公司正在研究这类能在设备端高效运行的 AI。

💬 精华片段（中文）

"In this blank slate paradigm...we're essentially wasting the representational capacity of the neural network because we're just learning the same thing again and again..." “在这种白板范式中……我们基本上是在浪费神经网络的表征能力，因为我们只是一遍又一遍地学习同样的东西……”

04:33 DeepMind AlphaFold 2 中的 SE(3) 等变性

本节重点

AlphaFold 2 在蛋白质折叠预测竞赛中碾压所有对手，宣称解决了50年难题。
其成功关键之一是使用了 3D 等变 Transformer 架构。
该架构与 Max Welling 团队研究的 SE(3) Transformer 高度相似。

详细精要

AlphaFold 2 的压倒性成功：在年度蛋白质折叠预测竞赛中，DeepMind 的 AlphaFold 2 的表现远超其他所有参赛团队，以至于该问题被认为已基本解决。
蛋白质可以看作是一个空间图（Spatial Graph）。
该模型很可能用 Transformer 风格的注意力层取代了传统的卷积网络。
等变性的核心作用：文章 “AlphaFold and Equivariance” 的评论指出，DeepMind 的系统一个关键模块是一个迭代优化结构预测的神经网络。
它尊重并利用了问题的一个关键对称性：旋转平移（Roto-Translations）。
该架构与 SE(3) Transformer 非常相似。
SE(3) Transformer 与 Max Welling 的关联：Max Welling 深度参与了 SE(3) Transformer 的研究。
SE(3) 全称是特殊欧几里得群(The Euclidean Group)，是3D点云和图的自注意力模块的一个变体。
它对于连续的 3D 旋转平移操作是等变的（Equivariant）。
等变性对于在存在输入数据的“讨厌变换”（如旋转）时，确保模型性能的稳定和可预测至关重要。
群论的抽象之美：SE(3) 属于群论（Group Theory） 的范畴，这是数学中的一个抽象概念。
欧几里得群涉及应用于欧几里得数据以保持某些属性（如两点间的欧几里得距离）的所有对称性或群转换。
这些转换包括平移、旋转和反射。
关键评论者 Fabian Fuchs 的研究主题是学习不变性表征，即关注忽略输入中的有害或无关信息，而不是仅仅寻找重要信息，这有助于对抗偏见或更好地利用数据结构。
DeepMind 的官方佐证：DeepMind 发布的关于 AlphaFold 2 的演示文稿明确指出，他们为深度学习模型构建了归纳偏置。
物理洞察被构建到网络结构中，反映了他们在蛋白质物理和几何学上的知识。
他们在结构模型页面明确指出，正在构建一个3D 等变 Transformer 架构。

💬 精华片段（中文）

"In short, this module is a neural network that iteratively refines the structured predictions while respecting and leveraging an important symmetry of the problem, namely that of roto-translations." “简而言之，这个模块是一个神经网络，它迭代地优化结构预测，同时尊重并利用问题的一个重要对称性，即旋转平移。”

09:30 机器学习中的“潮流”与 Max 的研究起落

本节重点

Max Welling 和 Kingma 在 2004 年发明了变分自编码器 (VAE)。
机器学习领域存在5-10年的潮流周期，从一个热门主题转向另一个。
重大成果（如 VAE、GNN）在诞生之初并不显眼，其影响力难以预测。

详细精要

VAE 的诞生：早在 2004 年，Max Welling 就与 Kingma 一起发明了变分贝叶斯自编码器（VAE），这是生成模型领域的里程碑式工作。
领域潮流的周期性：和其他领域一样，机器学习界也受“潮流（Fashion）”影响。
存在 5 到 10 年的周期，人们对某个特定主题感到兴奋，要么是因为其理论优雅，要么是因为它在实践中效果极佳。
Welling 的经历：他起步于双图模型和独立成分分析；后来是支持向量机和非参数方法；再后来是贝叶斯方法和非参数贝叶斯方法；现在则是深度学习的天下。
重大发现的不可预测性：预测什么工作会成为众所周知的“爆款”是极其困难的。
当他们研究 VAE 或图神经网络（Graph Neural Nets） 时，完全没感觉这些会成为大热门。
有些论文被挑出来并“起飞”，这本身就是一个巨大的谜题。而另一些他们引以为傲的工作，发表过程却极其艰难，耗时漫长。

💬 精华片段（中文）

"It's incredibly hard to predict what will become well known...when we did things like the VAE or graph neural nets, it didn't feel at all like this was going to be a big hit." “预测什么会变得众所周知是极其困难的……当我们做 VAE 或图神经网络这些事情时，完全没感觉这将会是一个巨大的成功。”

11:00 计算效率、先验与通用人工智能 (AGI)

本节重点

模型越大效果越好，但高能耗在经济上不可持续，更高效的计算是必然方向。
纯数据驱动方法在跨领域泛化上存在困难，而具备因果关系的先验知识能帮助模型泛化。
Max Welling 认为，生成模型和理解世界的因果关系可能是实现智能的真正诀窍。

详细精要

计算效率的紧迫性：堆砌算力和扩大模型能获得更好性能，但这会消耗无穷无尽的能源。
在未来某一节点，这在经济上不再可行。
因此，提升深度学习和机器学习的能效是一个必然趋势。
泛化、先验与经验：理想的模型应能泛化到训练时未见过的新环境或新情境中，这是通用人工智能（AGI） 的核心。
当前的狭义人工智能（Narrow AI） 在新的情境下很容易完全失败。
人类的灵活性则强得多，在一个情景下学到的东西，可以很好地迁移到一个从未见过的新情景。
生成模型是未来方向：Max Welling 和 Karl Friston 的观点可能一致，都认为生成模型是关键。
生成模型就是写下“我如何想象我在测量仪器中看到的世界是由自然生成的”这样一个关于世界的模型。
人脑中都在运行着对现实的模拟，并不断整合这些模拟的期望值，这似乎是人类智能的真正诀窍。
因果关系促进泛化：因果关系具有更好地泛化的特性。
例子：在荷兰，某种颜色的车可能与高事故率相关，但这在别的国家不成立，这只是地方现象。而男性睾酮水平是因果性因素，会在其他国家更好地泛化。
如果能弄清楚世界的真实物理定律，即什么导致了什么，就构成了对世界的深刻理解。即使进入新情境，拥有这种因果结构也能更好地泛化。

💬 精华片段（中文）

"We all have the Matrix going on inside our heads, we are running simulations of reality and we're kind of integrating over the expected value of those simulations." “我们脑子里都上演着《黑客帝国》，我们在运行对现实的模拟，并在某种程度上对这些模拟的期望值进行整合。”

16:00 数据驱动 vs. 知识模型驱动

本节重点

人工智能社区存在数据驱动和知识模型驱动两种思想流派。
“白板说”（数据驱动）有其局限性，Max Welling 倾向于将世界结构融入模型。
GPT-3 等大模型的表现在不断打破预期，形成了一个“退却的地平线”。

详细精要

AI 社区的分歧：能否将纯粹的数据驱动方法一路扩展到 AGI？
知识驱动派：以 Gary Marcus 和 Waleed Sabha 为代表，认为需要明确的、关于世界的结构化模型，仅靠数据驱动是荒谬的。
数据驱动派：经典的“AI”社区，认为仅靠数据就能解决一切。
Max Welling 的立场：他稍微倾向于“需要将生成性信息放入模型”的阵营。
GPT-3 带来的惊喜与“退却的地平线”：
GPT-3 是100% 数据驱动的，它的表现远超预期，这是另一个巨大惊喜。
但人们很快发现 GPT-3 的缺陷（如缺乏可逆性、不理解常识），热度又会消退一些。
这形成了一个“退却的地平线（Receding Horizon）”现象：新突破出现时人们极度震撼，随后发现其局限，期待值稍有回落，等待下一次突破。
数据与先验的辩证关系：
机器学习的核心在于定义正确的归纳偏置，并把你不知道的留给数据。
如果强加了错误的归纳偏置，模型性能反而会恶化。
将旋转不变性（Rotation Invariance）引入 CNN 在大多数情况下是稳健的，即使对天空这样的特例（天空总在上方）可能不是完美的先验，但它通过削减参数量帮助系统更好地泛化。

18:00 回顾与创新：胶囊网络、科研探索与学术界

本节重点

胶囊网络的“逆渲染”直觉是正确的，但受限于当前的实现和计算效率。
学术界应鼓励探索而非利用，应珍视原创想法。
当前的同行评审体系过于暴躁，导致科研行为趋同，扼杀创新。

详细精要

胶囊网络的理念：由 Jeff Hinton 提出的胶囊网络，其底层直觉是“逆渲染管线”。
概念：将世界拿进来，并“逆渲染”成这些胶囊。胶囊被认为是对物体部分的一种抽象表示。
与 Welling 工作的区别：Welling 的方法是显式地定义变换方式；而胶囊网络保持高度抽象，只表示“某种东西的堆栈以某种方式变换”，然后让模型去学习所有这些变换。
历史经验的重复：许多前沿想法因为硬件局限而沉寂，等待时机重生。
神经网络在80年代就很流行，但直到有了大量 GPU 和足够的数据才真正爆发。
胶囊网络可能在未来 5 到 10 年或将再次流行。
学术界“探索”与“利用”的失衡：
Kenneth Stanley 的著作《Greatness Can't Be Planned》指出，社会系统存在一种趋同行为，源于对目标函数单调递增的执念。
科学应该像“寻宝（Treasure Hunting）”一样，是关于探索（Exploration）而非利用（Exploitation）。但当前的同行评审却促成了共识和趋同。
对现行评审体系的批判与改革建议：
Max Welling 强烈认为社区的评审过于暴躁（Far Too Grumpy），总是能找到漏洞进行攻击。
他建议建立一个类似于“开放式评审（Open Review）”的持续流系统：将论文直接放到 arXiv 上，进行公开的同行评审。评审可以作为个人的学术成果，获得声誉。
会议则从这个论文市场中“收割（Harvest）”优秀的、已获良好评审的论文，邀请作者来发表演讲。
这种模式可以避免对学生的打击：如果想法是非主流的，被会议拒绝2-3次极其令人沮丧。而开放式评审允许他们直接在社区中交流想法，这“去激励性”要小得多。

💬 精华片段（中文）

"I do feel very strongly that as a field we need to open up, so we should value original ideas much more than we currently do... I think the reviewing in our community is far too grumpy." “我强烈地感觉到，作为一个领域，我们需要开放。我们应该比现在更珍视原创想法……我认为我们社区的评审太过暴躁了。”

20:15 量子机器学习：概率平方根的游戏

本节重点

量子力学可以视为另一种基于波幅的统计学理论，与基于概率的经典统计学不同。
量子概率（波幅）可以相互抵消，导致事件发生的概率变为零。
量子神经网络可以利用量子纠缠等特性，为机器学习带来全新架构。

详细精要

量子力学 = 另一种统计学：在 AI 中，对于不完全观测的事物，我们用概率描述。量子力学则与之类似，但它处理的是概率的平方根 (Square Root)，称为量子波幅 (Quantum Amplitude)。
关键区别：波幅可以是负数。例如， (-2)^2 = 4，4 是概率，-2 可以作为波幅。
反直觉的抵消现象：这是最反直觉的部分。
在经典概率中，两个通往同一事件的概率只会叠加，使事件更可能发生。
在量子力学中，如果两个波幅一正一负，它们可以相互抵消，导致事件的概率突然变为零。
Max Welling 对此评价：“这看起来很离奇，但自然选择了这种统计学理论。”
量子变形神经网络的基本原理：
第一步：设想一个普通神经网络，并尝试在量子计算机上实现它。
第二步：轻微地“变形”它，使状态变成纠缠态（Entangled）。这是一种经典世界无法创造的态叠加。
优势：以这种特定方式构建的网络，可以在经典计算机上高效模拟，但它与普通神经网络完全不同。同时，一旦量子计算机问世，它就能释放全部潜力，高效运行。
量子与贝叶斯推断的联系：
可以用量子波函数同时描述世界状态和参数状态，然后让这两个波函数相互纠缠。
对其进行测量，得到的测量结果是输入和参数的函数，训练的目标就是让测量高概率地给出正确答案。
存在一种使用密度矩阵（Density Matrices） 的方式，可以与贝叶斯后验推断之间建立相当精确的联系。
量子计算的加速潜力与不确定性：
量子计算机原则上可以计算经典计算机无法计算的东西，且速度更快。
但对于量子神经网络在解决经典问题上是否会更好，目前完全不清楚。某种加速极限至少是平方根级别，而不是指数级。
最终能加速什么并不确定，但这正是它令人兴奋之处。

💬 精华片段（中文）

"Instead of calculating with probabilities, you calculate with something like the square root of probabilities... and thus events that can only stack in classical probability theory can all of a sudden cancel each other out." “你不是在用概率计算，而是在用类似概率的平方根的东西计算……因此，在经典概率论中只会叠加的事件，可以突然相互抵消。”

23:00 概率数值卷积神经网络

本节重点

传统的像素网格只是对底层连续信号的离散采样。
使用高斯过程对数据进行连续插值，可以得到带有不确定性的连续函数。
用偏微分方程重新定义卷积，使其能直接应用于连续空间和非均匀采样点。

详细精要

从离散像素到连续信号的观念转变：
关键思想：图像的像素网格只是对底层连续信号的一种采样。
思维实验：如果移除每隔一个像素，或让像素随机分布在平面上，理想的预测器行为应保持一致性，而非变成完全不同的网络。
高斯过程（Gaussian Process）扮演的角色：
高斯过程就像一个通用的函数逼近器，能在数据点之间进行插值。
它在数据稀疏的地方会创造不确定性，形成一个置信区间，表示“信号有95%的把握落在这个区间内”。
其均值函数是一个平滑的、实际的连续函数。
用偏微分方程（PDE）定义卷积：
核心难题：在这种连续空间和高斯过程描述的信号上，“卷积”意味着什么？
突破性思路：他们发现最有趣的描述方式是将其视为一个偏微分方程 (PDE)。这类似于在神经网络中使用常微分方程 (ODE) 的思路，但因有空间范围，所以升级为 PDE。
将卷积视为对一个连续函数应用由导数构成的算符，而这个算符本身就是其 PDE 的格林函数（Green's Function）。
方法的优势与泛化能力：
可以处理非结构化的点集，不再需要网格。
可以学习这些采样点的位置，从而将观测引导到最能改进预测的地方，变成一个能学习移动积分点的数值积分过程。
这种范式能自然地泛化到平移、旋转和缩放等变换，并且可以通过封闭形式直接应用于模型参数，无需重新计算，计算上具有巨大优势。
这个 PDE 问题可以非常优雅地映射回量子范式，PDE 的演化可以被视为一个薛定谔方程演化波函数。

28:30 物理学家涌入机器学习与未来研究展望

本节重点

大量物理学家涌入机器学习领域，带来了强大的数学工具箱和物理直觉。
重整化和混沌理论是物理学中尚未被充分利用的深刻概念，在 ML 中潜力巨大。
计算的本质可能是在“混沌边缘”找到稳定性与可塑性的平衡。

详细精要

物理学家的“工具箱”：
物理学是一门稳健的科学学科，因为极其困难，所以物理学家通常非常聪明。
物理学是很好的“容器型学科”，学生毕业后可以做任何事情。
他们带来了极强的数学工具箱、对偏微分方程和世界运作方式的深刻直觉，以及对称性、流形等概念。
重整化（Renormalization）与深度学习：
重整化是一种物理方法：对一个拥有大量自由度的系统（如微观粒子）进行粗粒化（Coarse Graining），建立一个等效理论。
类比：热力学是统计力学的等效理论；神经网络从底层的像素，经过一层层聚合，到顶层出现物体和物体间关系的涌现特性，这也是一个粗粒化过程。
重整化理论的思想可以很自然地应用于神经网络。
混沌理论（Chaos Theory）与采样：
采样过程看似随机，但调用的随机数生成器其实是伪随机数生成器，所以整个过程是一个确定性混沌过程。
Welling 和他的团队正在研究如何让采样系统不那么混沌，成为一个可能在“混沌边缘”的确定性系统。
“混沌边缘”假说：计算要求在存储信息（稳定）和变换信息（混沌）之间取得平衡。最佳的计算位置正是在混沌与非混沌的边界上。过于稳定，一切输入都映射到同一点；过于混沌，则完全没有预测性。
矩阵指数的中心地位：
矩阵指数在许多研究项目中反复出现，作为 ODE/PDE 的解，它连接了群、代数和神经网络动态过程。

💬 精华片段（中文）

"It turns out the best place to be is at the edge of two things... you can go to the right a little bit and be more stable, and go to the left a little bit and you can transform things and compute things." “事实证明，最好的位置是在两件事的交界处……稍微向右一点，可以更稳定；稍微向左一点，可以变换和计算。”

专业术语注释

术语	解释
几何深度学习 (Geometric Deep Learning)	在非欧几里得结构的数据（如图、流形、球面）上进行深度学习，而不是传统的网格状数据（如图像、音频）。
非欧几里得 (Non-Euclidean)	指不满足欧几里得几何中“直线”、“平面”和“平行公设”的空间或数据结构，例如有任意曲率的流形或社交网络图。
流形 (Manifold)	局部看起来像欧几里得空间，但整体可以弯曲、扭曲的空间。例如，球面是一个二维流形。
图神经网络 (GNN, Graph Neural Networks)	一种专门用于处理图结构数据的神经网络，其计算依赖于节点间的连接关系。
全连接网络 (Fully Connected Neural Network)	一种神经网络结构，其每一层的每个神经元都与下一层的所有神经元相连接。
卷积神经网络 (CNN, Convolutional Neural Networks)	一种包含卷积层的网络，通过共享权重的滤波器在数据上滑动，来高效提取局部特征。
归纳先验/偏置 (Inductive Prior/Bias)	在模型学习之前，根据对问题的先验知识，对模型结构或学习算法施加的偏好或假设，使其向更好的解偏移。
平移不变性 (Translational Invariance)	输入发生了平移，模型的输出保持不变。CNN 中的池化层提供了这种特性。
等变性 (Equivariance)	输入发生了某种变换，模型的输出也发生相应的可预测变换。例如，输入平移，CNN 特征图也随之平移。
AlphaFold 2	由 DeepMind 开发的 AI 系统，能基于蛋白质的氨基酸序列高精度预测其三维结构。
旋转平移 (Roto-Translations)	指在三维空间中，同时包含旋转（Rotation）和平移（Translation）的几何变换组合。
SE(3) Transformer	SE(3) 指“特殊欧几里得群”，描述了三维空间的刚体运动。SE(3) Transformer 是一种对其输入进行旋转平移变换时，输出也会相应等变的自注意力网络架构。
变分自编码器 (VAE, Variational Autoencoder)	一种生成模型，通过编码器将数据映射到一个潜在空间中的概率分布，再通过解码器从该分布中采样生成新数据。由 Max Welling 和 Diederik Kingma 提出。
通用人工智能 (AGI, Artificial General Intelligence)	一种能执行任何人类智能可以完成的任务的机器智能，具备跨领域的灵活性、学习和泛化能力。
生成模型 (Generative Model)	学习并模拟数据生成过程的模型，可用于生成符合原始数据分布的新样本。
因果关系 (Causality)	指“A 导致 B”的关系，超越了纯粹的统计相关性，具有更好的跨领域泛化能力。
GPT-3	由 OpenAI 开发的大型语言模型，以其 1750 亿参数量和强大的少样本学习能力而闻名，是纯粹数据驱动方法的一个巅峰代表。
退却的地平线 (Receding Horizon)	一种现象，指每当技术取得重大突破，解决了部分问题，人们会看到更远处尚未解决的问题，从而认为目标依然遥远，地平线似乎不断后退。
胶囊网络 (Capsule Networks)	Jeff Hinton 提出的一种网络架构，旨在通过一组神经元向量（胶囊）来建模物体及其部件之间的层级姿态关系。
硬件彩票 (Hardware Lottery)	Sara Hooker 提出的概念，指一个研究想法的成功不仅取决于其本身的价值，还极大地依赖于当时可用的硬件和软件生态是否对其有利。
量子波幅 (Quantum Amplitude)	量子力学中描述一个事件发生可能性的复数，其模的平方等于该事件的概率。波幅可以相互干涉，导致增强或抵消。
量子纠缠 (Entanglement)	一种量子力学现象，指两个或多个粒子的状态变得相互关联，以至于无法单独描述各个粒子的状态，即使它们相隔很远。
高斯过程 (Gaussian Process)	一种随机过程，其中任意有限维度的随机变量集合都服从联合高斯分布。在 ML 中，它被用作一种强大的非参数贝叶斯模型，能提供预测的不确定性。
偏微分方程 (PDE, Partial Differential Equation)	包含未知多元函数及其偏导数的微分方程，常用于描述物理现象（如波动、热传导）。论文中用它来重新定义连续空间上的卷积。
格林函数 (Green's Function)	求解带有初始条件或边界条件的非齐次微分方程的解时的一种函数。在本文语境下，卷积被看作是 PDE 的格林函数解。
重整化 (Renormalization)	物理学中处理无穷大，并建立不同尺度下物理规律之间联系的一种数学技术。
混沌边缘 (Edge of Chaos)	指系统处于严格有序和完全混沌之间的一种过渡状态，被认为能产生最复杂、最丰富的计算行为。

延伸思考

归纳偏置的“度”在哪里？ 虽然 Welling 论证了正确先验的好处，但 Yannic Kilcher 的提问指出了风险：不完美的先验（如认为天空可在图片下方）是否会限制模型性能？在什么情况下，弱先验 + 大量数据会胜过强先验 + 少量数据，这个临界点如何判断？
开放评审系统的可操作性挑战：节目中设想的“论文市场”和“评审即成果”的模式极具吸引力，但它能否真正解决马太效应（知名学者仍更易获得关注）和评审质量参差不齐的问题？如何设计激励机制才能防止新系统变成另一种形式的混乱？
量子机器学习的“杀手级应用”：Welling 承认，量子神经网络在解决经典问题上是否更好尚属未知。量子机器学习是会催生出像 Shor 算法之于因数分解那样的革命性应用，还是会长期停留在寻找问题与工具的匹配阶段？它的“平方根加速”极限在规模化数据面前是否足够有吸引力？
物理学家主导 AI 研究的利与弊：大量物理学博士进入机器学习领域带来了深刻的数学和理论物理视角，这是否会使得机器学习领域的知识体系和研究文化过于“物理学化”，从而挤占了来自神经科学、认知科学等背景的研究者的空间，导致发展方向单一？

原文发表：Jan 03, 2021 · 纪要生成：2026-06-25