JEPA 世界模型前沿：因果对象交互与端到端无坍塌训练

来源： YouTube (Stanford CS25 课程讲座) | Hazel (Heejeong) Nam & Lucas Maes | Apr 22, 2026 播客： Stanford Online 分类： 其他 原文发表： Apr 22, 2026 纪要生成： 2026-06-22

全集重点

JEPA 的本质差异：JEPA 在潜空间而非像素空间进行预测，天然避免建模无关节节，更接近人类推理方式
Causal-JEPA 的对象掩码机制：通过对对象槽位进行掩码，强迫模型学习对象间的干预性依赖，从而理解物理交互
LeWorldModel 的极简训练：仅靠单超参数和 SIGReg 正则化，从原始像素端到端训练世界模型，且比 DINO World Model 快 50 倍
世界模型在控制与直观物理中的验证：Push-T 任务上无本体感知即可超越有本体感知的 DINO World Model；物理违规检测中预测误差跳升，展现出类人惊讶反应
对象中心表示与动作建模改进：将动作作为独立图节点而非拼接特征，大幅提升动态理解，Causal-JEPA 上绝对性能提升 15%

嘉宾/话题简介

Hazel (Heejeong) Nam 是布朗大学一年级硕士生，师从 Randall Balestriero 教授，研究方向包括表征学习、因果关系和自监督学习。Lucas Maes 是 Mila 和蒙特利尔大学三年级博士生，与 Damien Scieur 合作，并紧密联合布朗大学的 Randall Balestriero。本期讲座围绕 JEPA（Joint-Embedding Predictive Architecture） 展开，Hazel 重点介绍 Causal-JEPA 如何通过对象中心潜变量干预学习世界模型，Lucas 则介绍 LeWorldModel 如何以极简方式实现端到端无坍塌 JEPA 训练。

分节详述

00:00 开场与嘉宾介绍

本节重点

CS25 课程第二讲，欢迎两位讲者
Hazel Nam 来自布朗大学，聚焦表征学习与因果关系
Lucas Maes 来自 Mila，研究 JEPA 与规划

详细精要

讲座背景：本节为 CS25 课程本季度第二讲，主持人介绍了两位讲者
Heejeong (Hazel) Nam 为布朗大学硕士生，研究方向为表征学习、因果关系和自监督学习，现场参会
Lucas Maes 为 Mila 和蒙特利尔大学博士生，通过 Zoom 远程参会，研究聚焦 JEPA 与规划
Hazel 的自我介绍：确认与布朗大学 Randall Balestriero 教授合作，实验室整体研究 JEPA、自监督学习 及部分理论
表达首次用英语演讲的紧张与兴奋，话题将覆盖 JEPA 世界模型及其近期工作 因果世界模型（Causal World Model）
演讲结构预告：
第一部分：Hazel 解释 JEPA 与世界模型的基本概念
第二部分：介绍 Causal-JEPA 论文，围绕模型如何理解对象交互
第三部分：Lucas 介绍 LeWorldModel，聚焦端到端 JEPA 训练中如何避免坍塌

💬 精华片段（中文）

"I'm a bit nervous. This is my first time giving a talk in English, but at the same time, I'm really, really excited to talk about JEPA world model and my recent work, causal world model."
“我有点紧张，这是我第一次用英语演讲，但同时我也非常激动能够谈谈 JEPA 世界模型和我最近的工作——因果世界模型。”

01:36 世界模型基础与设计三要素

本节重点

世界模型 = 自回归基础上加入动作，应对不确定性
三个设计核心：良好状态表示、良好转移模型、良好动力学模型
后续讨论均将回归到这三个要素

详细精要

从自回归到世界模型：简单的自回归模型用上一状态预测下一步，但世界充满不确定性，因此需要引入 动作（action）
世界模型定义为：接收前一状态和动作，预测下一状态，本质上是一个模拟器
三大设计组件：
好状态表示：不能直接输入像素，必须将世界忠实地抽象为有效表示
好转移模型：环境存在底层物理规则（如重力），模型必须学会这些规则才能准确模拟
好动力学模型：模型需要根据动作做出恰当反应
后续关联：
Hazel 将在 Causal-JEPA 部分结束时重新站在这三个视角回顾其设计如何回应各层面的需求

💬 精华片段（中文）

"The world model basically is a function that gets the previous state and the action to predict the next state. ... I perceive the world model terminology as a simulator."
“世界模型本质上是一个函数，接收先前状态和动作来预测下一状态……我将世界模型这个概念视为一个模拟器。”

03:46 生成式世界模型 vs. JEPA

本节重点

生成式世界模型直接预测像素，JEPA 在潜空间进行比较
JEPA 的关键差异在于避免建模不可预测的细节，聚焦可预测信息
JEPA 可被理解为能量模型，其核心是评价 x 与 y 的兼容性

详细精要

生成式世界模型案例：
GAIA：自动驾驶模型，用动作和前一状态预测下一驾驶场景
Genie：通过学到的潜在动作扩展世界模型，以解决在线数据缺少帧级动作标注的问题
Sora：技术上为视频生成模型，因生成场景的高保真度受到关注
Marble：斯坦福 李飞飞 教授团队的工作，构建可探索的 3D 交互环境
本期讲座不深入这些生成式模型，而是聚焦 JEPA
JEPA 与生成式模型的结构差异：
左（生成式）：将当前状态 x 编码后预测 y，并直接在像素空间与目标对比
右（JEPA）：x 和 y 都通过编码器，在潜空间进行比较
JEPA 没有解码器，这不仅是结构上的区别，更关乎如何处理世界的不确定性
- 人类思考未来时不会预测每个像素级细节，而是关注有意义、可预测的部分
- JEPA 试图在潜空间中只保留可预测的信息，使预测更加有意义
JEPA 作为能量模型：
生成式世界模型学习归一化的未来帧似然
JEPA 源自 Yann LeCun 的提议，可视为能量模型（EBM）：能量函数对兼容的 (x, y) 赋予低能量，对不兼容的赋予高能量；兼容性意味着 y 是 x 的合理未来
坍塌风险：能量模型可能学习“把一切都映射为常数”，此时兼容性变得微不足道
防止坍塌的两类方法：对比学习 和 基于正则化的方法（JEPA 采用的方式，构建丰富且良好定义的能量景观）

💬 精华片段（中文）

"JEPA tries to deal with only having predictive information in your latent space so that your prediction is getting more meaningful and human-like way."
“JEPA 试图在潜空间中仅处理可预测的信息，从而使预测变得更有意义，更像人类的思维。”

06:55 V-JEPA 与 DINO World Model 中的坍塌预防

本节重点

V-JEPA 用 EMA、stop gradient 和掩码来防坍塌
V-JEPA 2 加入动作条件控制，转型为世界模型
DINO World Model 用冻结的 DINOv2 编码器替代训练 JEPA 编码器，简化流程但牺牲人性化的推理方式

详细精要

V-JEPA（Video-JEPA）：
输入为连续帧，使用时空掩码，编码后得到表示，并预测被遮蔽区域的表示，目标编码器接收完整信息
防坍塌正则化手段：
- EMA 编码器（指数移动平均）作为目标编码器，防止平凡坍塌
- 对目标编码器施加 stop gradient
- 引入掩码使任务更具挑战性
V-JEPA 2 在相同架构上扩大规模，并进行有趣的后训练，其中之一是动作条件控制，此时预测器接收机器人动作和位姿，模型转换为世界模型
DINO World Model：
与 V-JEPA 2 的动作条件后训练结构等价，但使用冻结的 DINOv2 编码器
核心主张：不一定需要训练 JEPA 编码器来获得有意义的规划抽象，预训练的 DINO 编码器就可胜任
生成图块表示，用辅助变量（动作、本体感知信号）预测未来状态表示，并用 Causal Transformer 自回归预测未来
Hazel 指出需要反思：将图块化图像作为过去表示是否真的符合人类思维？我们并不会将图像切割成块来预测下一步

💬 精华片段（中文）

"What they claim is, oh, do we actually have to train the JEPA encoder to get the meaningful abstraction for planning? They said, no, a pretrained DINO encoder can do that role as well."
“他们宣称：我们真的必须训练 JEPA 编码器才能获得有意义的规划抽象吗？他们说，不需要，预训练的 DINO 编码器同样能胜任。”

10:07 Causal-JEPA：动机与数据集

本节重点

目标：理解对象交互与对象动态
三个数据集：Push-T（控制）、CLEVRER（反事实推理）、PHYRE（复杂物理）
现有模型将图块化作为推理起点，而人类是按对象进行因果推断

详细精要

Causal-JEPA 团队：感谢合作者 Quentin、Lucas、Yann LeCun 和 Randall Balestriero
目标：让模型理解对象之间的交互和动态演化
三个示例数据集：
Push-T：控制实验著名环境，通过推动蓝色球，将灰色 T 形块精确移动到绿色 T 形目标上
CLEVRER：视频与问答结合，问题类型包括预测性（下一秒会发生什么）、反事实性（如果不存在的蓝色圆柱会怎样）和解释性（为什么），本质是 VQA 基准
PHYRE：多个对象在物理规则下相互作用（重力、质量等），动态复杂度最高
现有模型与人类思维的差距：
目前的方法将图像分块，试图预测每个块的变化；但人类理解机制时是识别每个对象及其相互影响
设想在 DINO World Model 中用对象中心表示替换图块表示，将更接近人式思维，但这需要先学会对象中心表示

💬 精华片段（中文）

"To understand this mechanism is you want to understand the things like this. You have each object and you want to know how one object influences each other."
“要理解这种机制，你需要的是：识别出每一个对象，并弄清楚一个对象如何影响另一个。”

12:16 对象中心学习与 Slot Attention

本节重点

Slot attention 是一种奠基性框架，通过自注意力将特征分配到各个槽位
槽位通过 GRU 迭代更新，最终获得与对象对齐的表示
虽然是朴素方法，但奠定了 Causal-JEPA 的技术基础

详细精要

Slot Attention（Locatello 等提出）：
基础架构为编码器-解码器框架，中间的特征空间通过类似“篮子”的机制存放各对象特征
每个“篮子”对应一个对象槽位，机制利用 slot attention 将各特征绑定到槽位
绑定问题通过自注意力解决：Key 为输入特征（如 DINOv2 中的 patch embedding），将每个 patch embedding 分配给槽位；Value 也为输入特征，通过 GRU 迭代更新槽位
迭代后，槽位获得与对象对齐的表示
发展现状：
这是一种非常朴素的方法，已有许多更先进的衍生，包括图像和视频的 slot attention 模型

💬 精华片段（中文）

"There's a mechanism called slot attention that puts each feature to each slot. So there's a binding problem of feature to slot."
“有一种叫 slot attention 的机制，将每个特征放到对应的槽位中，这就涉及特征到槽位的绑定问题。”

14:20 “猴子吃香蕉”：Causal-JEPA 的核心动机

本节重点

如果模型真正理解动态，即使部分对象被遮挡，也能推断其状态变化
Causal-JEPA 通过掩码让模型学习这种推断能力
该过程无需必须使用 Causal Transformer，双向 Transformer 也可用多步历史

详细精要

核心思想实验：
假设模型学会了“猴子吃香蕉”这一动态，当香蕉被布遮盖时，仅凭猴子嘴巴的运动，就能推断香蕉在变短
反之，若猴子不可见但香蕉在消失，也能推断猴子在吃
这构成了 Causal-JEPA 的核心动机和解释：模型应当学会即使某些对象被掩码，也能从其他对象的状态中推断信息
与 Transformer 的适配：
预测器不需要一定是 Causal Transformer，只要看到历史就能进行下一步预测，因此 Causal-JEPA 使用双向 Transformer
当采用多步历史（如四帧），双向 Transformer 需要为未来时刻设置占位符，即掩码令牌，预测目标就是正确预测掩码令牌

💬 精华片段（中文）

"If model is truly understanding this eating mechanism, the model might be able to infer what is happening to banana when we cover the invisible cloth on banana."
“如果模型真正理解了这种进食机制，那么当我们用布遮住香蕉时，它也能推断出香蕉正在发生什么变化。”

15:25 Causal-JEPA：架构与掩码策略

本节重点

对象中心表示下，每行代表一个对象的演化
仅仅掩码单个槽位模型易走捷径（插值），激进掩码强制学习对象间依赖
多对象掩码面临槽位顺序问题，通过保留首帧作为身份锚解决

详细精要

表示与掩码设计：
假设历史 4 帧，加上掩码令牌作为未来占位，使用双向 ViT 风格 Transformer
每一行对应一个对象在时间上的演化，蓝色为可见槽位，黄色为掩码槽位
若只掩码一个槽位，模型最简单的策略是对前后槽位进行插值来降低损失，但这并未学到对象交互
激进掩码策略：
将某个对象在整个时间轴上全部掩码，模型无法利用该对象的局部平滑性，必须从其他对象中推断才能预测掩码状态
这迫使模型学习对象间的依赖性
多对象掩码与顺序问题：
实际场景中，通常设定固定最大槽位数（如 8），但画面可能只有 3 个对象，此时仅掩码一个槽位不够
对象中心模型具有置换等价性，不定义对象的固定顺序（是集合而非列表）
如果掩码多个对象，模型不知道应该为哪个槽位预测什么，因为槽位缺乏对象身份标识
时间一致性：视频内槽位顺序在时间上可保持一致，如视频 A 的槽位顺序不变，但视频 A 与视频 B 的顺序无法保证相同
解决方案：保留首帧作为身份锚：
不掩码第一个时间步（t-3），利用该帧的信息作为每个槽位的身份标识
每个掩码令牌由身份令牌 + 可学习的掩码令牌，再加上位置编码构成
这种方式比全掩码保守，因为有了对象的初始条件，预测更合理

💬 精华片段（中文）

"But when we are trying to do positional encoding in the slot axis, there's a problem, because what object-centric models are doing is they do not define the order of the objects, but rather the object-centric models are permutationally equivalent depends with respect to the object orders."
“当我们在槽位轴上进行位置编码时会出现问题，因为对象中心模型并不定义对象的顺序，而是对对象顺序具有置换等价性。”

20:09 动作条件：从拼接特征到独立节点

本节重点

DINO World Model 将动作 embedding 拼接到 patch embedding 后，并非最优
Causal-JEPA 将动作视为图中的一个独立节点，更贴合因果图动机
这种改变显著提升性能

详细精要

DINO World Model 的动作条件方法：
若使用 DINOv2-Small（特征维度 384），动作 embedding 为 10 维，则将动作 embedding 复制到与 patch 数量一致，并直接拼接到 patch 表示后方，形成 394 维（应为 384+10=394，口语中可能为口误）
Hazel 认为这种方式并非最优，因为模型需要的是理解动作如何与各个对象交互
Causal-JEPA 的改进：
不把动作作为特征的附加部分，而是将动作视为与对象同等的图节点
动机源于因果图：每个对象表示是一个节点，动作也应作为一个节点，以便学习节点间的有向依赖
Causal-JEPA 并不恢复真正的因果图，但其设计理念植根于因果图的思想
架构总结：
历史帧进入对象中心编码器 → 获得对象表示 → 选择并掩码部分对象 → 送入含动作节点的双向 Transformer 预测器 → 预测所有掩码令牌

💬 精华片段（中文）

"Why don't we consider action as another node of the graph? The Causal-JEPA does not recover any true causal graph, but its motivation is grounded in the causal graph."
“我们为什么不把动作视为图中的另一个节点？Causal-JEPA 并没有恢复任何真实的因果图，但其动机植根于因果图。”

22:16 实验结果：CLEVRER 反事实推理与 Push-T 控制

本节重点

掩码机制带来 CLEVRER 反事实问题的显著提升
Push-T 上对象中心表示相比图块表示大幅减少 token 数，但直接替换性能下降
改为双向 Transformer + 动作独立节点后性能大幅回升，加入掩码后进一步提升 28%

详细精要

实验维度：围绕理解对象动态的目标，进行三类实验：反事实推理、规划与控制、物理不合理性检测
CLEVRER 结果：
对比包括其他现有模型，重点对照 无掩码 的模型
C-JEPA 平均准确率更优，尤其在反事实问题上提升显著，这与其“如果对象不存在会怎样”的原始动机高度吻合，因为这类问题要求理解对象间的相互作用
Push-T 规划实验：
效率优势：使用对象中心表示时，token 数量（例如几个槽位）远远少于 DINO World Model 的 196 个 patch token，且因为每个 token 具有清晰语义（纹理、颜色、形状、旋转状态、位置），不需要极大的特征空间
直接替换的失败：将 DINO World Model 的 patch 表示直接换成对象中心表示后，性能显著下降。原因：DINO World Model 使用 Causal Transformer，而 Causal-JEPA 使用双向 Transformer；且对象中心表示仅靠单幅静态图像无法定义速度、加速度等信息
方法改进的效果：
- 将动作处理为独立节点 + 转换为双向 Transformer 后，性能获得 15% 的绝对百分比提升
- 相比无掩码的 Object-Centric DINO World Model（OC-DWM），加上掩码后提升 28%，证明对象掩码确实帮助模型理解了动态
动作条件消融：红线的动作拼接方法（DINO World Model 方式）与将动作作为独立节点的方法对比，后者明显更优

💬 精华片段（中文）

"After we changed the action-conditioning method, treating them as a separated node, and we change the transformer to the bidirectional transformer, the performance gain is significant. It gains this 15% of absolute percentages."
“在我们改变了动作条件方法，将动作作为独立节点处理，并将 Transformer 改为双向之后，性能提升显著，绝对百分比提升了 15%。”

25:57 PHYRE 物理合理性实验与注意力探针

本节重点

OC-JEPA 在 PHYRE 上会产生物理上不合理的预测，如浮空的杆
对象掩码迫使模型反复回答“如果该对象不存会怎样”，从而学会真实动态
注意力分析显示，失败来自关注了不相关的对象

详细精要

PHYRE 实验：
在三数据集中动态最复杂，存在大量构型组合，需要精确学习场景中发生的事
OC-JEPA vs C-JEPA：OC-JEPA 常产生物理上不合理的场景，例如横杆出现在下方固定杆的悬浮位置，这仅仅是由于学习了“两根杆靠近时就保持不动”的相关性，而非真正物理
通过对象掩码的训练，模型被持续追问“如果这个不存在会发生什么？你要考虑哪些信息才能预测掩码令牌？” 从而学会真实的动态，而非表面相关性
注意力探针分析：
查看上一例物理失败时模型的注意力，发现 OC-JEPA 依赖了包含蓝球的杯子（不相关对象），而 C-JEPA 则正确地关注到右侧的横杆来预测其未来状态
Causal-JEPA 中“因果”的定义：
此处使用的“因果”并非传统统计因果，而是时序定向预测依赖：因为模型从历史预测未来，依赖边具有方向性，且预测掩码令牌时必须关注相关对象
这种定义属于现代因果机器学习领域的一种可接受用法

💬 精华片段（中文）

"By the training method of object masking, you keep asking the question to the model, what would happen if this doesn't exist? What should you consider to predict the masked token? It can learn the true dynamics."
“通过对象掩码的训练方法，你不断向模型提问：如果这个不存在会怎么样？你需要考虑什么来预测被掩码的令牌？这样模型才能学到真实的动力学。”

28:36 形式化假设与回应关键问题

本节重点

对象掩码使预测器找到“影响邻域”（预测充分的最小集）
成立需四个假设：无瞬时关系、机制共享、对象对齐表示、历史充分性
允许存在混淆因子，不假设一阶马尔可夫性

详细精要

影响邻域：
预测器通过掩码训练找到的是预测充分集，即正确预测掩码令牌所需的最小对象集合
四项假设：
无瞬时关系：不假设同帧内对象之间存在瞬时因果
机制共享：所有训练样本共享同样的物理机制，如重力在整个数据集中不变
对象对齐表示：要求对象中心表示在整个视频中保持恒定，不发生槽位交换或对象分裂，且忠实反映场景，这是实践中最大的挑战
历史充分性：使用的有限历史（如 4 帧）足以预测未来
实际考量：
不假设一阶马尔可夫性，因为对象中心表示通常不满足一阶马尔可夫性质
允许混淆因子：真实世界的对象中心表示中混淆因子不可避免，这使得恢复真实因果图通常不可能，但方法仍可在实践中有用
关键问题快答：
表示不够忠实时？ 轻微不完美仍可以，掩码本身就是归纳偏置；但非常差时则无效
能否恢复真实因果图？ 不能，因为混淆因子存在，且很多场景下定义“真实因果图”本身就很困难
如何选择掩码对象数？ 理想情况是仅掩码一个前景对象而不含背景槽位；实践中根据数据统计估算，并微调寻找最佳数量
最大局限：来自对象中心编码器，它在遮挡和对象出现/消失的场景中表现不佳，槽位注意力难以处理这些情况
回归三大设计组件：
状态表示：使用对象中心表示
转移模型：通过对象掩码让模型学习预测充分性
动力学模型：将动作变量作为独立节点进行条件注入

💬 精华片段（中文）

"The largest limitation is coming from the object-centric encoder. The object-centric representation does not work really well on the occlusion situation. And, in the middle of the video, some objects can appear and disappear. But this slot attention cannot handle this scenario really well."
“最大的局限来自对象中心编码器。对象中心表示在遮挡情况下效果不佳，而且视频中间会有对象出现和消失，而 slot attention 无法很好地处理这种情况。”

33:27 LeWorldModel：极简 JEPA 的动机

本节重点

Lucas Maes 团队旨在让世界模型和 JEPA 训练变得极其简单
LeWorldModel：无 EMA、无掩码、无 stop gradient、无预训练编码器、无不稳定损失，仅单超参数
架构仅 16M 参数，单 GPU 可训练，纯原始像素端到端

详细精要

研究背景与团队：Lucas 为 Mila 三年级博士生，导师 Damien Scieur（三星研究院），紧密合作 Randall Balestriero；本工作与合作者 Quentin Le Lidec（NYU 博后）、Yann LeCun、Damien 和 Randall 共同完成
极简训练的目标：
已有的 JEPA 变体为防止坍塌引入了大量技巧：EMA、掩码、stop gradient、预训练编码器、复杂损失项，例如 PLDM 有 6 个损失项和相应超参数，调参困难
LeWorldModel 反其道而行：不使用 EMA、无掩码、无 stop gradient、无预训练编码器、无复杂损失，仅有 1 个超参数 λ
全模型仅 16M 参数，可在单 GPU 上从原始像素完全端到端训练，规划速度比 DINO World Model 快 50 倍

💬 精华片段（中文）

"It's just a simple JEPA that doesn't use any tricks. So there is no Exponential Moving Average, no masking, no stop gradient, no pretrained encoder, and also no unstable loss. Why? Because we have a single hyperparameter."
“它就是一个简单的 JEPA，不使用任何技巧。没有指数移动平均，没有掩码，没有 stop gradient，没有预训练编码器，也没有不稳定的损失。为什么？因为我们只有一个超参数。”

39:09 LeWorldModel 架构与伪代码

本节重点

框架极简：共享编码器编码 o_t 和 o_{t+1}，用动作预测未来，MSE + SIGReg
伪代码即是真代码，单超参数 λ 在回归行上，可用二分搜索调优

详细精要

纯粹 JEPA 实现：
观察 o_t 和 o_{t+1} 通过共享编码器得到 z_t 和 z_{t+1}
利用 z_t 和动作 a_t，学习预测器在潜空间估计未来状态 \hat{z}_{t+1}
与目标编码器输出的 z_{t+1} 计算 MSE，并加上 SIGReg 正则项防止坍塌
代码即伪代码：
提供伪代码块，表示实际代码也是如此简单：编码 → 预测 → 计算预测误差 → 加 SIGReg
最终返回值只包含 单超参数 λ，可以使用二分法以 log N 复杂度快速找到最优值

💬 精华片段（中文）

"So if you look at the pseudocode on the right, it's actually not that much pseudocode. It's literally the true code. ... at the return, I have a single hyperparameter lambda. So this is the only stuff you need to tune."
“如果你看右边的伪代码，这其实算不上伪代码，它就是真实代码。……在返回处，我只有一个超参数 λ，这就是唯一需要调的。”

40:42 SIGReg：基于投影的高维高斯正则化

本节重点

SIGReg 全称 Sketched Isotropic Gaussian Regularizer，使 z 分布趋向各向同性高斯
通过向随机方向投影将高维问题降维为一维，优化边际分布为高斯
Cramér-Wold 定理保证边际高斯则联合高斯

详细精要

目的：防止表示坍塌为常数，迫使 z_t 包含观测的信息，足够作为世界的“学习状态”
基本思想：
希望整个 batch 的 latent 分布趋近各向同性高斯
不能使用 VAE 的 KL 散度等生成式方法，因为违背 JEPA 的理念
可以采用统计检验衡量经验分布与高斯分布的接近程度，但高维带来维度灾难
投影策略：
采样大量随机方向，将所有 embedding 投影到该方向上得到一维经验分布
此时可优化该单变量分布使之趋近高斯
根据 Cramér-Wold 定理：若在所有方向上的边际分布均为高斯，则联合分布也为高斯
因此，SIGReg 通过在多随机方向上优化边际高斯性，保证整个潜在空间逼近高斯，从而获得信息丰富的表示
相关论文：由 Randall Balestriero 和 Yann LeCun 于前一年 11 月提出，数学稍有难度，但思路直观

💬 精华片段（中文）

"There is a theorem called Cramér-Wold theorem that says that if you optimize the marginals to be Gaussian, then the joint is going to be Gaussian."
“有一个定理叫 Cramér-Wold 定理：如果所有边际分布都是高斯的，那么联合分布也会是高斯的。”

43:20 世界模型评估：在线控制方法

本节重点

评估方式一：在线控制，用 LeWorldModel 采样动作序列并优化至匹配目标
目标图像编码得到目标状态 z_g，通过可微预测器反向传播优化动作序列
可类比模型预测控制

详细精要

控制流程：
初始化：给定当前帧 O_1 和目标帧 O_g，编码得到 z_1 和 z_g
采样初始动作序列，用预测器执行 rollout：z_1 + a_1 → z_2，z_2 + a_2 → z_3 …
每一步计算当前潜状态与目标状态 z_g 的距离（如 MSE），累积损失
因预测器可微，可通过反向传播直接优化动作序列以最小化与目标的距离，实现规划
控制任务列表：
TwoRoom：简单 2D 导航，需通过门从一边移动到另一边
Reacher：DeepMind Control Suite 任务，双关节臂需匹配目标位置
Push-T：推动 T 形块到绿色区域，只能推不能拉
OG-Bench Cube：3D 机械臂操作方块，需匹配目标位置

💬 精华片段（中文）

"Because your predictor is differentiable, you can for instance backpropagate until the action try to -- sequence of action to minimize the distance with your goal."
“因为你的预测器是可微的，所以你可以通过反向传播一直传到动作序列，来最小化与目标的距离。”

46:57 控制实验结果与规划时间优势

本节重点

Push-T：无本体感知 LeWorldModel 击败有本体感知 DINO World Model，参数仅一半
OG-Bench Cube 略逊 DINO World Model，因后者有 1.42 亿自然图像预训练，对 3D 理解更强
TwoRoom 任务 SIGReg 因本征维度远小于嵌入维度而受限
规划时间相比 DINO World Model 快约 50 倍；同 FLOP 预算下优势显著

详细精要

Push-T 结果：
DINO World Model 含本体感知（proprioception）训练，LeWorldModel 无本体感知且参数量更少，但直接击败了含本体感知的 DINO World Model
移除去 DINO World Model 的本体感知后性能大幅下降，LeWorldModel 显著优胜
PLDM（另一个无本体感知且全端到端的方法）在 Push-T 上也表现很差
Reacher：LeWorldModel 战胜 PLDM 和 DINO World Model
OG-Bench Cube：
击败 PLDM，但不敌 DINO World Model，主要原因是 DINO World Model 使用预训练 DINOv2 编码器，在 1.42 亿自然图像上预训练，因而对物体和 3D 有更强的先验理解
TwoRoom 的局限性：
尽管任务最简单，LeWorldModel 表现不佳，几乎所有基线都轻松解决；这是 SIGReg 的一个当前局限
原因：任务的本征维度（仅需 x, y 坐标）远小于嵌入维度，SIGReg 为了强制形成高斯分布，必须“伪造”额外维度信息，导致无益
精细调节超参数能在一定程度上克服，但为公平比较未进行逐任务超参搜索
规划速度：
DINO World Model 因需处理所有 patch 并在注意力中平方代价，最快规划时间为 47 秒
LeWorldModel 使用 CLS token 作为单一潜状态，可进一步优化，实现亚秒级规划，约为 DINO World Model 的 50 倍快
若固定 FLOP 预算至 LeWorldModel 级别，强行让 DINO World Model 在一秒内完成规划，Push-T 和 OG-Bench Cube 成功率大幅下降；同等计算预算下 LeWorldModel 甚至在 OG-Bench Cube 上反超

💬 精华片段（中文）

"We can go to a full playing time under the second, which is very nice. It's almost 50 times faster."
“我们可以达到整个规划时间在一秒以内，这非常棒，几乎快了 50 倍。”

50:45 直观物理理解探针与违规实验

本节重点

冻结编码器后线性探针显示 LeWorldModel 潜空间比 DINO World Model 更少纠缠
违规实验：颜色变化预测误差变化微小，瞬移则误差暴涨，证明模型关注物理动态而非表面外观

详细精要

潜空间探针：
冻结 LeWorldModel 编码器，在线性或非线性探针上预测状态对应的物理参数（如模拟系数）
对于 OG-Bench Cube，线性探针中 LeWorldModel 的均方误差几乎总是更低；而在非线性探针中，DINO World Model 表现更好
结论：LeWorldModel 的潜空间更少纠缠，更容易通过简单线性读出系数；SIGReg 虽然使各维度某种程度上“无意义”，但反而使潜空间的解纠缠程度优于预训练 DINOv2
物理违规实验：
构建正常轨迹（机械臂拾取并移动方块），并引入两种扰动：颜色变化和瞬间传送
纵轴为预测误差（预测器给出的 \hat{z} 与实际 z 的差异），横轴为时间步
无扰动（灰线）：误差平稳
颜色变化：预测误差略高但极轻微，表明模型基本不关注颜色，因为颜色对动态预测无关紧要
传送：预测误差急剧上升，表明模型“没有预料到”这一事件
类比人类观看魔术时的惊讶反应：这也是由于模型被违反，属于分布外，但这种“分布外”正是人类直觉物理理解的体现

💬 精华片段（中文）

"But if suddenly the cube teleports, then the prediction error shoot a lot, meaning that your world model didn't predict that. Some people say to me often that yeah, but it's just out-of-distribution. And I would say it's true, but I think it's not very meaningful to say that because as human, when you violate your model, it's also very out-of-distribution."
“但如果方块突然传送，预测误差急剧升高，意味着你的世界模型没有预料到。有人常对我说：‘这只是因为分布外啊。’ 我会说确实如此，但这么说没什么意义，因为当人类遇到违背其世界模型的情况时，同样是分布外的。”

54:24 t-SNE 可视化与未来预测解码

本节重点

t-SNE 显示嵌入空间恢复了原始空间中对象位置的相对距离（除去置换和反射）
解码未来预测：模型能大致预测真实未来，但未学到夹具旋转细节，仍可完成任务

详细精要

相对位置恢复：
将智能体与 T 形块在不同位置的组合嵌入潜空间，通过 t-SNE 可视化
嵌入空间的点所呈现的相对关系与原始空间中的相对距离高度一致（除去轴置换与反射），表明模型学到了空间的几何结构
解码未来预测：
冻结世界模型后训练一个解码器，用于可视化预测
上方第一行：真实发生的未来帧
下方第二行：给定相同的动作序列，模型“想象”的未来
模型能较好地预测方块的运动；但在第 15 和 20 帧处，夹具的角度与实际相反
表明世界模型没有学会夹具的旋转，但即便如此，仍能在一定程度上完成任务，说明角度细节对已完成任务并非必需

💬 精华片段（中文）

"If you are very careful, you can see that at frame 15 and 20, the angle of the gripper is opposite. And so basically, you can see that the world model didn't learn the rotation of the gripper, which was pretty interesting, because it still was able to solve somewhat the environment."
“如果你仔细观察，会发现在第 15 和 20 帧，夹具的角度是相反的。所以基本上可以看到，世界模型并没有学会夹具的旋转，这很有意思，因为它仍然在一定程度上能完成任务。”

56:33 LeWorldModel 局限与 stable-worldmodel 库

本节重点

当前局限：短期规划、单一时间层级、玩具环境、目标指定困难
宣传开源库 stable-worldmodel，集成多种世界模型与规划求解器

详细精要

模型局限/研究机会：
短期规划视野：目前只能处理短期序列，解锁长期规划极具价值
单一时间层级：人类会多层级思考（去机场 → 开车 → 肌肉运动），模型需要层次化
从玩具环境到现实：必须走出 toy 环境，应用到真实机器人或高度随机部分可观测环境（如 Minecraft）
目标指定问题：目前需提供视觉目标图像，但在许多场景（如飞机降落）还需要指定平滑度等，尚无可行的目标定义方式
stable-worldmodel 开源库：
由 Randall 实验室多位学生和众多合作者推动，完全开源
集成本讲及本文提及的各类世界模型基线，并经过大量测试
配备多种规划求解器、多环境（新加入 DeepMind Control 和 Minecraft），即将支持真实机器人数据
文档齐全，欢迎试用、反馈和贡献

💬 精华片段（中文）

"For instance, when you think about oh, I need to go to the airport, you think at a different hierarchy. ... So we need that as well to be able to predict further in the future."
“比如当你想着‘哦，我要去机场’时，你是在不同层级上思考的……所以我们同样需要这种层次性，才能对未来进行更远的预测。”

59:43 Q&A：世界模型与物理 AI、掩码必要性、规划与策略

本节重点

Lucas 强调物理 AI 离不开世界模型，因为必须预测动作后果
Hazel 指出掩码并非绝对必要，但能强化模型学习对象动力学
世界模型可作为策略评估器，也可蒸馏为直出策略实现 System 1 / System 2

详细精要

世界模型在物理 AI 中的应用：
Lucas 对当前 VLA（Vision-Language-Action）模型持怀疑态度：它们未经过预测动作后果的训练，没有世界模型，不可能真正可靠地作为物理 AI
人类的优秀表现源于能预测动作在真实世界中的后果，这正是世界模型的目标；物理 AI 无法绕过世界模型
Hazel 补充 Sherry Yang（NYU 教授）的观点：世界模型可以作为策略的评估器
掩码的必要性：
针对“是否掩码必须才能学习世界模型”：如果仅用预测损失且无对象中心表示，模型可能学到自动力学而非对象间交互
掩码是一种强化模型学习对象动力学的手段，并非预测损失完全不足
C-JEPA 如何进行超越下一帧的规划：
严格遵循 DINO World Model 的评估方法，用预测得到的未来帧自回归地推出长时程，并使用相同的规划参数
JEPA 原生代理 vs LLM 代理：
JEPA 学习动作条件模型，学习的是“当前状态 + 动作 → 未来状态”，LLM 代理是通过工具调用等方式，并非同一框架
JEPA 世界模型天然可通过模型预测控制等经典控制方法零样本转为代理，无需额外后训练
JEPA 与幻觉：
JEPA 作为能量模型更关注未来状态的合理性而非像素重建，可减少预测上的“幻觉”
但规划中优化动作时，可能产生现实世界无意义的动作（如超出动作范围），这也是另一种幻觉
幻觉本质取决于学习模型的质量，可通过更多数据和模型容量缓解
长时程与策略蒸馏：
世界模型可直接用于零样本规划，也可像 Dreamer 一样以此训练强化学习策略，并定期与环境交互收集更好数据
未来可能形成类似系统 1 / 系统 2 的架构：系统 1 是快速反应策略（蒸馏出直出动作），系统 2 是谨慎的模型预测控制，用于困难或安全关键任务

💬 精华片段（中文）

"As human, why you are very good at what you do is because you can predict what is the consequence of your action in the real world. And that's what world model try to do. VLA don't do that. So if you want to have physical AI, basically, you need world model. You cannot bypass that."
“人类之所以擅长做各种事情，是因为我们能预测自己在真实世界中行动的后果，这就是世界模型试图做到的。VLA 不这么做。所以若想实现物理 AI，你基本上无法绕开世界模型。”

专业术语注释

术语	解释
JEPA (Joint-Embedding Predictive Architecture)	联合嵌入预测架构，在潜空间中预测未来状态，而非直接生成像素，致力于建模世界动态且忽略无关细节
World Model	世界模型，接收前一状态和动作来预测下一状态的函数，视为环境的模拟器
Causal-JEPA	因果联合嵌入预测架构，通过对象中心表示与对象掩码训练模型理解对象间的时序定向预测依赖
Object-Centric Representation	对象中心表示，将场景分解为以对象为单位的独立表示，而非图块化的特征
Slot Attention	槽位注意力，一种通过学习将特征绑定到多个对象槽位的机制，形成对象对齐表示
EMA (Exponential Moving Average)	指数移动平均，用于缓慢更新目标编码器，防止表示坍塌的常见技巧
Stop Gradient	停止梯度，阻止梯度流向目标编码器，是防坍塌的另一种手段
V-JEPA / V-JEPA 2	基于视频的 JEPA，使用时空掩码和 EMA 等措施，2 版本增加了动作条件控制后训练
DINO World Model	采用冻结的 DINOv2 编码器提供 patch 表示，用 Causal Transformer 预测未来状态的简化世界模型
Energy-Based Model (EBM)	能量模型，学习一个能量函数，对兼容对（合理未来）赋低能量，反对高能量；JEPA 可被理解为一种 EBM
SIGReg (Sketched Isotropic Gaussian Regularizer)	基于随机投影的各向同性高斯正则化项，通过在多随机方向上强制边际分布为高斯，使潜空间整体呈高斯分布，防止坍塌
Cramér-Wold Theorem	Cramér-Wold 定理，陈述多维分布的边际分布决定联合分布，SIGReg 的理论基础
LeWorldModel	所提出的极简 JEPA 实现，无 EMA、掩码、stop gradient 和预训练编码器，仅靠 SIGReg 和单一超参数端到端训练
PLDM	一种端到端的自监督世界模型方法，使用 VICReg 等多重损失防止坍塌，但损失项多、调参困难
Object Masking	对象掩码，Causal-JEPA 中故意掩盖某些对象槽位的未来状态，迫使模型通过其他对象推断，以学习对象间动力学
Influence Neighborhood	影响邻域，为正确预测掩码令牌所需关注的最小充分对象集合，即预测充分集
Proprioception	本体感知，通常指机器人关节位置、速度等自身状态信号；许多方法依赖此信息，LeWorldModel 未使用
Model Predictive Control (MPC)	模型预测控制，一种经典控制方法，通过模型预测未来并优化控制序列，JEPA 世界模型可自然结合 MPC 进行规划

延伸思考

对象中心编码器的鲁棒性瓶颈：当前 slot attention 在遮挡、对象动态增减等真实场景下仍脆弱，是否可通过结合可微渲染或对象持久化先验来解决，值得探索。
长时程与层次化 JEPA：LeWorldModel 明确指出现有世界模型受限于短期规划，如何构建类似人类“子目标分解”的层次化 JEPA，可能成为下一阶段研究焦点。
从仿真到真实机器人：在玩具环境中验证的世界模型迁移到真实硬件时，SIGReg 的低本征维度退化问题是否加剧？是否需要新的正则化设计？
JEPA 与策略学习的闭环：利用世界模型进行 zero-shot 规划与离线策略蒸馏的范式，在安全关键场景中如何平衡模型不确定性？SIGReg 的概率视角是否可提供不确定度量？
因果性定义的实践边界：Causal-JEPA 采用了“时序定向预测依赖”的宽松因果定义，如何建立与干预主义因果的明确联系，从而让模型具备更严格的反事实推理能力，仍是一个开放理论问题。

原文发表：Apr 22, 2026 · 纪要生成：2026-06-22