来源: YouTube | Jim Fan | Apr 30, 2026 分类: NVIDIA 原文发表: Apr 30, 2026 纪要生成: 2026-05-26
Jim Fan 是 NVIDIA 具身自主研究组的负责人(即 NVIDIA 机器人学部门)。在本集主题演讲中,他系统阐述了机器人技术如何借鉴大语言模型的成功路径,提出“大平行”理论以解决机器人领域的数据与模型瓶颈。他深入介绍了从传统视觉语言动作模型到世界动作模型的演进,并展示了在数据采集策略上的突破性成果,最终勾勒出一幅通往机器人通用人工智能的清晰路线图。
本节重点
详细精要
自嘲当时并未意识到签署的是多么重大的事件。
“如果你相信深度学习”的自我实现预言:引用 Ilya Sutskever 的名言,阐述深度学习在接下来几年里的爆发式兑现。
💬 精华片段(中文)
“如果你相信深度学习,深度学习就会相信你。天哪,深度学习真是太相信我们所有人了。”
"If you believe in deep learning, deep learning will believe in you. And oh boy, did deep learning believe in all of us big time."
本节重点
详细精要
指出大语言模型正在像名为 Mythos 的神秘生物一样飞速奔向 AGI,提出机器人学也应该获得同样的乐趣与进展。
提出“大平行”的作弊式研究策略:直言不讳地表示,作为一个有自尊的科学家,要复制作业并赋予新名字,即“大平行”。
💬 精华片段(中文)
“所有实验室都在进行最后的Boss战。对于大语言模型来说,它们正处于终局之战的核心。老实说,我很嫉妒……他们正在以光速冲向AGI。为什么机器人学就不能分一杯羹呢?”
"All the labs are getting to the final boss fight. So, for LLMs they're in the thick of the end game. And honestly, I'm very jealous... They're speed running AGI... So, why can't robotics get a piece of fun?"
本节重点
详细精要
举例说明:能让可乐罐移动到泰勒·斯威夫特的照片旁,展现了名词层面的泛化,但这并非机器人学需要的核心预训练能力。
视频模型的“AI 电子垃圾”到世界模拟器:重新审视被戏称为“互联网巅峰”的AI视频生成内容,揭示了其背后的深刻价值。
💬 精华片段(中文)
“VEO3 发现,如果你不看,几何学就是可选的。我称之为物理搞笑定律。”
"VEO3 figures out that if you're not looking, geometry is optional. I call this physics law."
本节重点
详细精要
现实更加残酷:实际上每天仅 3 小时,而且还得在机器人不“发脾气”罢工的前提下。
UMI(通用操作接口)与穿戴式革命:提出一个看似简单的想法,即通过让人类直接穿戴机器人末端执行器来采集数据。
打破魔咒:训练出的策略完全基于零遥操作数据,实现了全自主运行,成功打破了“每机器人每天 24 小时”的魔咒。
追寻机器人的“FSD 时刻”:指出数据可穿戴设备依然繁琐、具有侵入性,无法像开车一样自然,需要一个数据采集无所不在的飞轮。
我们需要一个 FSD 的机器人数据等效物,数据采集必须“淡入背景”,以全面捕捉各行各业人类灵巧性的辉煌。
Ego-Exo:以自我为中心的视频缩放律:介绍了一项革命性的“全力以赴”策略,利用大量人类以自我为中心的视频来训练端到端策略。
💬 精华片段(中文)
“我们发现了灵巧性的神经标度律。预训练投入的小时数与最优验证损失之间存在一个非常清晰的对数-线性数学方程。这是在语言模型的神经标度律出现六年之后。”
"We discovered this neural scaling law for dexterity. It's a very clean relationship between the amount of hours we put into pre-training and the optimal validation loss. In fact, it's a clean log-linear mathematical equation. 6 years after the original neural scaling law for language models."
本节重点
详细精要
但在物理世界这样做,要达到 100 万个环境,就需要 100 万个机器人,这是不现实的。
真实到模拟到真实(Real-to-Sim-to-Real)管道:提出了可扩展的将物理世界导入数字世界的方案。
这种 真实 -> 模拟 -> 真实 的过程,提供了一种将物理世界可扩展地移植到数字世界的方法。
Dream Dojo:神经模拟器的诞生:提出一个超越经典图形引擎的更优方案。
💬 精华片段(中文)
“现在,计算力等于环境等于数据。或者,正如一位智者所说,‘你买得越多,就省得越多。’这条信息已获得我老板的批准。”
"So, the new post-training paradigm for robotics... Or, as this equation goes, compute now equals environment now equals data. Or, as a wise man would say, the more you buy, the more you save. And this message has been approved by my boss."
本节重点
详细精要
成就三:物理自动研究。
以史为鉴,预测 2040 年达成终局:通过技术发展的指数性规律证明这一目标并非科幻。
💬 精华片段(中文)
“我们这代人,生得太晚无法探索地球,生得太早无法探索星河,但我们的出生时间,恰恰刚好去解决机器人学问题。”
"Our generation was born too late to explore the Earth and too early to explore the stars, but we are born just in time to solve robotics."
| 术语 | 解释 |
|---|---|
| 大平行 | Jim Fan 提出的核心理论,指将预训练、对齐、强化学习这一大语言模型的成功路径完整平移到机器人学,将预测目标从“下一个文本标记”替换为“下一个物理世界状态”。 |
| 终局之战 | 源于游戏术语,在本文中指某种技术范式发展的最终阶段和最终挑战。分别指大语言模型当前的发展阶段和机器人技术最终要达成的目标。 |
| 步进函数 | 指技术发展中不连续的、跨越式的巨大飞跃,而非线性改进。演讲中用三次步进函数概括了从 GPT-3 到自动研究的历史。 |
| 视觉语言动作模型 | 一种传统机器人模型范式,以视觉语言模型为基础,在其上嫁接一个动作输出头。被批评为在语言上投入了过多参数(头重脚轻),物理推理能力弱。 |
| 下一个标记预测 | 大语言模型的核心训练方法,即根据上文预测下一个词。Jim Fan 认为这不仅是在学习语法,更是在模拟思想和逻辑如何展开。 |
| 动作微调 | 将对世界的通用模拟(如视频生成模型)通过少量特定数据,对齐并应用于具体机器人动作指令的过程。 |
| 世界动作模型 | Jim Fan 团队提出的新模型范式,旗舰模型为 Dreamer。它能“梦见”未来几秒的视觉图像并同时生成动作,将视觉与动作视为第一公民。 |
| Dreamer | 世界动作模型的实例。它能联合解码未来的世界状态和机器人动作,并能在执行时可视化其“梦境”,梦境与现实的匹配度决定了动作的成败。 |
| 遥操作 | 人类操作员通过外部设备远程实时操控机器人进行数据采集的方法。被批评为速度慢、效率低,且受制于24小时/天的物理极限。 |
| 通用操作接口 / UMI | 一种机器人数据采集设备,核心思想是将机器人执行器穿戴在人手上,以人类的速度直接采集数据,将笨重的机器人本体排除在采集循环外。 |
| FSD 时刻 | 指数据采集过程像特斯拉的全自动驾驶系统一样,无需用户刻意操作,成为数据飞轮的一个无感、无所不在的环境过程。 |
| Ego-Exo | 一种端到端机器人策略模型,其绝大部分训练基于人类以自我为中心的带标注视频数据,仅需极少量动捕和遥操作数据即可实现灵巧操作,并发现了灵巧性的神经标度律。 |
| 灵巧性的神经标度律 | Ego-Exo 论文的核心发现,即模型性能与预训练数据量(小时数)之间呈现清晰的对数-线性关系,类似于语言模型的标度律。 |
| 真实->模拟->真实 | 一种数据生成管道。通过扫描物理世界物体在仿真中重建,并进行无限变化(数字表亲),以生成海量多样化的训练环境,再应用于真实机器人。 |
| 数字表亲 | 在真实->模拟->真实过程中,对扫描的真实物体进行无穷尽的随机化处理生成的模拟变体,用于增强训练数据的多样性。 |
| Dream Dojo | 一个完全数据驱动的神经模拟器,不用任何物理引擎或方程,仅凭学习视频数据就能实时生成逼真的视觉与传感器数据,并模拟机器人力学交互。 |
| 物理图灵测试 | Jim Fan 提出的终局目标之一,指在广泛任务中无法分辨作业的是人类还是机器人,其本质是“单位能量输入与单位劳动产出”的等价。 |
| 物理 API | 指像调用软件 API 一样,通过命令行或软件接口灵活调度和配置整个机器人编队的能力,是实现无人工厂(原子打印机)的基础。 |