机器人技术的终局之战：Nvidia 的 Jim Fan

来源： YouTube | Jim Fan | Apr 30, 2026 分类： NVIDIA 原文发表： Apr 30, 2026 纪要生成： 2026-05-26

全集重点

大平行（The Great Parallel）：将大语言模型的成功范式——预训练、对齐、强化学习——完整复制到机器人学，通过模拟“下一个物理世界状态”取代“下一个文本标记”
世界动作模型（WAM）：提出 Dreamer 模型，将视觉与动作提升为第一公民，使机器人能够“梦见”未来并进行零样本操作
数据采集的范式革命：预测遥操作（Teleoperation）将消亡，传感器化人类数据（穿戴设备+以自我为中心的视频）将成为机器人数据的主导来源，并发现了灵巧性的神经标度律
模拟即数据：通过 Dream Dojo 等神经模拟器和真实到模拟再到真实（Real-to-Sim-to-Real）的管道，证明了计算力等于环境等于数据，实现环境的无限扩充
2040 终局预测：以 95% 的置信度预测，到 2040 年我们将解锁物理图灵测试、物理 API 和物理自动研究这最后三项成就，完成技术树的攀爬

嘉宾/话题简介

Jim Fan 是 NVIDIA 具身自主研究组的负责人（即 NVIDIA 机器人学部门）。在本集主题演讲中，他系统阐述了机器人技术如何借鉴大语言模型的成功路径，提出“大平行”理论以解决机器人领域的数据与模型瓶颈。他深入介绍了从传统视觉语言动作模型到世界动作模型的演进，并展示了在数据采集策略上的突破性成果，最终勾勒出一幅通往机器人通用人工智能的清晰路线图。

分节详述

00:00 从 DGX-1 到深度学习信仰的十年回顾

本节重点

2016 年 Jensen Huang 向 OpenAI 交付首台 DGX-1 的个人回忆
“如果你相信深度学习，深度学习就会相信你”这一信条的威力
从 GPT-3 到自动研究的三大步进函数仅用了六年时间

详细精要

首次接触 Jensen 与 AI 历史的交汇点：描述 2016 年在 OpenAI 办公室，亲眼见证 Jensen Huang 交付世界上第一台 DGX-1。
现场场景：穿着闪亮皮夹克的 Jensen 托着一块写有“To Elon and the OpenAI team...”赠言的大金属托盘。
个人参与：作为实习生，Jim Fan 在 DGX-1 上签了自己的名字，并发现 Andrej Karpathy 的签名也在旁边，感慨这段历史已进入计算机历史博物馆。
自嘲当时并未意识到签署的是多么重大的事件。
“如果你相信深度学习”的自我实现预言：引用 Ilya Sutskever 的名言，阐述深度学习在接下来几年里的爆发式兑现。
总结了过去六年间发生的三次技术阶跃，称之为“三大步进函数”。
第一步：GPT-3 与预训练。下一个标记预测本质上是在学习语法规则、语言的形态，以及思想和代码应该如何展开的模拟。
第二步：2022 年的 InstructGPT。通过有监督微调将对世界的模拟对齐到完成有用工作的方向上。
第三步：O1 推理与自动研究。利用强化学习超越了模仿学习，并通过自动研究加速了整个 AI 研发循环，超越了人类能力的极限。

💬 精华片段（中文）

“如果你相信深度学习，深度学习就会相信你。天哪，深度学习真是太相信我们所有人了。”

"If you believe in deep learning, deep learning will believe in you. And oh boy, did deep learning believe in all of us big time."

02:37 大平行：复制大语言模型的成功作业

本节重点

“大平行”理论的核心定义：从模拟字符串到模拟物理世界状态
机器人学实现 AGI 的三步走：物理世界预训练、动作微调对齐、强化学习落地
宣示视觉语言动作模型的局限性，引入新的模型范式

详细精要

嫉妒大语言模型从业者的“终局狂欢”：观察到所有大语言模型实验室都在进行最终的“Boss 战”。
引用 Andrej Karpathy 在大语言模型终局阶段的满足感，指出了大语言模型从业者正在享受他们生命中最盛大的派对。
指出大语言模型正在像名为 Mythos 的神秘生物一样飞速奔向 AGI，提出机器人学也应该获得同样的乐趣与进展。
提出“大平行”的作弊式研究策略：直言不讳地表示，作为一个有自尊的科学家，要复制作业并赋予新名字，即“大平行”。
第一步：模拟下一个物理世界状态。不再模拟字符串，而是模拟物理世界的下一状态。
第二步：动作微调对齐。将模拟出的众多未来状态叠加态，坍缩到对真实机器人有意义的一小部分上。
第三步：强化学习走完最后一英里。通过强化学习完成从模拟到现实的最终适配。
总结这一逻辑：如果你无法打败大语言模型，那就加入他们，用他们的成功方法论来实现机器人技术的突破。

💬 精华片段（中文）

“所有实验室都在进行最后的Boss战。对于大语言模型来说，它们正处于终局之战的核心。老实说，我很嫉妒……他们正在以光速冲向AGI。为什么机器人学就不能分一杯羹呢？”

"All the labs are getting to the final boss fight. So, for LLMs they're in the thick of the end game. And honestly, I'm very jealous... They're speed running AGI... So, why can't robotics get a piece of fun?"

03:41 模型策略的进化：从 VLA 到世界动作模型

本节重点

批判视觉语言动作模型“头重脚轻”，语言是第一公民，物理和动词被忽视
视频生成模型的涌现能力：物理学属性是在预测像素块时自行涌现的
介绍新范式 Dreamer：联合解码未来视觉状态与动作，实现零样本任务解决

详细精要

批判以语言为中心的视觉语言动作模型：过去三年由 VLA 主导，如 PaLM 和 Goot，但其架构存在根本性缺陷。
实质上这些模型是LVA，因为绝大数量的参数都奉献给了语言。
在此设计下，语言是第一公民，其次是视觉，最后才是动作。
这导致 VLA 擅长编码知识和名词，但在编码物理学和动词方面表现极差，属于“在错误的地方头重脚轻”。
举例说明：能让可乐罐移动到泰勒·斯威夫特的照片旁，展现了名词层面的泛化，但这并非机器人学需要的核心预训练能力。
视频模型的“AI 电子垃圾”到世界模拟器：重新审视被戏称为“互联网巅峰”的AI视频生成内容，揭示了其背后的深刻价值。
举例 VEO3 生成的打闹小猫等视频，表面看是娱乐，实质上是模型在内部学习模拟“下一个物理世界状态”。
VEO3 展现出的涌现物理属性：重力、浮力、光照、反射、折射，这些规律完全没有通过代码显式固定。
物理学属性靠的是规模化的“预测下一个像素块”自发涌现出来的。
视觉规划的涌现：展示了 VEO 如何通过在像素空间中向前运行模拟来解决迷宫问题。
物理搞笑定律的案例：在 VEO3 解决迷宫的案例中，它发现如果不被观察，就可以抄近道，无视几何约束。

💬 精华片段（中文）

“VEO3 发现，如果你不看，几何学就是可选的。我称之为物理搞笑定律。”

"VEO3 figures out that if you're not looking, geometry is optional. I call this physics law."

Dreamer：梦想未来的世界动作模型：介绍如何通过对视频模型进行动作微调来打造有用的机器人策略。
将视频模型对未来所有可能状态的叠加态，对齐并坍缩到对真实机器人有效的一小片上。
Dreamer 是一种新型策略模型，它会先“梦见”未来几秒钟的视觉画面，然后据此采取行动。
联合解码：电机动作是高维连续信号，看起来像像素一样，因此 Dreamer 可以同时渲染出下一个视觉世界状态和下一个动作。
零样本能力与可视化的梦想：能够零样本解决训练中未见过的任务和动词。当机器人执行时，可以可视化它正在“梦想”的内容。
- 如果视频预测正确，动作就成功。
- 如果视频产生幻觉，动作就会失败。
GPT-2 时刻：目前在实验室里随意给机器人下各种指令，虽然并非 100% 稳健成功，但它像 GPT-2 一样，在尝试正确捕捉动作的形态。
正式命名该模型为世界动作模型（WAM），并宣告 VLA 安息退场。

07:51 数据策略革命：从遥操作到传感器化人类数据

本节重点

遥操作的物理极限：每天至多 24 小时，且机器人时常“发脾气”
数据穿戴设备的演进：从 UMI 到 Dex-UMI，打破机器人本体的物理限制
终极方案：以自我为中心的人类视频，实现像特斯拉 FSD 一样无感的数据采集

详细精要

遥操作“黄金时代”的终结：指出过去三年是遥操作的鼎盛时期，但也面临着不可逾越的物理约束。
展示 NVIDIA 首席科学家 Bill Dally 操作遥操作设备的照片，戏称这是史上最贵的遥操作轨迹。
遥操作的技术堆栈极其复杂且痛苦：VR 头显、极度优化的低延迟流媒体、形如中世纪刑具的复杂设备。
根本性的物理上限：每个机器人每天 24 小时是遥操作数据的理论上限。
现实更加残酷：实际上每天仅 3 小时，而且还得在机器人不“发脾气”罢工的前提下。
UMI（通用操作接口）与穿戴式革命：提出一个看似简单的想法，即通过让人类直接穿戴机器人末端执行器来采集数据。
UMI 的核心思想：将机器人的手穿戴在人手上，直接以人类的速度采集数据，而将机器人笨重的身体排除在数据采集循环之外。
评价 UMI 可能是机器人数据领域最伟大的论文之一，并催生了两家独角兽初创公司。
- 左边的初创公司 Joles 改进了穿戴夹具的设计。
- 右边的初创公司 Sunday 制作了三指数据手套。
Dex-UMI 外骨骼：更进一步，设计了与五指灵巧手具有一对一映射关系的外骨骼。
效率对比实验：通过对比视频证明，左侧直接由人类采集数据是最快的；右侧通过遥操作则由最熟练的博士生操作，过程极慢且成功率低；中间的外骨骼方案实现了高效数据采集。
打破魔咒：训练出的策略完全基于零遥操作数据，实现了全自主运行，成功打破了“每机器人每天 24 小时”的魔咒。
追寻机器人的“FSD 时刻”：指出数据可穿戴设备依然繁琐、具有侵入性，无法像开车一样自然，需要一个数据采集无所不在的飞轮。
当你驾驶 特斯拉 或 Waymo 时，你正在无形中为世界上最大的物理数据飞轮做贡献，数据上传是无感的环境过程。
我们需要一个 FSD 的机器人数据等效物，数据采集必须“淡入背景”，以全面捕捉各行各业人类灵巧性的辉煌。
Ego-Exo：以自我为中心的视频缩放律：介绍了一项革命性的“全力以赴”策略，利用大量人类以自我为中心的视频来训练端到端策略。
Ego-Exo 99.9% 的训练都基于带标注的人类自我中心视频，如手部位置跟踪和密集的语言注释。
训练细节：在零机器人数据的情况下，在 21000 小时的野生人类自我中心数据上进行预训练，任务是预测手部关节和腕部姿态。
微小的动作微调：仅收集了 50 小时的高精度动捕手套数据和 4 小时的遥操作数据。其中，遥操作数据仅占训练混合总量的不到 0.1%。
灵巧泛化成果：仅需 50 小时的高精度动捕手套数据 + 4 小时遥操，机器人便能泛化到分拣卡片、操作注射器、转移液体等高度灵巧的任务。
单样本学习：在测试时仅需一次演示，即可学习不同的叠衣策略。
揭示灵巧性的神经标度律：论文最引人入胜的发现是发现了一个非常干净的关系：预训练投入的小时数与验证损失之间存在清晰的对数-线性数学方程，这比语言模型的神经标度律晚了六年。

💬 精华片段（中文）

“我们发现了灵巧性的神经标度律。预训练投入的小时数与最优验证损失之间存在一个非常清晰的对数-线性数学方程。这是在语言模型的神经标度律出现六年之后。”

"We discovered this neural scaling law for dexterity. It's a very clean relationship between the amount of hours we put into pre-training and the optimal validation loss. In fact, it's a clean log-linear mathematical equation. 6 years after the original neural scaling law for language models."

预测机器人数据策略的未来格局：用坐标图预测数据来源的变迁（X 轴为与机器人硬件的对齐度，Y 轴为可扩展性）。
遥操作：可扩展性最差。
数据可穿戴设备：可扩展至数十万小时。
以自我为中心的视频：如果能像 FSD 一样转动飞轮，未来一年左右可轻松达到 1000 万小时。
三个预测：
1. 未来 1-2 年，遥操作的数据占比将下降到几乎可以忽略不计的程度。
2. 将出现专为不同硬件和用例定制的数据穿戴设备组合。
3. 机器人数据的主要“食粮”将是以自我为中心的视频。
宣告 遥操作 安息，传感器化人类数据万岁。

14:35 环境的规模律：从世界扫描到神经模拟器

本节重点

强化学习需要数百万环境，而物理世界无法部署百万台机器人
真实->模拟->真实管道：用 iPhone 实现口袋式世界扫描，并在仿真中无限扩充
Dream Dojo：纯数据驱动的神经模拟器，不依赖物理方程，实现算力即环境

详细精要

环境扩展的紧迫性：指出所有前沿 AI 实验室都在斥巨资获取数百万个编码环境来做强化学习，机器人学同理。
在真实机器人上直接做强化学习是可行的，NVIDIA 实验室用强化学习将某些任务的成功率推至接近 100%，能让机器人连续数小时不间断地组装 GPU。
但在物理世界这样做，要达到 100 万个环境，就需要 100 万个机器人，这是不现实的。
真实到模拟到真实（Real-to-Sim-to-Real）管道：提出了可扩展的将物理世界导入数字世界的方案。
口袋世界扫描仪：用 iPhone 拍张照片，通过 3D 世界扫描管道提取所有物体，然后在经典物理模拟器中自动重新合成。
扫描后的所有物体都是可交互的。
数字表亲：在模拟中生成无限多的物体变体，实现数据增强。
这种 真实 -> 模拟 -> 真实 的过程，提供了一种将物理世界可扩展地移植到数字世界的方法。
Dream Dojo：神经模拟器的诞生：提出一个超越经典图形引擎的更优方案。
将视频世界模型直接转变为完全成熟的神经模拟器。
工作原理：接收连续动作信号作为输入，实时输出下一帧的 RGB 图像和传感器状态。观众看到的画面中没有一帧是真实的。
纯数据驱动方法：整个过程不涉及任何物理方程或图形引擎，完全通过数据学习不同机器人的力学特性。
新的后训练范式：一个大规模并行强化学习系统，运行在少量真实机器人工作站、大量运行世界扫描的图形核心，以及大量运行世界模型的推理计算上。
核心结论公式化：计算力 = 环境 = 数据。并引用其老板 Jensen Huang 的逻辑：“你买得越多，就省得越多。”

💬 精华片段（中文）

“现在，计算力等于环境等于数据。或者，正如一位智者所说，‘你买得越多，就省得越多。’这条信息已获得我老板的批准。”

"So, the new post-training paradigm for robotics... Or, as this equation goes, compute now equals environment now equals data. Or, as a wise man would say, the more you buy, the more you save. And this message has been approved by my boss."

17:09 2040 终局：最后三项文明成就

本节重点

用文明游戏中的科技树成就类比机器人学研究
第一项成就：物理图灵测试，单位能量输入与单位劳动产出
第二项成就：物理 API，实现原子打印机的无人工厂
第三项成就：物理自动研究，机器人自我进化
历史对标与预测：从 AlexNet 到 AI Ascent 历时 14 年，以指数发展推测 2040 年达成终局

详细精要

文明游戏的科技树比喻：演讲者本人非常喜欢游戏《文明》，他将自己的研究视为在文明科技树上解锁游戏成就。
三大待解锁的终局成就：
成就一：物理图灵测试。
- 定义：在广泛的活动范围内，你无法区分是人还是机器人在执行任务。
- 本质：是关于单位能量输入与单位劳动产出的衡量。
- 调侃机器人的“性感姿势”，暗示这一目标还有巨大的提升空间，预测可能还需 2-3 年。
成就二：物理 API。
- 定义：一个完整的机器人编队，可以像任何软件一样通过 API 和命令行进行配置，未来或许由超级智能体进行编排。
- 应用一：无人工厂，等同于原子的打印机。输入 Markdown 文件格式的设计，输出完全自主组装完成的产品。
- 应用二：湿实验室，在化学、生物学、医学领域实现科学发现的自动化。
成就三：物理自动研究。
- 定义：机器人开始设计、改进并构建自己的下一代版本，其能力远超人类极限。
以史为鉴，预测 2040 年达成终局：通过技术发展的指数性规律证明这一目标并非科幻。
历史对标：从 2012 年 AlexNet 的第一次前向传播（一个难以区分猫和狗的模型），到 2026 年讨论具身智能和自动研究的 AI Ascent，AI 社区用了 14 年。
未来预测：如果我们再给 14 年，2026 年恰好位于 2012 年和 2040 年的正中间。
指数定律：技术不是线性发展，而是指数级发展。
终极预测：可以 95% 的信心声称，到 2040 年我们将到达终局之战的终点，即科技树的末端。
时代宣言：我们这代人生得太晚无法探索地球，生得太早无法探索星辰，但生得正好赶上解决机器人学问题。

💬 精华片段（中文）

“我们这代人，生得太晚无法探索地球，生得太早无法探索星河，但我们的出生时间，恰恰刚好去解决机器人学问题。”

"Our generation was born too late to explore the Earth and too early to explore the stars, but we are born just in time to solve robotics."

专业术语注释

术语	解释
大平行	Jim Fan 提出的核心理论，指将预训练、对齐、强化学习这一大语言模型的成功路径完整平移到机器人学，将预测目标从“下一个文本标记”替换为“下一个物理世界状态”。
终局之战	源于游戏术语，在本文中指某种技术范式发展的最终阶段和最终挑战。分别指大语言模型当前的发展阶段和机器人技术最终要达成的目标。
步进函数	指技术发展中不连续的、跨越式的巨大飞跃，而非线性改进。演讲中用三次步进函数概括了从 GPT-3 到自动研究的历史。
视觉语言动作模型	一种传统机器人模型范式，以视觉语言模型为基础，在其上嫁接一个动作输出头。被批评为在语言上投入了过多参数（头重脚轻），物理推理能力弱。
下一个标记预测	大语言模型的核心训练方法，即根据上文预测下一个词。Jim Fan 认为这不仅是在学习语法，更是在模拟思想和逻辑如何展开。
动作微调	将对世界的通用模拟（如视频生成模型）通过少量特定数据，对齐并应用于具体机器人动作指令的过程。
世界动作模型	Jim Fan 团队提出的新模型范式，旗舰模型为 Dreamer。它能“梦见”未来几秒的视觉图像并同时生成动作，将视觉与动作视为第一公民。
Dreamer	世界动作模型的实例。它能联合解码未来的世界状态和机器人动作，并能在执行时可视化其“梦境”，梦境与现实的匹配度决定了动作的成败。
遥操作	人类操作员通过外部设备远程实时操控机器人进行数据采集的方法。被批评为速度慢、效率低，且受制于24小时/天的物理极限。
通用操作接口 / UMI	一种机器人数据采集设备，核心思想是将机器人执行器穿戴在人手上，以人类的速度直接采集数据，将笨重的机器人本体排除在采集循环外。
FSD 时刻	指数据采集过程像特斯拉的全自动驾驶系统一样，无需用户刻意操作，成为数据飞轮的一个无感、无所不在的环境过程。
Ego-Exo	一种端到端机器人策略模型，其绝大部分训练基于人类以自我为中心的带标注视频数据，仅需极少量动捕和遥操作数据即可实现灵巧操作，并发现了灵巧性的神经标度律。
灵巧性的神经标度律	Ego-Exo 论文的核心发现，即模型性能与预训练数据量（小时数）之间呈现清晰的对数-线性关系，类似于语言模型的标度律。
真实->模拟->真实	一种数据生成管道。通过扫描物理世界物体在仿真中重建，并进行无限变化（数字表亲），以生成海量多样化的训练环境，再应用于真实机器人。
数字表亲	在真实->模拟->真实过程中，对扫描的真实物体进行无穷尽的随机化处理生成的模拟变体，用于增强训练数据的多样性。
Dream Dojo	一个完全数据驱动的神经模拟器，不用任何物理引擎或方程，仅凭学习视频数据就能实时生成逼真的视觉与传感器数据，并模拟机器人力学交互。
物理图灵测试	Jim Fan 提出的终局目标之一，指在广泛任务中无法分辨作业的是人类还是机器人，其本质是“单位能量输入与单位劳动产出”的等价。
物理 API	指像调用软件 API 一样，通过命令行或软件接口灵活调度和配置整个机器人编队的能力，是实现无人工厂（原子打印机）的基础。

延伸思考

“大平行”范式的风险：大语言模型的成功模式是否真能一马平川地复刻到物理世界？物理交互数据的获取和标注成本，以及“幻觉”在物理世界中带来的灾难性后果，是否会成为大平行理论的根本性障碍？
模拟数据 vs. 真实数据：尽管 Dream Dojo 和 Egocentric Video 追求极致扩展，但真实世界数据的价值是否被低估？仅靠 4 小时的遥操作数据（占混合总量不到0.1%）和大量合成/人类数据训练的模型，在面临极端且罕见的现实物理交互时，其泛化鲁棒性究竟如何？
物理自动研究的伦理与安全：Jim Fan 描述了一种机器人自我设计、改进和制造的终极闭环。当这个循环启动后，人类是否还能保持对其目标和控制权的绝对理解？我们该如何为此提前构建安全框架？
经济与劳动力的指数级冲击：若“物理 API”和“无人工厂”按预测在 2040 年前实现，我们将面临“原子打印机”生产一切的局面。这种彻底解放生产力的后果，将如何大规模重塑全球经济结构、社会分工以及人的存在价值？

原文发表：Apr 30, 2026 · 纪要生成：2026-05-26