▶ 原文链接

机器人技术的终局之战:Nvidia 的 Jim Fan

来源: YouTube | Jim Fan | Apr 30, 2026 分类: NVIDIA 原文发表: Apr 30, 2026 纪要生成: 2026-05-26


全集重点


嘉宾/话题简介

Jim FanNVIDIA 具身自主研究组的负责人(即 NVIDIA 机器人学部门)。在本集主题演讲中,他系统阐述了机器人技术如何借鉴大语言模型的成功路径,提出“大平行”理论以解决机器人领域的数据与模型瓶颈。他深入介绍了从传统视觉语言动作模型到世界动作模型的演进,并展示了在数据采集策略上的突破性成果,最终勾勒出一幅通往机器人通用人工智能的清晰路线图。


分节详述

00:00 从 DGX-1 到深度学习信仰的十年回顾

本节重点

详细精要

💬 精华片段(中文)

“如果你相信深度学习,深度学习就会相信你。天哪,深度学习真是太相信我们所有人了。”

"If you believe in deep learning, deep learning will believe in you. And oh boy, did deep learning believe in all of us big time."

02:37 大平行:复制大语言模型的成功作业

本节重点

详细精要

💬 精华片段(中文)

“所有实验室都在进行最后的Boss战。对于大语言模型来说,它们正处于终局之战的核心。老实说,我很嫉妒……他们正在以光速冲向AGI。为什么机器人学就不能分一杯羹呢?”

"All the labs are getting to the final boss fight. So, for LLMs they're in the thick of the end game. And honestly, I'm very jealous... They're speed running AGI... So, why can't robotics get a piece of fun?"

03:41 模型策略的进化:从 VLA 到世界动作模型

本节重点

详细精要

💬 精华片段(中文)

“VEO3 发现,如果你不看,几何学就是可选的。我称之为物理搞笑定律。”

"VEO3 figures out that if you're not looking, geometry is optional. I call this physics law."

07:51 数据策略革命:从遥操作到传感器化人类数据

本节重点

详细精要

💬 精华片段(中文)

“我们发现了灵巧性的神经标度律。预训练投入的小时数与最优验证损失之间存在一个非常清晰的对数-线性数学方程。这是在语言模型的神经标度律出现六年之后。”

"We discovered this neural scaling law for dexterity. It's a very clean relationship between the amount of hours we put into pre-training and the optimal validation loss. In fact, it's a clean log-linear mathematical equation. 6 years after the original neural scaling law for language models."

14:35 环境的规模律:从世界扫描到神经模拟器

本节重点

详细精要

💬 精华片段(中文)

“现在,计算力等于环境等于数据。或者,正如一位智者所说,‘你买得越多,就省得越多。’这条信息已获得我老板的批准。”

"So, the new post-training paradigm for robotics... Or, as this equation goes, compute now equals environment now equals data. Or, as a wise man would say, the more you buy, the more you save. And this message has been approved by my boss."

17:09 2040 终局:最后三项文明成就

本节重点

详细精要

💬 精华片段(中文)

“我们这代人,生得太晚无法探索地球,生得太早无法探索星河,但我们的出生时间,恰恰刚好去解决机器人学问题。”

"Our generation was born too late to explore the Earth and too early to explore the stars, but we are born just in time to solve robotics."


专业术语注释

术语 解释
大平行 Jim Fan 提出的核心理论,指将预训练、对齐、强化学习这一大语言模型的成功路径完整平移到机器人学,将预测目标从“下一个文本标记”替换为“下一个物理世界状态”。
终局之战 源于游戏术语,在本文中指某种技术范式发展的最终阶段和最终挑战。分别指大语言模型当前的发展阶段和机器人技术最终要达成的目标。
步进函数 指技术发展中不连续的、跨越式的巨大飞跃,而非线性改进。演讲中用三次步进函数概括了从 GPT-3 到自动研究的历史。
视觉语言动作模型 一种传统机器人模型范式,以视觉语言模型为基础,在其上嫁接一个动作输出头。被批评为在语言上投入了过多参数(头重脚轻),物理推理能力弱。
下一个标记预测 大语言模型的核心训练方法,即根据上文预测下一个词。Jim Fan 认为这不仅是在学习语法,更是在模拟思想和逻辑如何展开。
动作微调 将对世界的通用模拟(如视频生成模型)通过少量特定数据,对齐并应用于具体机器人动作指令的过程。
世界动作模型 Jim Fan 团队提出的新模型范式,旗舰模型为 Dreamer。它能“梦见”未来几秒的视觉图像并同时生成动作,将视觉与动作视为第一公民。
Dreamer 世界动作模型的实例。它能联合解码未来的世界状态和机器人动作,并能在执行时可视化其“梦境”,梦境与现实的匹配度决定了动作的成败。
遥操作 人类操作员通过外部设备远程实时操控机器人进行数据采集的方法。被批评为速度慢、效率低,且受制于24小时/天的物理极限。
通用操作接口 / UMI 一种机器人数据采集设备,核心思想是将机器人执行器穿戴在人手上,以人类的速度直接采集数据,将笨重的机器人本体排除在采集循环外。
FSD 时刻 指数据采集过程像特斯拉的全自动驾驶系统一样,无需用户刻意操作,成为数据飞轮的一个无感、无所不在的环境过程。
Ego-Exo 一种端到端机器人策略模型,其绝大部分训练基于人类以自我为中心的带标注视频数据,仅需极少量动捕和遥操作数据即可实现灵巧操作,并发现了灵巧性的神经标度律。
灵巧性的神经标度律 Ego-Exo 论文的核心发现,即模型性能与预训练数据量(小时数)之间呈现清晰的对数-线性关系,类似于语言模型的标度律。
真实->模拟->真实 一种数据生成管道。通过扫描物理世界物体在仿真中重建,并进行无限变化(数字表亲),以生成海量多样化的训练环境,再应用于真实机器人。
数字表亲 在真实->模拟->真实过程中,对扫描的真实物体进行无穷尽的随机化处理生成的模拟变体,用于增强训练数据的多样性。
Dream Dojo 一个完全数据驱动的神经模拟器,不用任何物理引擎或方程,仅凭学习视频数据就能实时生成逼真的视觉与传感器数据,并模拟机器人力学交互。
物理图灵测试 Jim Fan 提出的终局目标之一,指在广泛任务中无法分辨作业的是人类还是机器人,其本质是“单位能量输入与单位劳动产出”的等价。
物理 API 指像调用软件 API 一样,通过命令行或软件接口灵活调度和配置整个机器人编队的能力,是实现无人工厂(原子打印机)的基础。

延伸思考

原文发表:Apr 30, 2026  ·  纪要生成:2026-05-26