揭秘数采工厂：稀缺的机器人数据，到底难在哪儿？｜机器人特辑

来源： YouTube | 《硅谷101》 | 陈茜 | May 14, 2026 分类： 其他 原文发表： May 14, 2026 纪要生成： 2026-05-25

全集重点

机器人数据的核心困境：与大语言模型可以吞噬互联网数据不同，具身智能所需的物理交互数据在互联网上根本不存在，必须从零开始生产。
四层数据金字塔：行业形成了从高质量、低规模的 遥操真机数据，到低质量、海量的 互联网视频数据 的完整数据分层结构。
各层数据的致命短板：真机数据太贵太慢，仿真数据存在 Sim-to-Real Gap (仿真到现实的鸿沟)，动作捕捉数据受困于 Embodiment Gap (具身鸿沟)，视频数据则缺乏动作和力反馈信息。
“黄金配方”尚不存在：行业尚未找到将各层数据完美融合的通用配方，不同公司基于成本、场景和目标在押注不同的技术路线。
数据飞轮与Scaling Law的未知性：虽然数据飞轮的逻辑成立，但具身智能领域尚未观察到任务级别的泛化能力涌现，Scaling Law 能否完全复制大语言模型的成功仍是未解之谜。

嘉宾/话题简介

本期节目是《硅谷101》机器人特辑的其中一期，由主持人陈茜带领观众深入探访上海的机器人数据采集工厂。节目邀请了 智元机器人 和 觅蜂科技 的核心团队成员，以及机器人公司 Sharpa 的研究科学家 张凯峰 等嘉宾。他们从多个维度深度剖析了当前机器人行业面临的最大瓶颈——数据缺失问题，并详细拆解了机器人数据金字塔的四层结构，探讨了从真机遥操作到互联网视频的多种技术路线及其各自的优劣势和未来发展。

分节详述

00:00 机器人数据的独特性与困境根源

本节重点

机器人领域最羡慕AI大语言模型的是其海量的互联网数据。
机器人数据需要的是物理交互中产生的多维传感信号，这些数据在互联网上天然缺失。
数据困境的根源在于，我们只能采集到人操作机器人的数据，而非机器人的自主操作数据。

详细精要

具身智能面临严重的“数据荒漠”：当 Scaling Law (缩放定律) 推动大语言模型飞速发展时，机器人领域却因缺乏训练数据而导致泛化性和自主性进展缓慢。
机器人所需的训练数据在互联网上不存在，现有的视频数据远远不够。
这直接制约了机器人向更通用、更智能的方向发展。
机器人数据与AI大模型数据有本质区别：
大语言模型的数据：是“世界的文本语言”，包括文本、代码等，GPT-4的训练数据以万亿 token 计，相当于摄取人类所有记录的知识。
图像/视频/声音模型的数据：分别是“世界的瞬间截图”、“世界的连续变化”和“世界的震动信号”，这些数据都在互联网上大量存在。
机器人需要的数据：是具身本体在真实物理世界与具体物体发生交互时产生的多维度传感器信号，包括视觉、力觉、关节位置、电机控制量等，所有信息必须精确同步且时间戳对齐。
机器人数据的生产完全依赖从零开始“制造”：
这些交互数据从未被系统性地记录过，也没有任何理由会被动地产生。
无论是真实环境还是虚拟世界，采集数据都需要布设机器人、搭建场景，并由 遥操人员 来控制机器人。
最大的难点在于无法采集到机器人自主操作的数据，只能采集到人类操作的数据，如 MOCAP data (动作捕捉数据) 或 YouTube data。
遥操作的困境在于，操作员感受不到机器人的感受。人类依赖皮肤触觉反馈来调整抓取力度，但机器人没有这套系统，操作员只能通过肉眼来闭环。

💬 精华片段（中文）

“它的难点就在于，这些数据天然是不存在互联网上的，它需要我们去以某种方式去采集它。” “The difficulty is that this data naturally does not exist on the internet. It requires us to collect it in some way.”

04:02 数据金字塔顶层：真机遥操数据（最稀缺的黄金）

本节重点

谷歌为训练 RT系列模型，耗费17个月才获得13万条操作轨迹，凸显数据获取之难。
真机遥操数据位于金字塔顶层，质量最高，信息最完整，是机器人落地的核心材料。
我们探访了智元的数采工厂，发现专业遥操员门槛极高，培养周期长，且有效数据产出率仅约1/4。

详细精要

真机数据的稀缺性由行业数据量级体现：
谷歌DeepMind 研发第一代 RT系列 时，调动13台机器人持续采集了17个月，才累积了约13万条操作轨迹，覆盖700多项技能。
为了训练 RT-2，谷歌联合34所研究机构，合并了60个已有数据集，加上22种机器人平台的真机数据，才凑出包含超过100万条操作轨迹的 Open X-Embodiment 开源数据集。
即便如此，该数据集涵盖的527项技能和场景与现实世界需求之间，依然存在数量级的差距。
真机遥操数据的采集过程与极高门槛：
真机数据通过遥操员穿戴外骨骼或操控系统，实时控制机器人在真实场景中完成任务，并全程录制所有传感器数据。
智元数据采集工厂有200台机器，每台至少配1名采集员，复杂任务还需配同事布置场景。
成为金牌采集员需要天赋：好的采集员与差的效率差3倍。核心天赋包括极佳的协调性和空间感，因为操作员需要隔空控制一个构造不同的身体，且无直观反馈，只能靠肉眼闭环。
遥操员需要进行轨迹预判，因为人能完成的姿态机器人未必能做到。
对空间的精度判断也很关键，抓错、抓滑等都是常见失败。
体力也是一大要求，工作非常辛苦。
即使是天赋型采集员，从零基础到九成功力也需要一个月时间。
遥操数据生产的低效和高成本：
一名专业的遥操员，8小时工作中平均只能产出2-3小时的有效数据，效率约为1/4。
时间浪费在两个采集任务间的场景布置、数据上传、操作失败后的丢弃重试等环节。
真机数据优势是准确，更易直接部署，后期调参成本低。
代价是贵且慢，难以指数级扩张，涉及硬件、场地、人工、时间成本，与互联网数据规模完全不在一个量级。

💬 精华片段（中文）

“操作员是感受不到机器人的感受，... 这也是为什么在中国发展起来大量的数据采集，在美国相对来讲进展比较缓慢，因为在美国他采集员的招聘50美金一小时。” "The operator cannot feel what the robot feels... This is also why massive data collection has developed in China, while progress in the U.S. is relatively slow, because in the U.S., they are hiring operators at $50 an hour."

09:47 数据即石油：觅蜂科技的商业模式与百万小时挑战

本节重点

觅蜂科技将真机数据作为服务平台化，目标是解决物理AI的数据荒漠问题。
其2026年的遥操产能已接近200万小时，背后是近2000台机器人的规模。
市场上对数据的需求巨大，单个客户提出100万小时的需求已很常见，但这只是第一步。

详细精要

真机数据成为“石油业务”，生态正在迅速崛起：
觅蜂科技 正在将真机数据做成一站式的物理AI数据服务平台，构建物理AI数据基础设施。
其业务实现真机遥操、无本体采集、仿真数据的全范式覆盖，并试图打通硬件、软件、平台、运营的全链路。
2026年的真机遥操产能接近200万小时，同时规划采集约800万小时的 Human-Centric 数据。
这一产能背后是接近2000台机器人和对应规模的采集团队，在中国国内及东南亚多地同步运作。
巨大需求驱动下的“数据军备竞赛”：
人力成本是关键竞争力。在美国，特斯拉曾以50美金/小时招聘采集员，这使得100万小时数据在全球都具有碾压性优势。
觅蜂科技接触的客户中，提出100万小时需求的单个客户已经非常多。
但这只是开始，一旦达到100万小时，下一步必然是1000万小时。即使是1亿小时的数据投入，相对于大型AI公司的基础设施总投入来说，仍然是非常可控的一部分。
这表明，尽管成本高昂，但真机数据作为基础资源，其价值已被市场充分认可，需求量巨大。

💬 精华片段（中文）

“100万小时今天放在全球就一定是绝对非常碾压式的这种存在了，但是问题是100万小时就能解决问题了吗？...我觉得大家到了100万，一定会去想1000万。” "1 million hours today is an absolutely overwhelming presence globally. But the question is, can 1 million hours solve the problem? ... I think once everyone reaches 1 million, they will definitely think about 10 million."

11:20 金字塔第二层：仿真合成数据与Sim-to-Real Gap

本节重点

仿真合成数据规模效应极致，英伟达是这条路线的主要推动者。
Sharpa的乒乓球机器人用40小时纯仿真数据训练，验证了技术可行性。
核心挑战是 Sim-to-Real Gap，尤其是动力学层面的模拟难以对齐真实世界。

详细精要

仿真数据路线：规模效应与独特优势：
仿真数据是在虚拟环境中“生成”的数据。英伟达 Isaac Lab 可在单台GPU上并行运行成千上万个虚拟机器人同时训练，规模理论上是无限的。
英伟达CEO 黄仁勋 的两个子女均在英伟达的Physical AI仿真部门工作，可见其对这一路线的重视。
Sharpa 公司在2026年CES上展示的乒乓球机器人，仅花40小时用纯仿真数据训练，就实现了 0.02秒 量级的击球反应速度。
仿真还能生成现实中极难遇到的边缘场景，如反复摔倒、失败，所有失败都可以成为数据且不产生真实损失。
触觉仿真的突破案例：Tacmap：
Sharpa与英伟达合作开发了触觉仿真工具 Tacmap。
该方法不直接在仿真中模拟摄像头去看标记点形变，而是利用物体和指尖穿膜的 深度图 (Deformation map) 作为介质。
在仿真和现实中，都通过类似方式得到形变图，并训练一个 翻译模型 (translation model) 将原始图像翻译成形变图。
基于此，可以实现精细化操作的 Sim-to-Real (从仿真到现实) 迁移。
核心瓶颈：Sim-to-Real Gap (仿真到现实的鸿沟)：
机器人在仿真中练得再好，放到真实世界往往会出问题，因为仿真环境是真实物理世界的近似。
运动学层面 相对容易仿真，但 动力学层面 极难。例如，仿真中杯子的重量、摩擦系数是固定的，但现实中的湿手、水量、桌面材质都会改变这些参数。
液体流动、软性材料形变等复杂物理现象对物理引擎来说难以完整复现。例如，机器人仿真叠一万次衣服，面对真实毛衣时也可能失败。
当前缓解方法包括 域随机化、将仿真做得更真（英伟达路线）、以及用少量真机数据微调。
专家认为，解决动力学层面的 Sim-to-Real Gap，即对齐物理环境和现实环境间的状态转移模型，目前还需要科学方法上的创新。
Real-to-Sim Gap 挑战同样严峻：
与Sim-to-Real相反，Real-to-Sim Gap 指无法将复杂、充满无限细节和噪音的真实世界准确“搬进”仿真中，因此构建高保真仿真世界本身也极具挑战。

💬 精华片段（中文）

“现在很难解决的一个动力学的Sim-to-real Gap，是环境的dynamics，也就是说你很难对齐物理世界的环境和现实世界环境迁移的这种Transition Model，所以这个我觉得是目前还需要一些科学方法上的创新。” "A currently unresolved challenge is the dynamics Sim-to-real Gap, specifically the environment's dynamics. It is very difficult to align the transition model between the physical world and the real-world environment. So, I think this still requires some innovation in scientific methods."

16:37 金字塔第三层：动作捕捉数据与Embodiment Gap

本节重点

动作捕捉记录人的运动轨迹并映射给机器人，能大幅减少无效数据。
它面临 Embodiment Gap 和 Functional Retargeting 两大难题。
人机结构不同且缺乏触觉反馈，导致机器人只能模仿动作形状，而无法理解操作语义。

详细精要

动捕数据的价值与应用：
MOCAP (动作捕捉数据) 通过光学设备或视觉算法记录人手运动轨迹，为数据增加了“怎么动”的信息维度。
机器人算法公司 Physical Intelligence 的 π0.5模型 使用了约400小时的移动操作数据和大量网络数据，在家庭环境中实现长程任务。
其优势是数据质量高，在运动结构上能减少无效数据，对复杂动作（如机器人跳舞、武术）特别有效，是纯强化学习难以达到的。
根本性缺陷：Embodiment Gap (具身鸿沟) 与 Functional Retargeting (功能重定向)：
Embodiment Gap 指人身体和机器人身体之间的操作语义沟壑。具体表现为两方面：
- 视觉差异：视频中看到的是人手而非机器人的手。
- 状态不准确：通过动捕得到的人体运动数据因自遮挡、物体遮挡等问题，状态本身就不精确。
人手操作依赖皮肤密布的触觉感受器进行实时反馈调整，而机器人没有此系统，因此即使动作轨迹被精确复制，完成任务的能力也不会自动跟上。
Functional Retargeting 指机器人只是在模仿动作的形状，而没有理解该动作要完成的功能性目标。这仅仅是运动学上的对应，而非操作语义上的对应。
这导致将人的动作映射到机器人上后，常出现关节角度超限、力矩不够、平衡失败等问题。
数据定位：正因为以上缺陷，动捕数据在一定程度上和互联网视频数据一起，被认为是“低质量数据”。

💬 精华片段（中文）

“它只是做了一个运动学上的对应关系，它没有真正地去实现这个操作本身语义上的对应。” "It only establishes a kinematic correspondence; it doesn't truly realize the semantic correspondence of the operation itself."

18:47 金字塔底层：互联网视频数据与价值提取

本节重点

海量的互联网视频是唯一“不缺”的数据源，能让机器人学习通用表征和物理规律认知。
但其根本劣势是缺乏力和触觉信息，只有操作结果没有动作过程。
区分 Egocentric 和 Human-Centric 数据对挖掘视频价值至关重要。

详细精要

视频数据的作用与根本局限：
从YouTube到抖音，人类完成任务的视频海量存在，是具身智能训练唯一根本不缺的原材料。
视频数据主要用来让机器人模型学习通用表征、简单认知以及物理规律的粗浅认知，但它只停留在“认知”阶段。
就像看再多乒乓球比赛，第一次拿起球拍也接不住球；视频让机器人知道球是圆的、知道打球动作，但从“知道”到“会做”之间存在着鸿沟。
最核心的劣势是没有力和触觉信息，只有结果没有动作信号。
其优势在于量非常大，可以用于训练 World Models (世界模型) 去理解世界如何变化，以及提供 affordance (预设用途) 等操作的关键信息。
两个关键分类：Egocentric 与 Human-Centric：
Egocentric (自我中心数据)：即“以机器人的视角看出去”的第一视角视频，能看到桌子、杯子、自己的机械臂等，与行动绑定，可直接用于决策。苹果公司发布的 EgoDex 数据集就是此类型，包含829小时 Apple Vision Pro 采集的、带手部3D关节追踪的视觉，覆盖194种桌面操作任务。
为降低对物理本体的依赖，觅蜂科技推出了 MEgo 系列无本体数据采集设备（如 MEgo Gripper），让高质量Egocentric数据采集走向轻量化、规模化。
Human-Centric (人类中心数据)：围绕人类行为、意图、偏好或示范构建的数据，用来让机器人学习人类想要的行为方式。可以是第一或第三视角。
两者的交集——人类在第一视角下完成任务的数据——被视为视频数据中最有价值的部分。英伟达的 EgoScale 模型就使用了超过20000小时的人类视频进行预训练，构建统一的机器人运动空间。

💬 精华片段（中文）

“YouTube videos最大的劣势是它没有力和触觉信息，它的优势是它的量非常大。它能够给我们一些信息，这些信息包括世界是怎么变化的，我们常常讲World Models，就是利用好了这种in-the-wild的数据来训练这样的一个World Models。” "The biggest disadvantage of YouTube videos is that they have no force and tactile information. Their advantage is the sheer volume. They can give us some information, including how the world changes. We often talk about World Models, which make good use of this in-the-wild data for training."

23:17 各大公司的数据策略与“点石成金”术

本节重点

特斯拉将 Optimus 的数据采集方式从动作捕捉转向了摄像机头盔，以追求“更快规模化”。
Sharpa的 System 0 触觉反射层可以“点石成金”，降低上层数据精度要求，让低质量数据也能用起来。

详细精要

特斯拉的策略调整：押注视频数据：
特斯拉在2025年6月调整了 Optimus 的采集策略，从依赖动作捕捉套装和VR头显，转为让工人佩戴装有5个摄像头的装备录制日常操作。
其内部认为这种方式能“更快规模化”，这与马斯克的第一性原理相符，也类似于其FSD用视频数据驱动汽车的思路。
Sharpa的“点石成金”术：CraftNet与System 0：
Sharpa发布的 CraftNet 系统采用了一个名为 System 0 的触觉反射层。
其工作原理是：上层策略（System 1）只需给出粗糙的动作意图，底层的 System 0 根据实时力反馈自动完成精细调整。
核心价值：这个设计从硬件层降低了对上层数据精度的要求，使得低质量动作捕捉和视频数据也能被有效利用，起到了“点石成金”的作用。

💬 精华片段（中文）

“因为有了这样一个System 0的话，所以我们可以达到一个点石成金的作用，就是能够把大量的低质量数据用起来。” "With System 0, we can achieve a 'touchstone' effect, meaning we can make use of a huge amount of low-quality data."

24:52 混合配方：数据金字塔的平衡术

本节重点

行业共识是将四层数据混合使用，以平衡质量和成本。
目前没有统一的“黄金配方”，因为技术路线、应用场景和对泛化性与成功率的要求各不相同。
Sharpa给出的经验性比例显示，在复杂任务中，遥操数据在整个数据池中仅占约万分之一，但却是决定模型能否落地的关键。

详细精要

四层数据需整合使用：
行业普遍认识到，高质量的真机数据最少最难获取，海量的视频数据质量又最低。
普遍的共识是将这四层金字塔数据混合起来，作为一个整合的解决方案 (integrated solution)，以平衡数据质量和成本。
不存在通用的“黄金配方”：原因有二：
技术路线仍在探索：目前技术路径众多，尚未收敛到一种确定的范式，因此没有一个固定配方能保证最好的效果。
训练目标不一致：
- 对于工业场景，目标是极致的节拍效率和100%的成功率，对精度要求高。
- 对于家庭等服务场景，更看重泛化性，可接受98-99%的成功率，甚至允许人类干预。
- 针对不同目标和不同具身本体，用到的数据比例会完全不一样。
一个经验性的比例估算：
根据Sharpa 张凯峰 的估算，在训练较复杂的任务中，各层数据的轨迹数量比大致为：遥操数据 : 动捕数据 = 1 : 100，动捕数据 : 互联网视频数据 = 1 : 100。
换算下来，遥操数据在整个数据池中大约只占万分之一。
但这万分之一往往是最终决定模型能否在真实场景落地的关键。张凯峰因此认为，如果非要做选择，数据质量更重要，但由于数量难以规模化，就需要利用数据金字塔结构，让每一部分数据都发挥作用。

💬 精华片段（中文）

“如果非要我选择一个更重要的点，我会选择数据质量，因为只有有高质量数据，你才能够训练出有用的模型，但是如果我们的数量很难去规模化，其实我们需要做一个折中，这个折中可能就像我刚刚讲的，这种数据金字塔的方式。” "If I had to choose a more important point, I would choose data quality, because only with high-quality data can you train a useful model. But if it's difficult to scale up the quantity, we need a trade-off. This trade-off is likely the data pyramid approach I just mentioned."

28:11 硅谷路线差异：强化学习与视频众包

本节重点

硅谷公司受限于人力成本，更倾向走数据“捷径”，如强化学习和视频数据。
Physical Intelligence 让机器人在真实部署中通过强化学习自我改进，但面临奖励函数、安全边界和数据归属三大问题。
Figure AI 和 Sunday Robotics 则押注于利用第一人称视频数据实现规模化。

详细精要

Physical Intelligence (PI) 的数据策略：精度+迭代：
PI在真实环境（如巧克力工厂、办公室）中部署机器人，让其在完成真实任务时产生数据，并通过数据持续改进系统。
强化学习 (RL) 路线是核心：PI试图让机器人在真实部署中通过RL自我改进。
- 2025年11月的 π0.6 模型使用 RECAP 方法，将最难任务的吞吐量提升一倍以上，失败率降低约一半。
- 2026年3月，RLT 方法只需几小时的真实操作练习，就能让精细操作任务的速度提升三倍，某些动作甚至超越人类遥操员。
RL路线的三大未解答问题：
1. 奖励函数：像“衣服叠得够好”这类标准很难量化，定义不准会导致机器人寻找错误捷径。
2. 安全边界：在生产线上试错有损坏产品、影响节拍甚至伤人的现实代价。
3. 数据归属：RL数据是机器人用客户资产试错产生的，所有权比人工生产的遥操数据更模糊。
PI也在探索用 Egocentric 视频 补充数据，其研究显示，当模型积累足够真实操作经验后，加入第一人称人类视频可使泛化任务成功率接近翻倍。
Figure AI 与 Sunday Robotics：押注视频规模化：
Figure AI 与 Brookfield 签约，计划在其管理的住宅、办公室和物流空间中，让人佩戴摄像头拍摄视频，用这些数据训练 Helix模型，目标是建成全球最大的人形机器人预训练数据集。Helix模型仅通过人类第一人称视频训练，已能根据指令在杂乱房间导航。
Sunday Robotics 更极端，直接付钱给普通人在家录制做家务的视频，将数据采集变成众包经济。
中美策略差异化：
硅谷公司整体在往视频数据靠，减少对昂贵遥操作的依赖，押注可以被动、低成本规模化的采集方式。
以智元为代表的中国公司，则利用人力成本和效率优势，将数据采集做成工厂化，打造护城河。
当前行业发展处于超级初期，两种路线没有绝对的对错之分。

💬 精华片段（中文）

“整个硅谷是在往视频数据靠的，减少对遥操的依赖，押注可以被动规模化的采集方式，这和中国公司的方向还是形成了差异化。” "Silicon Valley as a whole is leaning towards video data, reducing reliance on teleoperation, and betting on passively scalable collection methods. This forms a differentiation from the direction of Chinese companies."

32:41 开源的力量：AgiBot World 与数据飞轮梦想

本节重点

智元将百万条遥操数据开源为 AgiBot World，旨在为行业提供缺失的公共基准。
开源带来了巨大的连锁效应，形成了“数据引流、生态反哺硬件销售”的正向循环。
行业正在追求具身智能的 数据飞轮，但其能否像大语言模型一样遵循 Scaling Law 并涌现出任务级别的泛化能力，尚未被证实。

详细精要

AgiBot World 开源数据集的价值与成果：
2024年，智元将自己辛苦采集的百万条遥操数据打包成 AgiBot World (智元世界) 开源数据集，免费向全球开放。
开源背景：2023-2024年，整个具身智能行业面临认知危机，因缺乏公共数据基准，无法有效判断模型训练方法的对错。
谷歌的 RT系列 和 OpenVLA 虽开创了 VLA 范式，但因使用学术级数据集，在实际场景中效果有限，导致该范式潜力长期无法得到验证。
智元此举被比作“面对数据荒漠种下第一棵树”，旨在建立公允的 Benchmark (基准) 数据集。
直接结果：2025年3月，英伟达在GTC发布的第一代具身基础模型 GR00T N1，其训练所用的真实世界数据中，约80% 均来自 AgiBot World。
连锁反应：学术团队在使用AgiBot World后，倾向于采购智元的机器人本体做研发，因为在同一款本体上采集的数据训练出的模型效果更好。这形成了“数据开源 → 带来生态 → 生态带来硬件销量 → 硬件产生更多数据”的正向循环。
数据飞轮的希望与 Scaling Law 的未知：
数据飞轮绝对会存在，其核心逻辑和自动驾驶类似：在模型部署后，通过用户使用过程中的反馈（特别是失败场景的数据）来持续提升能力。智元已将此作为所有机器人产品的标配，在用户许可下收集约占5% 以内的高价值失败数据。
然而，具身智能的Scaling Law (缩放定律) 是否成立尚无答案。大语言模型中，数据翻倍、模型变大，能力会涌现。但机器人行业目前只观察到了物体层面和环境层面的泛化，尚未看到任务层面的泛化能力涌现。
任务泛化——即见到从未接触过的新任务也能举一反三——是机器人走向下一步进化的关键证据，而在大规模部署实现之前，这个答案可能都不会出现。
PI创始人 Sergey Levine 教授举例：如果全美1万家麦当劳各部署一台机器人，每天工作两小时，一年就能产生1000万小时的具身智能训练数据，比现有全球总量多几个数量级。2026年3月底，智元已率先在产量上突破了1万台具身机器人，距离找到这把数据钥匙或许更近了一步。

💬 精华片段（中文）

“面对这个数据荒漠，我们算是种下第一棵树，希望将来能变成一片森林。” "Facing this data desert, we are planting the first tree, hoping it will one day become a forest."

专业术语注释

术语	解释
Scaling Law (缩放定律)	指在大语言模型（LLM）中，通过扩大模型规模、数据量和计算量，模型能力会实现可预测的提升，甚至涌现出新能力。本期讨论其在具身智能领域是否同样适用，尚未有定论。
token	大语言模型处理文本的最小单元，可以是一个单词或子词。训练数据量常以token计。
真机数据 / 遥操数据 (Teleoperation Data)	人类操作员通过外骨骼或操控系统实时遥控机器人在真实环境中完成任务，并全程记录所有传感器信息所得的数据。位于数据金字塔顶层，质量最高，成本也最高。
MOCAP (动作捕捉数据)	使用光学或视觉设备记录人或物体运动轨迹的技术，在机器人领域用于记录人类操作示范，再将动作映射给机器人。
Open X-Embodiment	谷歌联合全球33所研究机构发布的开源数据集，聚合了来自22种机器人平台的超过100万条操作轨迹，是目前全球最大的跨机构真机数据集之一。
Sim-to-Real Gap (仿真到现实的鸿沟)	指在虚拟仿真环境中训练好的机器人模型，部署到充满不确定性和复杂物理特性的真实世界时，表现大幅下降的现象。
Real-to-Sim Gap (现实到仿真的鸿沟)	指由于真实世界过于复杂、细节无限，很难将其准确复刻并“搬进”到仿真环境中进行高保真建模的挑战。
Isaac Lab	英伟达（NVIDIA）推出的一个用于机器人强化学习、模仿学习和Sim-to-Real迁移的仿真应用框架，支持大规模并行训练。
Tacmap	Sharpa公司与英伟达合作开发的触觉仿真工具，通过使用深度图（Deformation map）作为介质，并训练翻译模型，实现从仿真到现实的触觉技能迁移。
翻译模型 (Translation Model)	在Tacmap的语境下，指一个训练好的神经网络，用于将触觉传感器的原始图像（raw image）“翻译”成包含物理接触信息的形变图（deformation map）。
域随机化 (Domain Randomization)	一种解决Sim-to-Real Gap的技术。通过在仿真中随机改变环境参数（如光照、纹理、物理属性），迫使模型学习到任务的核心本质，从而能适应真实世界中未曾见过的变化。
Embodiment Gap (具身鸿沟)	指人类的物理身体（如手）与机器人的物理身体（如机械爪）在结构、自由度、感知能力（如触觉）等方面的差异，导致人类操作数据或动捕数据难以直接映射到机器人上。
Functional Retargeting (功能重定向)	指将人类动作映射到机器人时，不仅要模仿动作的运动学轨迹，更要理解和复现该动作的功能性意图。该技术指出当前动捕数据仅停留在运动学层面，未能实现功能层面迁移。
Egocentric Data (自我中心数据)	以机器人或操作者的第一人称视角（即“从眼睛看出去”的视角）采集的数据，通常包含手臂交互、遮挡和动态变化，对机器人决策训练极为重要。
Human-Centric Data (人类中心数据)	围绕人类行为、意图、偏好或示范构建的数据，用于教导机器人如何像人一样行动和完成目标。
EgoDex	苹果公司在2025年5月发布的第一人称视角灵巧操作数据集，由Apple Vision Pro采集，包含手部精确3D关节追踪。
EgoScale	英伟达在2026年3月发布的模型，通过超过20000小时的人类自我中心视频进行预训练，以构建一个统一的机器人运动空间。
World Models (世界模型)	指AI模型对物理世界运作规律（如物体恒常性、因果关系、动态变化）的内在表征。高质量的世界模型对机器人的泛化能力至关重要。
affordance (预设用途)	在交互设计中指物品提供给用户的某种操作可能性。在机器人领域，指模型通过观察物体（如一个杯子），就能判断出可以对其执行的操作（如抓取、倒水）。
System 0 / System 1	Sharpa公司CraftNet框架中的分层系统。System 1指上层决策策略，给出粗糙的动作意图；System 0指底层触觉反射层，负责根据实时力反馈进行快速、精细的调整和补偿。
π0 (pi-zero) 系列 / Physical Intelligence	由著名机器人学家Sergey Levine等人创立的机器人公司及其发布的通用机器人模型系列，强调利用多种数据进行训练，并通过强化学习在真实部署中持续进化。
RECAP / RLT	Physical Intelligence公司在π0.6等模型上使用的强化学习微调方法，用于在少量真实交互中显著提升机器人在特定精细操作任务上的速度和成功率。
GR00T N1	英伟达在2025年GTC大会上发布的第一代通用具身基础模型，其训练所用真实世界数据中，约80%来自智元开源的AgiBot World数据集。
AgiBot World (智元世界)	智元机器人在2024年开源的百万级真机遥操作数据集，旨在为具身智能行业提供一个工业级、长程任务的统一数据基准。
数据飞轮 (Data Flywheel)	一种良性循环的发展模式：部署更多机器人 → 收集更多真实场景数据（尤其是失败案例） → 用数据训练出更好的模型 → 提升机器人性能 → 促进更多部署。
RL (强化学习, Reinforcement Learning)	一种机器学习范式，智能体通过与环境互动，执行动作并获得奖励或惩罚，以学习能最大化累积奖励的策略。在机器人领域，常被认为能实现自我进化。
VLA (Vision-Language-Action Model)	视觉-语言-动作模型，一种多模态机器人基础模型范式，能够直接接收视觉和语言指令，并输出机器人动作控制指令。代表模型有谷歌的RT-2和OpenVLA。
MTBF (平均故障间隔)	Mean Time Between Failures，衡量产品可靠性的关键指标，指系统两次故障之间平均能正常运行的时间。对于进厂工作的机器人，百小时、千小时级别的MTBF是基本要求。
Benchmark (基准)	一套标准化的测试任务和评价指标，用于公平、统一地衡量不同算法或模型的性能。机器人行业曾因缺乏公开的统一基准而面临认知危机。

延伸思考

Scaling Law在具身智能领域的失效边界在哪？ 目前只观察到物体和环境层面的泛化，未出现任务层面的涌现。这是否意味着仅靠堆数据、堆模型规模的“大语言模型式”路径存在天然瓶颈，机器人需要一种完全不同的底层架构或学习范式？
“廉价数据”与“智能涌现”的本质矛盾：Sharpa的System 0等方法试图用硬件或底层系统补偿数据质量的不足。但这种“点石成金”术有没有上限？依赖粗糙意图和触觉反馈的方法，能否支撑起需要复杂顺序推理的长程任务？
具身数据的所有权与伦理问题：当Physical Intelligence的机器人利用客户的物理资产进行强化学习试错，这些由机器人自主产生的数据所有权归谁？如果机器人在试错中损坏了昂贵设备或造成安全事故，责任如何界定？这种模糊性是否会成为RL路线商业化的巨大法律障碍？
中美两种模式的终局推演：在人力成本优势下，中国的“数据工厂”模式能否持续产出比硅谷“视频数据+强化学习”模式更高质量的数据，从而在最终模型性能上实现反超？还是说，硅谷押注的自动化和规模化路径一旦在技术上实现闭环，其成本将呈指数级下降，后来居上？
开源数据集（AgiBot World）的商业护城河悖论：智元通过开源数据建立了生态标准，带动了硬件销售。但当其他竞争对手也开始使用AgiBot World训练出优秀的模型，并部署在非智元的硬件上时，这个先发优势是否会被轻易抹平？硬件本体的性能是否会取代数据生态，成为新的竞争焦点？

原文发表：May 14, 2026 · 纪要生成：2026-05-25