▶ 原文链接

揭秘数采工厂:稀缺的机器人数据,到底难在哪儿?|机器人特辑

来源: YouTube | 《硅谷101》 | 陈茜 | May 14, 2026 分类: 其他 原文发表: May 14, 2026 纪要生成: 2026-05-25


全集重点


嘉宾/话题简介

本期节目是《硅谷101》机器人特辑的其中一期,由主持人陈茜带领观众深入探访上海的机器人数据采集工厂。节目邀请了 智元机器人觅蜂科技 的核心团队成员,以及机器人公司 Sharpa 的研究科学家 张凯峰 等嘉宾。他们从多个维度深度剖析了当前机器人行业面临的最大瓶颈——数据缺失问题,并详细拆解了机器人数据金字塔的四层结构,探讨了从真机遥操作到互联网视频的多种技术路线及其各自的优劣势和未来发展。


分节详述

00:00 机器人数据的独特性与困境根源

本节重点

详细精要

💬 精华片段(中文)

“它的难点就在于,这些数据天然是不存在互联网上的,它需要我们去以某种方式去采集它。” “The difficulty is that this data naturally does not exist on the internet. It requires us to collect it in some way.”


04:02 数据金字塔顶层:真机遥操数据(最稀缺的黄金)

本节重点

详细精要

💬 精华片段(中文)

“操作员是感受不到机器人的感受,... 这也是为什么在中国发展起来大量的数据采集,在美国相对来讲进展比较缓慢,因为在美国他采集员的招聘50美金一小时。” "The operator cannot feel what the robot feels... This is also why massive data collection has developed in China, while progress in the U.S. is relatively slow, because in the U.S., they are hiring operators at $50 an hour."


09:47 数据即石油:觅蜂科技的商业模式与百万小时挑战

本节重点

详细精要

💬 精华片段(中文)

“100万小时今天放在全球就一定是绝对非常碾压式的这种存在了,但是问题是100万小时就能解决问题了吗?...我觉得大家到了100万,一定会去想1000万。” "1 million hours today is an absolutely overwhelming presence globally. But the question is, can 1 million hours solve the problem? ... I think once everyone reaches 1 million, they will definitely think about 10 million."


11:20 金字塔第二层:仿真合成数据与Sim-to-Real Gap

本节重点

详细精要

💬 精华片段(中文)

“现在很难解决的一个动力学的Sim-to-real Gap,是环境的dynamics,也就是说你很难对齐物理世界的环境和现实世界环境迁移的这种Transition Model,所以这个我觉得是目前还需要一些科学方法上的创新。” "A currently unresolved challenge is the dynamics Sim-to-real Gap, specifically the environment's dynamics. It is very difficult to align the transition model between the physical world and the real-world environment. So, I think this still requires some innovation in scientific methods."


16:37 金字塔第三层:动作捕捉数据与Embodiment Gap

本节重点

详细精要

💬 精华片段(中文)

“它只是做了一个运动学上的对应关系,它没有真正地去实现这个操作本身语义上的对应。” "It only establishes a kinematic correspondence; it doesn't truly realize the semantic correspondence of the operation itself."


18:47 金字塔底层:互联网视频数据与价值提取

本节重点

详细精要

💬 精华片段(中文)

“YouTube videos最大的劣势是它没有力和触觉信息,它的优势是它的量非常大。它能够给我们一些信息,这些信息包括世界是怎么变化的,我们常常讲World Models,就是利用好了这种in-the-wild的数据来训练这样的一个World Models。” "The biggest disadvantage of YouTube videos is that they have no force and tactile information. Their advantage is the sheer volume. They can give us some information, including how the world changes. We often talk about World Models, which make good use of this in-the-wild data for training."


23:17 各大公司的数据策略与“点石成金”术

本节重点

详细精要

💬 精华片段(中文)

“因为有了这样一个System 0的话,所以我们可以达到一个点石成金的作用,就是能够把大量的低质量数据用起来。” "With System 0, we can achieve a 'touchstone' effect, meaning we can make use of a huge amount of low-quality data."


24:52 混合配方:数据金字塔的平衡术

本节重点

详细精要

💬 精华片段(中文)

“如果非要我选择一个更重要的点,我会选择数据质量,因为只有有高质量数据,你才能够训练出有用的模型,但是如果我们的数量很难去规模化,其实我们需要做一个折中,这个折中可能就像我刚刚讲的,这种数据金字塔的方式。” "If I had to choose a more important point, I would choose data quality, because only with high-quality data can you train a useful model. But if it's difficult to scale up the quantity, we need a trade-off. This trade-off is likely the data pyramid approach I just mentioned."


28:11 硅谷路线差异:强化学习与视频众包

本节重点

详细精要

💬 精华片段(中文)

“整个硅谷是在往视频数据靠的,减少对遥操的依赖,押注可以被动规模化的采集方式,这和中国公司的方向还是形成了差异化。” "Silicon Valley as a whole is leaning towards video data, reducing reliance on teleoperation, and betting on passively scalable collection methods. This forms a differentiation from the direction of Chinese companies."


32:41 开源的力量:AgiBot World 与数据飞轮梦想

本节重点

详细精要

💬 精华片段(中文)

“面对这个数据荒漠,我们算是种下第一棵树,希望将来能变成一片森林。” "Facing this data desert, we are planting the first tree, hoping it will one day become a forest."


专业术语注释

术语 解释
Scaling Law (缩放定律) 指在大语言模型(LLM)中,通过扩大模型规模、数据量和计算量,模型能力会实现可预测的提升,甚至涌现出新能力。本期讨论其在具身智能领域是否同样适用,尚未有定论。
token 大语言模型处理文本的最小单元,可以是一个单词或子词。训练数据量常以token计。
真机数据 / 遥操数据 (Teleoperation Data) 人类操作员通过外骨骼或操控系统实时遥控机器人在真实环境中完成任务,并全程记录所有传感器信息所得的数据。位于数据金字塔顶层,质量最高,成本也最高。
MOCAP (动作捕捉数据) 使用光学或视觉设备记录人或物体运动轨迹的技术,在机器人领域用于记录人类操作示范,再将动作映射给机器人。
Open X-Embodiment 谷歌联合全球33所研究机构发布的开源数据集,聚合了来自22种机器人平台的超过100万条操作轨迹,是目前全球最大的跨机构真机数据集之一。
Sim-to-Real Gap (仿真到现实的鸿沟) 指在虚拟仿真环境中训练好的机器人模型,部署到充满不确定性和复杂物理特性的真实世界时,表现大幅下降的现象。
Real-to-Sim Gap (现实到仿真的鸿沟) 指由于真实世界过于复杂、细节无限,很难将其准确复刻并“搬进”到仿真环境中进行高保真建模的挑战。
Isaac Lab 英伟达(NVIDIA)推出的一个用于机器人强化学习、模仿学习和Sim-to-Real迁移的仿真应用框架,支持大规模并行训练。
Tacmap Sharpa公司与英伟达合作开发的触觉仿真工具,通过使用深度图(Deformation map)作为介质,并训练翻译模型,实现从仿真到现实的触觉技能迁移。
翻译模型 (Translation Model) 在Tacmap的语境下,指一个训练好的神经网络,用于将触觉传感器的原始图像(raw image)“翻译”成包含物理接触信息的形变图(deformation map)。
域随机化 (Domain Randomization) 一种解决Sim-to-Real Gap的技术。通过在仿真中随机改变环境参数(如光照、纹理、物理属性),迫使模型学习到任务的核心本质,从而能适应真实世界中未曾见过的变化。
Embodiment Gap (具身鸿沟) 指人类的物理身体(如手)与机器人的物理身体(如机械爪)在结构、自由度、感知能力(如触觉)等方面的差异,导致人类操作数据或动捕数据难以直接映射到机器人上。
Functional Retargeting (功能重定向) 指将人类动作映射到机器人时,不仅要模仿动作的运动学轨迹,更要理解和复现该动作的功能性意图。该技术指出当前动捕数据仅停留在运动学层面,未能实现功能层面迁移。
Egocentric Data (自我中心数据) 以机器人或操作者的第一人称视角(即“从眼睛看出去”的视角)采集的数据,通常包含手臂交互、遮挡和动态变化,对机器人决策训练极为重要。
Human-Centric Data (人类中心数据) 围绕人类行为、意图、偏好或示范构建的数据,用于教导机器人如何像人一样行动和完成目标。
EgoDex 苹果公司在2025年5月发布的第一人称视角灵巧操作数据集,由Apple Vision Pro采集,包含手部精确3D关节追踪。
EgoScale 英伟达在2026年3月发布的模型,通过超过20000小时的人类自我中心视频进行预训练,以构建一个统一的机器人运动空间。
World Models (世界模型) 指AI模型对物理世界运作规律(如物体恒常性、因果关系、动态变化)的内在表征。高质量的世界模型对机器人的泛化能力至关重要。
affordance (预设用途) 在交互设计中指物品提供给用户的某种操作可能性。在机器人领域,指模型通过观察物体(如一个杯子),就能判断出可以对其执行的操作(如抓取、倒水)。
System 0 / System 1 Sharpa公司CraftNet框架中的分层系统。System 1指上层决策策略,给出粗糙的动作意图;System 0指底层触觉反射层,负责根据实时力反馈进行快速、精细的调整和补偿。
π0 (pi-zero) 系列 / Physical Intelligence 由著名机器人学家Sergey Levine等人创立的机器人公司及其发布的通用机器人模型系列,强调利用多种数据进行训练,并通过强化学习在真实部署中持续进化。
RECAP / RLT Physical Intelligence公司在π0.6等模型上使用的强化学习微调方法,用于在少量真实交互中显著提升机器人在特定精细操作任务上的速度和成功率。
GR00T N1 英伟达在2025年GTC大会上发布的第一代通用具身基础模型,其训练所用真实世界数据中,约80%来自智元开源的AgiBot World数据集。
AgiBot World (智元世界) 智元机器人在2024年开源的百万级真机遥操作数据集,旨在为具身智能行业提供一个工业级、长程任务的统一数据基准。
数据飞轮 (Data Flywheel) 一种良性循环的发展模式:部署更多机器人 → 收集更多真实场景数据(尤其是失败案例) → 用数据训练出更好的模型 → 提升机器人性能 → 促进更多部署。
RL (强化学习, Reinforcement Learning) 一种机器学习范式,智能体通过与环境互动,执行动作并获得奖励或惩罚,以学习能最大化累积奖励的策略。在机器人领域,常被认为能实现自我进化。
VLA (Vision-Language-Action Model) 视觉-语言-动作模型,一种多模态机器人基础模型范式,能够直接接收视觉和语言指令,并输出机器人动作控制指令。代表模型有谷歌的RT-2和OpenVLA。
MTBF (平均故障间隔) Mean Time Between Failures,衡量产品可靠性的关键指标,指系统两次故障之间平均能正常运行的时间。对于进厂工作的机器人,百小时、千小时级别的MTBF是基本要求。
Benchmark (基准) 一套标准化的测试任务和评价指标,用于公平、统一地衡量不同算法或模型的性能。机器人行业曾因缺乏公开的统一基准而面临认知危机。

延伸思考

  1. Scaling Law在具身智能领域的失效边界在哪? 目前只观察到物体和环境层面的泛化,未出现任务层面的涌现。这是否意味着仅靠堆数据、堆模型规模的“大语言模型式”路径存在天然瓶颈,机器人需要一种完全不同的底层架构或学习范式?
  2. “廉价数据”与“智能涌现”的本质矛盾:Sharpa的System 0等方法试图用硬件或底层系统补偿数据质量的不足。但这种“点石成金”术有没有上限?依赖粗糙意图和触觉反馈的方法,能否支撑起需要复杂顺序推理的长程任务?
  3. 具身数据的所有权与伦理问题:当Physical Intelligence的机器人利用客户的物理资产进行强化学习试错,这些由机器人自主产生的数据所有权归谁?如果机器人在试错中损坏了昂贵设备或造成安全事故,责任如何界定?这种模糊性是否会成为RL路线商业化的巨大法律障碍?
  4. 中美两种模式的终局推演:在人力成本优势下,中国的“数据工厂”模式能否持续产出比硅谷“视频数据+强化学习”模式更高质量的数据,从而在最终模型性能上实现反超?还是说,硅谷押注的自动化和规模化路径一旦在技术上实现闭环,其成本将呈指数级下降,后来居上?
  5. 开源数据集(AgiBot World)的商业护城河悖论:智元通过开源数据建立了生态标准,带动了硬件销售。但当其他竞争对手也开始使用AgiBot World训练出优秀的模型,并部署在非智元的硬件上时,这个先发优势是否会被轻易抹平?硬件本体的性能是否会取代数据生态,成为新的竞争焦点?

原文发表:May 14, 2026  ·  纪要生成:2026-05-25