来源: YouTube | 《硅谷101》 | 陈茜 | May 14, 2026 分类: 其他 原文发表: May 14, 2026 纪要生成: 2026-05-25
本期节目是《硅谷101》机器人特辑的其中一期,由主持人陈茜带领观众深入探访上海的机器人数据采集工厂。节目邀请了 智元机器人 和 觅蜂科技 的核心团队成员,以及机器人公司 Sharpa 的研究科学家 张凯峰 等嘉宾。他们从多个维度深度剖析了当前机器人行业面临的最大瓶颈——数据缺失问题,并详细拆解了机器人数据金字塔的四层结构,探讨了从真机遥操作到互联网视频的多种技术路线及其各自的优劣势和未来发展。
本节重点
详细精要
这直接制约了机器人向更通用、更智能的方向发展。
机器人数据与AI大模型数据有本质区别:
机器人需要的数据:是具身本体在真实物理世界与具体物体发生交互时产生的多维度传感器信号,包括视觉、力觉、关节位置、电机控制量等,所有信息必须精确同步且时间戳对齐。
机器人数据的生产完全依赖从零开始“制造”:
💬 精华片段(中文)
“它的难点就在于,这些数据天然是不存在互联网上的,它需要我们去以某种方式去采集它。” “The difficulty is that this data naturally does not exist on the internet. It requires us to collect it in some way.”
本节重点
详细精要
即便如此,该数据集涵盖的527项技能和场景与现实世界需求之间,依然存在数量级的差距。
真机遥操数据的采集过程与极高门槛:
即使是天赋型采集员,从零基础到九成功力也需要一个月时间。
遥操数据生产的低效和高成本:
💬 精华片段(中文)
“操作员是感受不到机器人的感受,... 这也是为什么在中国发展起来大量的数据采集,在美国相对来讲进展比较缓慢,因为在美国他采集员的招聘50美金一小时。” "The operator cannot feel what the robot feels... This is also why massive data collection has developed in China, while progress in the U.S. is relatively slow, because in the U.S., they are hiring operators at $50 an hour."
本节重点
详细精要
这一产能背后是接近2000台机器人和对应规模的采集团队,在中国国内及东南亚多地同步运作。
巨大需求驱动下的“数据军备竞赛”:
💬 精华片段(中文)
“100万小时今天放在全球就一定是绝对非常碾压式的这种存在了,但是问题是100万小时就能解决问题了吗?...我觉得大家到了100万,一定会去想1000万。” "1 million hours today is an absolutely overwhelming presence globally. But the question is, can 1 million hours solve the problem? ... I think once everyone reaches 1 million, they will definitely think about 10 million."
本节重点
详细精要
仿真还能生成现实中极难遇到的边缘场景,如反复摔倒、失败,所有失败都可以成为数据且不产生真实损失。
触觉仿真的突破案例:Tacmap:
基于此,可以实现精细化操作的 Sim-to-Real (从仿真到现实) 迁移。
核心瓶颈:Sim-to-Real Gap (仿真到现实的鸿沟):
专家认为,解决动力学层面的 Sim-to-Real Gap,即对齐物理环境和现实环境间的状态转移模型,目前还需要科学方法上的创新。
Real-to-Sim Gap 挑战同样严峻:
💬 精华片段(中文)
“现在很难解决的一个动力学的Sim-to-real Gap,是环境的dynamics,也就是说你很难对齐物理世界的环境和现实世界环境迁移的这种Transition Model,所以这个我觉得是目前还需要一些科学方法上的创新。” "A currently unresolved challenge is the dynamics Sim-to-real Gap, specifically the environment's dynamics. It is very difficult to align the transition model between the physical world and the real-world environment. So, I think this still requires some innovation in scientific methods."
本节重点
详细精要
其优势是数据质量高,在运动结构上能减少无效数据,对复杂动作(如机器人跳舞、武术)特别有效,是纯强化学习难以达到的。
根本性缺陷:Embodiment Gap (具身鸿沟) 与 Functional Retargeting (功能重定向):
这导致将人的动作映射到机器人上后,常出现关节角度超限、力矩不够、平衡失败等问题。
数据定位:正因为以上缺陷,动捕数据在一定程度上和互联网视频数据一起,被认为是“低质量数据”。
💬 精华片段(中文)
“它只是做了一个运动学上的对应关系,它没有真正地去实现这个操作本身语义上的对应。” "It only establishes a kinematic correspondence; it doesn't truly realize the semantic correspondence of the operation itself."
本节重点
详细精要
其优势在于量非常大,可以用于训练 World Models (世界模型) 去理解世界如何变化,以及提供 affordance (预设用途) 等操作的关键信息。
两个关键分类:Egocentric 与 Human-Centric:
💬 精华片段(中文)
“YouTube videos最大的劣势是它没有力和触觉信息,它的优势是它的量非常大。它能够给我们一些信息,这些信息包括世界是怎么变化的,我们常常讲World Models,就是利用好了这种in-the-wild的数据来训练这样的一个World Models。” "The biggest disadvantage of YouTube videos is that they have no force and tactile information. Their advantage is the sheer volume. They can give us some information, including how the world changes. We often talk about World Models, which make good use of this in-the-wild data for training."
本节重点
详细精要
其内部认为这种方式能“更快规模化”,这与马斯克的第一性原理相符,也类似于其FSD用视频数据驱动汽车的思路。
Sharpa的“点石成金”术:CraftNet与System 0:
💬 精华片段(中文)
“因为有了这样一个System 0的话,所以我们可以达到一个点石成金的作用,就是能够把大量的低质量数据用起来。” "With System 0, we can achieve a 'touchstone' effect, meaning we can make use of a huge amount of low-quality data."
本节重点
详细精要
普遍的共识是将这四层金字塔数据混合起来,作为一个整合的解决方案 (integrated solution),以平衡数据质量和成本。
不存在通用的“黄金配方”:原因有二:
训练目标不一致:
一个经验性的比例估算:
💬 精华片段(中文)
“如果非要我选择一个更重要的点,我会选择数据质量,因为只有有高质量数据,你才能够训练出有用的模型,但是如果我们的数量很难去规模化,其实我们需要做一个折中,这个折中可能就像我刚刚讲的,这种数据金字塔的方式。” "If I had to choose a more important point, I would choose data quality, because only with high-quality data can you train a useful model. But if it's difficult to scale up the quantity, we need a trade-off. This trade-off is likely the data pyramid approach I just mentioned."
本节重点
详细精要
PI也在探索用 Egocentric 视频 补充数据,其研究显示,当模型积累足够真实操作经验后,加入第一人称人类视频可使泛化任务成功率接近翻倍。
Figure AI 与 Sunday Robotics:押注视频规模化:
Sunday Robotics 更极端,直接付钱给普通人在家录制做家务的视频,将数据采集变成众包经济。
中美策略差异化:
💬 精华片段(中文)
“整个硅谷是在往视频数据靠的,减少对遥操的依赖,押注可以被动规模化的采集方式,这和中国公司的方向还是形成了差异化。” "Silicon Valley as a whole is leaning towards video data, reducing reliance on teleoperation, and betting on passively scalable collection methods. This forms a differentiation from the direction of Chinese companies."
本节重点
详细精要
连锁反应:学术团队在使用AgiBot World后,倾向于采购智元的机器人本体做研发,因为在同一款本体上采集的数据训练出的模型效果更好。这形成了“数据开源 → 带来生态 → 生态带来硬件销量 → 硬件产生更多数据”的正向循环。
数据飞轮的希望与 Scaling Law 的未知:
💬 精华片段(中文)
“面对这个数据荒漠,我们算是种下第一棵树,希望将来能变成一片森林。” "Facing this data desert, we are planting the first tree, hoping it will one day become a forest."
| 术语 | 解释 |
|---|---|
| Scaling Law (缩放定律) | 指在大语言模型(LLM)中,通过扩大模型规模、数据量和计算量,模型能力会实现可预测的提升,甚至涌现出新能力。本期讨论其在具身智能领域是否同样适用,尚未有定论。 |
| token | 大语言模型处理文本的最小单元,可以是一个单词或子词。训练数据量常以token计。 |
| 真机数据 / 遥操数据 (Teleoperation Data) | 人类操作员通过外骨骼或操控系统实时遥控机器人在真实环境中完成任务,并全程记录所有传感器信息所得的数据。位于数据金字塔顶层,质量最高,成本也最高。 |
| MOCAP (动作捕捉数据) | 使用光学或视觉设备记录人或物体运动轨迹的技术,在机器人领域用于记录人类操作示范,再将动作映射给机器人。 |
| Open X-Embodiment | 谷歌联合全球33所研究机构发布的开源数据集,聚合了来自22种机器人平台的超过100万条操作轨迹,是目前全球最大的跨机构真机数据集之一。 |
| Sim-to-Real Gap (仿真到现实的鸿沟) | 指在虚拟仿真环境中训练好的机器人模型,部署到充满不确定性和复杂物理特性的真实世界时,表现大幅下降的现象。 |
| Real-to-Sim Gap (现实到仿真的鸿沟) | 指由于真实世界过于复杂、细节无限,很难将其准确复刻并“搬进”到仿真环境中进行高保真建模的挑战。 |
| Isaac Lab | 英伟达(NVIDIA)推出的一个用于机器人强化学习、模仿学习和Sim-to-Real迁移的仿真应用框架,支持大规模并行训练。 |
| Tacmap | Sharpa公司与英伟达合作开发的触觉仿真工具,通过使用深度图(Deformation map)作为介质,并训练翻译模型,实现从仿真到现实的触觉技能迁移。 |
| 翻译模型 (Translation Model) | 在Tacmap的语境下,指一个训练好的神经网络,用于将触觉传感器的原始图像(raw image)“翻译”成包含物理接触信息的形变图(deformation map)。 |
| 域随机化 (Domain Randomization) | 一种解决Sim-to-Real Gap的技术。通过在仿真中随机改变环境参数(如光照、纹理、物理属性),迫使模型学习到任务的核心本质,从而能适应真实世界中未曾见过的变化。 |
| Embodiment Gap (具身鸿沟) | 指人类的物理身体(如手)与机器人的物理身体(如机械爪)在结构、自由度、感知能力(如触觉)等方面的差异,导致人类操作数据或动捕数据难以直接映射到机器人上。 |
| Functional Retargeting (功能重定向) | 指将人类动作映射到机器人时,不仅要模仿动作的运动学轨迹,更要理解和复现该动作的功能性意图。该技术指出当前动捕数据仅停留在运动学层面,未能实现功能层面迁移。 |
| Egocentric Data (自我中心数据) | 以机器人或操作者的第一人称视角(即“从眼睛看出去”的视角)采集的数据,通常包含手臂交互、遮挡和动态变化,对机器人决策训练极为重要。 |
| Human-Centric Data (人类中心数据) | 围绕人类行为、意图、偏好或示范构建的数据,用于教导机器人如何像人一样行动和完成目标。 |
| EgoDex | 苹果公司在2025年5月发布的第一人称视角灵巧操作数据集,由Apple Vision Pro采集,包含手部精确3D关节追踪。 |
| EgoScale | 英伟达在2026年3月发布的模型,通过超过20000小时的人类自我中心视频进行预训练,以构建一个统一的机器人运动空间。 |
| World Models (世界模型) | 指AI模型对物理世界运作规律(如物体恒常性、因果关系、动态变化)的内在表征。高质量的世界模型对机器人的泛化能力至关重要。 |
| affordance (预设用途) | 在交互设计中指物品提供给用户的某种操作可能性。在机器人领域,指模型通过观察物体(如一个杯子),就能判断出可以对其执行的操作(如抓取、倒水)。 |
| System 0 / System 1 | Sharpa公司CraftNet框架中的分层系统。System 1指上层决策策略,给出粗糙的动作意图;System 0指底层触觉反射层,负责根据实时力反馈进行快速、精细的调整和补偿。 |
| π0 (pi-zero) 系列 / Physical Intelligence | 由著名机器人学家Sergey Levine等人创立的机器人公司及其发布的通用机器人模型系列,强调利用多种数据进行训练,并通过强化学习在真实部署中持续进化。 |
| RECAP / RLT | Physical Intelligence公司在π0.6等模型上使用的强化学习微调方法,用于在少量真实交互中显著提升机器人在特定精细操作任务上的速度和成功率。 |
| GR00T N1 | 英伟达在2025年GTC大会上发布的第一代通用具身基础模型,其训练所用真实世界数据中,约80%来自智元开源的AgiBot World数据集。 |
| AgiBot World (智元世界) | 智元机器人在2024年开源的百万级真机遥操作数据集,旨在为具身智能行业提供一个工业级、长程任务的统一数据基准。 |
| 数据飞轮 (Data Flywheel) | 一种良性循环的发展模式:部署更多机器人 → 收集更多真实场景数据(尤其是失败案例) → 用数据训练出更好的模型 → 提升机器人性能 → 促进更多部署。 |
| RL (强化学习, Reinforcement Learning) | 一种机器学习范式,智能体通过与环境互动,执行动作并获得奖励或惩罚,以学习能最大化累积奖励的策略。在机器人领域,常被认为能实现自我进化。 |
| VLA (Vision-Language-Action Model) | 视觉-语言-动作模型,一种多模态机器人基础模型范式,能够直接接收视觉和语言指令,并输出机器人动作控制指令。代表模型有谷歌的RT-2和OpenVLA。 |
| MTBF (平均故障间隔) | Mean Time Between Failures,衡量产品可靠性的关键指标,指系统两次故障之间平均能正常运行的时间。对于进厂工作的机器人,百小时、千小时级别的MTBF是基本要求。 |
| Benchmark (基准) | 一套标准化的测试任务和评价指标,用于公平、统一地衡量不同算法或模型的性能。机器人行业曾因缺乏公开的统一基准而面临认知危机。 |