具身智能数据战开打！每个普通人都能上手，边采边筛，只投喂机器人爱吃的

现在，一部手机，加一个 " 夹爪 "，就能随时随地完成具身智能数据采集了！

采出来的数据不脏也不废，已经在实际模型训练中跑出了效果。

模型在多步连续任务中动作衔接更稳定；

在真实场景中面对光照变化、环境杂乱、物体遮挡时也更不容易失手，执行鲁棒性显著提升；

而当任务发生小幅变化，比如同类但不同顺序的操作目标出现时，模型也更容易举一反三，做出合理应对。

这套采集系统，模型效果是纯纯地全肯定。

这套可搭载手机的数采终端及其配套应用程序，名叫 RoboPocket，来自具身智能创企穹彻智能。

它是新兴采集设备 UMI（Universal Manipulation Interface）的进阶状态。

和传统 UMI 方案相比，RoboPocket 保持便携易用的基础上，更加轻盈：手机 + 夹爪即是一个节点。

如此一来，每个人——哪怕是普通人，都可以从口袋里掏出 RoboPocket，随时随地采集具身数据。

但这还算不上它最出彩的地方。

最妙的是，RoboPocket 把模型需求前置到采集一线，让你随时接入模型的训练闭环。

采集行为发生时，系统会同步判断每一段数据的训练价值，并即时给出反馈与引导，尽量让采集行为本身就朝着模型真正需要的方向收敛。

每一次采集都直接服务于模型进化，浪费不了一点。

在数据还在生成的过程中，就对其完成了价值筛选。

最终采来交付给模型的数据从采集源头就来得更加清晰，更加准确，对模型也更有用。

点击视频，带你了解穹彻 RoboPocket：

具身模型想 scale up，卡在数据哪一步？

在具身智能领域，数据的重要性几乎是共识性的。

具身模型们嗷嗷待哺，等待大量高质量、多样性的具身数据的投喂。

从 2023 年起，许多团队投入大量资源建设数采厂，希望通过规模化生产来支撑模型训练。

实践很快暴露出一个现实问题，数采流水线建起来了，数据量上来了，模型能力却并没有稳定持续地提升。

原因并不神秘。

数采厂依赖的是预设场景和标准化流程，这种方式在工业数据中行之有效，但在具身智能里，很难覆盖真实世界中大量非标准、非重复的操作情境。

动作容易趋于模式化，任务分布集中，环境变化有限，数据之间高度相似，训练收益很快出现边际递减。

有相关从业人员告诉我们，现在的具身数据一天比一天多了，结果训练效率出现不升反降情况。

而具身模型真正需要的，恰恰是那些发生在真实环境中的、不那么规整的操作过程。

这也是 UMI 出现的背景。

UMI 轻量便携，更易使用，一方面减少了数采成本，更重要的是开始让具身数据采集摆脱了固定场地的限制。

任何人，可以在室内和户外的任何真实世界场景里自然完成操作。

如此一来，采集的数据也是贴近现实分布的。这就弥补了数采厂和真实世界存在 gap 的问题。

但当 UMI 开始被业界认可和逐渐大规模使用后，新的问题也随之显现。

在真实场景中，采集更自由了，但质量控制随之变难了。

动作是否有效？轨迹是否合理？采集节奏是否适合训练？这些问题往往只有数据回传清洗，开始拿来训模型的后处理阶段才能发现。

大量低价值数据被一路送进管线，清洗与返工成本迅速抬升，训练周期被不断拉长。

所以关于 UMI 的 " 不可能三角 " 被抬到了台前——

采集质量、使用便捷性与后处理压力三者难以同时优化。

如果追求采集质量，就往往要牺牲便携性；如果降低门槛提高便携性，比如像传统 UMI 仅靠腕部模组或 " 人 - 夹爪 " 采集，就又很难保证数据的可用性；如果希望用后处理阶段兜底，就意味着要承受高昂的清洗、筛选与修复成本，训练闭环被迫拉长。

现有的 UMI 方案并没有解决 " 采得的数据能不能用 " 这个问题——这一点恰恰对模型训练至关重要。

于是，穹彻团队决定回到问题的原点，重新出发。

他们从第一性原理出发，提出一个关键设想。

如果模型训练最终还是要根据数据结构做判断与筛选，那么为什么这件事不能在数据采集阶段就发生？

这个问题其实是行业迟迟没直面解决的。因为一旦着手解决，就意味着采集逻辑、平台架构、成本结构、人才组织……都得变。

而 RoboPocket 第一次把它变成了现实。

内置一套实时运行的 " 数据价值中枢系统 "

相比于过往的 UMI 设备，RoboPocket 的关键改变集中体现在采集目标本身的定义上。

传统 UMI 的普遍默认采集目标是 " 记录人类操作行为 "。

也就是通过腕部模组、夹爪、轨迹重建等方式，尽可能完整地还原人类执行任务的过程。

在训练初期，这确实能为模型提供基本行为模板。

但随着模型走向更高维度、更长时序、更复杂场景，记录动作本身已不足以满足训练所需。

RoboPocket 开始尝试把采集的目标转向模型的能力缺口。

模型还不会的，才是最值得采的数据。

基于这个理念，RoboPocket 系统内置了一套实时运行的 " 数据价值中枢系统 "。

这套系统不再等数据采完后才去筛选、分类、评估，而是在采集发生的当下，就开始实时进行判断。

不难想象，一旦没有模型视角，采集很容易在堆量的过程中滑向重复、失真和低价值。

只有知道模型此刻真正需要什么样的数据，才有能力搭建好这个中枢系统。

穹彻和上交大卢策吾团队敢揽这个瓷器活，人家是真有公认的金刚钻。

团队长期从事具身模型训练与数据闭环研究，既懂单点采集工具（此前推出过多款具身数据采集硬件），也懂围绕具身模型训练、评估与数据回流的完整闭环研究。

他们最清楚哪些轨迹会变成有效训练信号，哪些看起来热闹但只会拖慢训练，也更清楚模型在不同任务维度上的短板通常出在哪里，应该用什么样的样本去补。

这种能力依赖的不只是工程实现，而是对模型的长期理解与持续验证，所以很难被复制。

采集数据的过程中，RoboPocket 同时在推进并完成三件事——

第一是实时评估。

在每一帧数据生成时，系统都会判断采集到的数据是否具备有效的训练信号，比如操作是否完整、动作是否在预期轨迹内、场景是否具备信息量。

第二是即时引导。

如果系统检测到采集者的操作可能低效或错误，比如动作过快、夹爪超出操作区域、多样性不足等，就会实时发出提醒，引导采集者进行调整，避免采到低价值甚至废弃的数据。

第三是动态调度。

这一环节则直接接入当前模型的能力评估结果。

系统会根据模型在不同任务维度上的表现，识别出当前训练最需要补齐的样本类型，并实时分发相应的高优先级采集任务给采集者。

说句更好理解的话，RoboPocket 就是个 24 小时 stand by 的数据采集主理人。

它即时诊断每一帧数据的质量，智能指导甚至纠正采集员动作，实时互动动态评估数据价值，为后处理提供筛选依据。

这样一来，在采集阶段，数据就和训练目标保持贴合，显著减少冗余，训练信号更加集中。

穹彻团队介绍，RoboPocket 采集的数据在训练中展现出显著优势。

尤其是在开放复杂环境中的多步骤任务中，模型执行的稳定性更强，不容易因光照变化、背景变化或任务干扰而出错，准确识别每一步的上下文意图，在不确定情境下仍保持清晰的目标推进逻辑。

无论是精准完成零食分拣装袋，还是毛巾折叠整理，模型可以保持稳定、高效的协同作业，展现了卓越的双臂协同与长序列操作能力。

此外，在环境复杂度提升、干扰增多的场景下，也能维持较高的成功率和一致性。

这显现出一个重要趋势：

得益于采集过程更贴近真实任务，采集体系增强了训练匹配能力，模型开始从 " 能够粗糙地完成任务 " 向 " 能在非理想条件下可靠完成任务 " 演进。

而数据采集开始成为面向模型能力补齐的持续行为，这让数据采集开始具备闭环属性。

一旦采集与模型训练形成联动，整个数据系统的运行效率将得到显著提升。

从堆量走向边采边筛，数据采集的分水岭来了

如果放进更长的时间尺度来看，RoboPocket 就不能视为一次孤立的产品更新。

机器人学习的发展，本质上是一部数据采集方式不断演进的历史。

最初，机器人只能在实验室中完成标准任务，数据由少数研究人员在封闭环境中录制。

随着具身智能的发展，数据开始走向规模化采集场，遥操作与人机协作带来大规模机器人数据。

2023 年，穹彻智能联合上海交通大学卢策吾团队共同发布 RH20T，机器人操作数据在中国首次实现系统性的规模化采集。但截至这一时期，机器人数据采集依然主要依赖预设场景。

2024 年，斯坦福大学推出的 UMI 让采集设备更加轻量和简单，数据采集开始转向 " 自然发生 "。

2025 年，穹彻智能推出 CoMiner 伴随式数据采集系统，机器人开始走出采集场，进入真实世界，在开放环境中获取更加多样、复杂的操作数据。

梳理这个过程可以看到，具身数据一步步走出搭建的实验场景，愈来愈贴近现实。

2026 年，RoboPocket 的出现，将机器人数据采集，从特定场所与专业系统彻底释放到整个社会中。

手机成为节点，每个普通人可以参与采集。

无可否认，这是一次采集范式从 " 专业体系 " 走向 " 社会化网络 " 的转变。

当然啦，采什么、怎么采、优先级如何，这些都不是由人随意决定的。

这时候，前端连接真实世界的分散场景，后端连接任务库、模型训练与评估系统的 RoboPocket，就起到了数据入口与调度中枢的双角色作用。

正因为有这套持续在线的判断与调度机制，数据采集才第一次具备了真正社会化的前提条件。

数采员可以是每一个普通人，但采集行为始终根据模型需求由数据中枢系统统一牵引调度。

长期来看，会推动具身数据从工具竞争迈向体系竞争。

谁的数据采集流程更早地接入模型反馈、谁的任务设计天然适配训练目标，谁就能更快积累泛化能力与落地鲁棒性。

行业普遍认为具身智能还在上半场，期待着这个领域和大模型一样，能够用暴力美学带来能力涌现。

所有人都在往具身模型里扔更多数据，但真正赢的人，一定率先解决了其它更深层次的问题。

既然如此，对想要持续 scale up 的具身智能行业来说，数据采集从源头就对齐目标就是一场迟早会发生的机制变动。

因为未来模型之间的差距，很可能就源于数据闭环的建设深度。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签