量子位 5小时前
具身智能数据战开打!每个普通人都能上手,边采边筛,只投喂机器人爱吃的
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

现在,一部手机,加一个 " 夹爪 ",就能随时随地完成具身智能数据采集了!

采出来的数据不脏也不废,已经在实际模型训练中跑出了效果

模型在多步连续任务中动作衔接更稳定;

在真实场景中面对光照变化、环境杂乱、物体遮挡时也更不容易失手,执行鲁棒性显著提升;

而当任务发生小幅变化,比如同类但不同顺序的操作目标出现时,模型也更容易举一反三,做出合理应对。

这套采集系统,模型效果是纯纯地全肯定。

这套可搭载手机的数采终端及其配套应用程序,名叫 RoboPocket,来自具身智能创企穹彻智能

它是新兴采集设备 UMI(Universal Manipulation Interface)的进阶状态。

和传统 UMI 方案相比,RoboPocket 保持便携易用的基础上,更加轻盈:手机 + 夹爪即是一个节点。

如此一来,每个人——哪怕是普通人,都可以从口袋里掏出 RoboPocket,随时随地采集具身数据。

但这还算不上它最出彩的地方。

最妙的是,RoboPocket 把模型需求前置到采集一线,让你随时接入模型的训练闭环。

采集行为发生时,系统会同步判断每一段数据的训练价值,并即时给出反馈与引导,尽量让采集行为本身就朝着模型真正需要的方向收敛。

每一次采集都直接服务于模型进化,浪费不了一点。

在数据还在生成的过程中,就对其完成了价值筛选。

最终采来交付给模型的数据从采集源头就来得更加清晰,更加准确,对模型也更有用。

点击视频,带你了解穹彻 RoboPocket:

具身模型想 scale up,卡在数据哪一步?

在具身智能领域,数据的重要性几乎是共识性的

具身模型们嗷嗷待哺,等待大量高质量、多样性的具身数据的投喂。

从 2023 年起,许多团队投入大量资源建设数采厂,希望通过规模化生产来支撑模型训练。

实践很快暴露出一个现实问题,数采流水线建起来了,数据量上来了,模型能力却并没有稳定持续地提升。

原因并不神秘。

数采厂依赖的是预设场景和标准化流程,这种方式在工业数据中行之有效,但在具身智能里,很难覆盖真实世界中大量非标准、非重复的操作情境。

动作容易趋于模式化,任务分布集中,环境变化有限,数据之间高度相似,训练收益很快出现边际递减。

有相关从业人员告诉我们,现在的具身数据一天比一天多了,结果训练效率出现不升反降情况

而具身模型真正需要的,恰恰是那些发生在真实环境中的、不那么规整的操作过程。

这也是 UMI 出现的背景。

UMI 轻量便携,更易使用,一方面减少了数采成本,更重要的是开始让具身数据采集摆脱了固定场地的限制。

任何人,可以在室内和户外的任何真实世界场景里自然完成操作。

如此一来,采集的数据也是贴近现实分布的。这就弥补了数采厂和真实世界存在 gap 的问题。

但当 UMI 开始被业界认可和逐渐大规模使用后,新的问题也随之显现。

在真实场景中,采集更自由了,但质量控制随之变难了。

动作是否有效?轨迹是否合理?采集节奏是否适合训练?这些问题往往只有数据回传清洗,开始拿来训模型的后处理阶段才能发现。

大量低价值数据被一路送进管线,清洗与返工成本迅速抬升,训练周期被不断拉长。

所以关于 UMI 的 " 不可能三角 " 被抬到了台前——

采集质量、使用便捷性与后处理压力三者难以同时优化

如果追求采集质量,就往往要牺牲便携性;如果降低门槛提高便携性,比如像传统 UMI 仅靠腕部模组或 " 人 - 夹爪 " 采集,就又很难保证数据的可用性;如果希望用后处理阶段兜底,就意味着要承受高昂的清洗、筛选与修复成本,训练闭环被迫拉长。

现有的 UMI 方案并没有解决 " 采得的数据能不能用 " 这个问题——这一点恰恰对模型训练至关重要。

于是,穹彻团队决定回到问题的原点,重新出发。

他们从第一性原理出发,提出一个关键设想。

如果模型训练最终还是要根据数据结构做判断与筛选,那么为什么这件事不能在数据采集阶段就发生?

这个问题其实是行业迟迟没直面解决的。因为一旦着手解决,就意味着采集逻辑、平台架构、成本结构、人才组织……都得变。

而 RoboPocket 第一次把它变成了现实。

内置一套实时运行的 " 数据价值中枢系统 "

相比于过往的 UMI 设备,RoboPocket 的关键改变集中体现在采集目标本身的定义上。

传统 UMI 的普遍默认采集目标是 " 记录人类操作行为 "。

也就是通过腕部模组、夹爪、轨迹重建等方式,尽可能完整地还原人类执行任务的过程。

在训练初期,这确实能为模型提供基本行为模板。

随着模型走向更高维度、更长时序、更复杂场景,记录动作本身已不足以满足训练所需

RoboPocket 开始尝试把采集的目标转向模型的能力缺口。

模型还不会的,才是最值得采的数据。

基于这个理念,RoboPocket 系统内置了一套实时运行的 " 数据价值中枢系统 "

这套系统不再等数据采完后才去筛选、分类、评估,而是在采集发生的当下,就开始实时进行判断。

不难想象,一旦没有模型视角,采集很容易在堆量的过程中滑向重复、失真和低价值。

只有知道模型此刻真正需要什么样的数据,才有能力搭建好这个中枢系统。

穹彻和上交大卢策吾团队敢揽这个瓷器活,人家是真有公认的金刚钻。

团队长期从事具身模型训练与数据闭环研究,既懂单点采集工具(此前推出过多款具身数据采集硬件),也懂围绕具身模型训练、评估与数据回流的完整闭环研究。

他们最清楚哪些轨迹会变成有效训练信号,哪些看起来热闹但只会拖慢训练,也更清楚模型在不同任务维度上的短板通常出在哪里,应该用什么样的样本去补。

这种能力依赖的不只是工程实现,而是对模型的长期理解与持续验证,所以很难被复制。

采集数据的过程中,RoboPocket 同时在推进并完成三件事——

第一是实时评估

在每一帧数据生成时,系统都会判断采集到的数据是否具备有效的训练信号,比如操作是否完整、动作是否在预期轨迹内、场景是否具备信息量。

第二是即时引导

如果系统检测到采集者的操作可能低效或错误,比如动作过快、夹爪超出操作区域、多样性不足等,就会实时发出提醒,引导采集者进行调整,避免采到低价值甚至废弃的数据。

第三是动态调度

这一环节则直接接入当前模型的能力评估结果。

系统会根据模型在不同任务维度上的表现,识别出当前训练最需要补齐的样本类型,并实时分发相应的高优先级采集任务给采集者。

说句更好理解的话,RoboPocket 就是个 24 小时 stand by 的数据采集主理人

它即时诊断每一帧数据的质量,智能指导甚至纠正采集员动作,实时互动动态评估数据价值,为后处理提供筛选依据。

这样一来,在采集阶段,数据就和训练目标保持贴合,显著减少冗余,训练信号更加集中。

穹彻团队介绍,RoboPocket 采集的数据在训练中展现出显著优势

尤其是在开放复杂环境中的多步骤任务中,模型执行的稳定性更强,不容易因光照变化、背景变化或任务干扰而出错,准确识别每一步的上下文意图,在不确定情境下仍保持清晰的目标推进逻辑。

无论是精准完成零食分拣装袋,还是毛巾折叠整理,模型可以保持稳定、高效的协同作业,展现了卓越的双臂协同与长序列操作能力。

此外,在环境复杂度提升、干扰增多的场景下,也能维持较高的成功率和一致性。

这显现出一个重要趋势:

得益于采集过程更贴近真实任务,采集体系增强了训练匹配能力,模型开始从 " 能够粗糙地完成任务 " 向 " 能在非理想条件下可靠完成任务 " 演进。

而数据采集开始成为面向模型能力补齐的持续行为,这让数据采集开始具备闭环属性。

一旦采集与模型训练形成联动,整个数据系统的运行效率将得到显著提升。

从堆量走向边采边筛,数据采集的分水岭来了

如果放进更长的时间尺度来看,RoboPocket 就不能视为一次孤立的产品更新。

机器人学习的发展,本质上是一部数据采集方式不断演进的历史。

最初,机器人只能在实验室中完成标准任务,数据由少数研究人员在封闭环境中录制。

随着具身智能的发展,数据开始走向规模化采集场,遥操作与人机协作带来大规模机器人数据。

2023 年,穹彻智能联合上海交通大学卢策吾团队共同发布 RH20T,机器人操作数据在中国首次实现系统性的规模化采集。但截至这一时期,机器人数据采集依然主要依赖预设场景。

2024 年,斯坦福大学推出的 UMI 让采集设备更加轻量和简单,数据采集开始转向 " 自然发生 "。

2025 年,穹彻智能推出 CoMiner 伴随式数据采集系统,机器人开始走出采集场,进入真实世界,在开放环境中获取更加多样、复杂的操作数据

梳理这个过程可以看到,具身数据一步步走出搭建的实验场景,愈来愈贴近现实。

2026 年,RoboPocket 的出现,将机器人数据采集,从特定场所与专业系统彻底释放到整个社会中

手机成为节点,每个普通人可以参与采集。

无可否认,这是一次采集范式从 " 专业体系 " 走向 " 社会化网络 " 的转变。

当然啦,采什么、怎么采、优先级如何,这些都不是由人随意决定的。

这时候,前端连接真实世界的分散场景,后端连接任务库、模型训练与评估系统的 RoboPocket,就起到了数据入口与调度中枢的双角色作用

正因为有这套持续在线的判断与调度机制,数据采集才第一次具备了真正社会化的前提条件。

数采员可以是每一个普通人,但采集行为始终根据模型需求由数据中枢系统统一牵引调度。

长期来看,会推动具身数据从工具竞争迈向体系竞争。

谁的数据采集流程更早地接入模型反馈、谁的任务设计天然适配训练目标,谁就能更快积累泛化能力与落地鲁棒性。

行业普遍认为具身智能还在上半场,期待着这个领域和大模型一样,能够用暴力美学带来能力涌现。

所有人都在往具身模型里扔更多数据,但真正赢的人,一定率先解决了其它更深层次的问题

既然如此,对想要持续 scale up 的具身智能行业来说,数据采集从源头就对齐目标就是一场迟早会发生的机制变动。

因为未来模型之间的差距,很可能就源于数据闭环的建设深度。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

普通人 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论