顺丰邮政仓库干活的机器人，顺手拿了个具身高考第一

现在，具身智能行业出现了一个非常明显的变化。

全球机器人公司，开始集体「卷真机」了。

前几天，Figure 做物流分拣，直接开了一场 7 × 24 小时直播；

Physical Intelligence 也在不断尝试让机器人做各种家务；特斯拉的 Optimus，更是被马斯克反复叮嘱要「useful work」。

整个行业越来越清楚一件事：

机器人时代，比的已经不是谁的 Demo 更炫，谁的机器人更会表演。

而是谁能扎进物理世界，真 · 干出活来。

毕竟，机器人一旦进入现实环境，问题就完全变了。

桌面会反光，地面会脏乱，物体会遮挡，动作会累积误差。

看似简单的擦桌子、抓包裹、放东西，背后是感知、规划、控制和记忆能力的综合考验。

玩家们都在说自己是「劳动小能手」。那到底，谁最能干活？

公平起见，还得把各家模型拉到真实世界里掰掰手腕。

最新进展，全球最大规模具身智能真机评测平台RoboChallenge Table30 榜单再次更新。

结果，行业格局一下清晰了，玩家水平高下立见。

登顶的，是一家清华系明星具身机器人公司的模型——星动纪元自研具身模型 Era0，以 64.33% 的成功率、76.34 的综合得分，拿下全球第一。

多凡尔赛一句，它不是靠某一项刷分。在总计 30 项任务中，星动纪元 Era0 有17 项任务取得SOTA表现，创下榜单纪录。

别看这些任务五花八门，说到底，考的其实是一件事：

具身大脑在物理世界持续「干活」的能力。

登顶具身智能界「最硬」榜单

RoboChallenge 是行业公认的「真机高考」。

它不仅被纳入 ICRA 2026 Competition，也进入 CVPR 2026 Workshop Competition（GigaBrain Challenge Track），获得国际顶级机器人与计算机视觉会议的官方认可。

登顶 RoboChallenge，意味着模型通过了真实世界考场。

这对具身玩家们太有吸引力了。

Physical Intelligence 的 π 0/ π 0.5、微软的 CogACT、OpenVLA 等全球头部 VLA 模型，经常在该榜单上打得火热。

而这一次，竞争依旧激烈。一组数据足以窥见其战况：

参赛「选手」共22 个；30 个任务总共跑了1088 次；总 episode 数量达到25627次。

这不是跑几个 Demo 视频，而是真刀真枪地连续真机测试。

其中，两项任务尤其被行业盯着看：

做素食三明治（make vegetarian sandwich）

擦桌子（wipe the table）

因为……太难了啊！

先说做三明治。

这个任务看起来像厨房小游戏，实际上考的是长程任务规划。

机器人不仅要知道先拿什么、后放什么，还得记住自己做到哪一步。

面包放错顺序，食材遗漏，动作循环，整个任务直接失败。

它本质上不是考机器人会不会抓。而是在考机器人能不能像人一样，理解完整流程。

再看擦桌子。

整个过程看似日常，但所有物品全白——用白色纸张擦白色桌子并将废纸扔进白色垃圾桶。

这背后同时涉及：视觉识别、长程任务规划、接触控制、环境状态记忆。

尤其真实世界里的桌面污渍，不是一个标准化目标。

它可能很小、随机分布、位置变化，甚至会因为反光、阴影、遮挡，导致机器人误判「已经擦干净了」。

过去很长时间，这两类任务，几乎就是具身模型能力天花板的代名词。

而星动纪元 Era0，把这两道公认难题一起破了。

做素食三明治，Era0 成功率为 20%，是 Top8 模型中唯一在此任务上取得非零成绩的模型。

擦桌子，Era0 成功率 60%，也是 Top8 模型中唯一实现非零成绩的模型。

另外，Era0 还在两个任务上直接拿下双满分（成功率 100%，过程分也是 100）：

将开瓶器放入抽屉（put opener in drawer）

拧开水龙头（turn on faucet）

这意味着 Era0 不是偶尔灵光一现，而是真正在不同任务、不同物体、不同交互环境下，具备了稳定执行能力。

我们看了下，榜单设置的 30 项任务，考察维度非常广。

在双臂协同、柔性物体操作、多视角感知、分类任务、长时序任务等多个灵巧操作核心维度上，Era0 均位列第一。

Era0 为什么能赢？

Era0 霸榜背后，真正值得行业关注的，其实不是成绩本身。

而是星动纪元正在押注的一条充满想象力的技术路线。

它没有继续沿用传统 VLA 逻辑，也不是单纯堆一个 World Model。

而是直接把两者深度融合。

这件事，在行业里其实很少有人真正做成。

原因很简单。过去两年，VLA 确实一度成为具身智能主流方案。

大家希望通过视觉 + 语言 + 动作统一建模，让机器人像大模型一样理解世界。但问题也越来越明显。

首先是缺乏长程规划。

很多机器人只能完成「下一步」。但现实任务不是单步选择题，更像连续剧情。

机器人不仅得知道下一步干什么，还得知道自己现在处于哪个阶段，后面会发生什么。

其次是幻觉。

模型可能「以为」自己完成了动作。但真实物理世界里，东西根本没拿起来，污渍也没擦掉。

最关键的，还是持续状态理解能力不足。

△AI 生成

如果你想让机器人在物理世界持续「干活」，大脑至少得具备 3 层能力：

第一层：看得准、定位稳。

现实没有标准答案，弱光、堆叠、反光都是日常。

很多模型不是不会抓，是压根看不清。

我们不需要「一眼看懂万物」的幻觉，只想要一个次次认对、次次定位准的靠谱执行者。

第二层：想得清、走得通。

也就是时序记忆 + 长程规划。

在多步骤、有先后顺序的任务里，它能不迷路、不循环，按部就班把多步骤任务走完。

第三层：控得稳、能落地。

要求真机动作稳定、泛化迁移强、学习迭代快。

注意，使用者可能不需要一招制胜的高手，动作稳、误差小、能批量干活的扎实工程师更得人心。

△AI 生成

而要实现这些，仅靠模仿学习成功的 VLA 是做不到的。

问题在于知其然，但不知其所以然。

比如，传统 VLA 缺乏物理因果认知，只会复刻示范动作流程，无法理解动作背后的物理逻辑、空间关系与交互原理，不明白为何要这么操作。

一旦现场环境、物料姿态、作业位置出现细微变化，原有动作立刻失效，无法灵活调整。

同时，它不懂行为因果，无法预判操作风险、推演行为结果，既不能自主排查失误，也难以举一反三适配新场景，只能固守既定范式。

单纯依靠模仿学习存在天然上限，根本满足不了大规模落地中灵活作业、自主进化的实际需求。

引入世界模型是最好的解决方案。

因为它本质上是在让机器人提前脑补未来，以便尽早规划下一步动作。

从行业首个原生内嵌世界模型的机器人基础底座 PAD，到全球首个具身领域世界模型策略框架 VPP，星动纪元一直没把世界模型当成外挂。

视频，是比语言更原生的理解物理世界的方式。

他们认为，这是所有技术路线的第一性原理。

转折点出现在 2025 年 1 月，星动纪元第一次真正意义上，将 VLA、世界模型深度融合。

UP-VLA 的推出，首次提出语言推理和视觉预测可以同时对决策提供帮助。

相当于给机器人装上了「边干活边脑补」的能力。

但世界模型很快又遇到一个行业级难题，真机数据太贵。

于是，星动纪元又开始了下一步研究——让世界模型自己生成数据。

2025 年 10 月，其联合斯坦福 Chelsea Finn 团队，推出「可控生成式世界模型」Ctrl-World。

行业第一次让世界模型变成数据仿真器。

机器人不再完全依赖海量真机数据，也能持续提升动作精度和稳定性。

今年 1 月，他们又推出了「VLA 策略 + 世界模型协同进化框架」VLAW。

核心是把此前的 Ctrl-World 与 VLA 做成双向数据闭环，互相校准、互相增强。

VLA 和世界模型，开始进入协同进化阶段。

这件事很重要。

本质上，它改变了机器人学习物理世界的方式——不是让机器人记住怎么拿杯子，而是真正理解「拿起来」这件事。

现在回过头来看，知道 Era0 为啥会在复杂任务里展现出强泛化能力了吧。

这不是单一模型的胜利，而是世界模型加持下，星动纪元一整条技术路线开始成熟。

强能力支撑硬任务

除了榜单成绩，Era0 最值得关注的，还有它展现出的非常完整的能力结构。

很多模型会一两项绝活。但 Era0 更像一个真正开始成熟的「具身执行系统」，感知、记忆、控制、执行，开始形成闭环。

而这些能力，几乎都能直接映射到真实工作场景。

时序记忆决策：记得住、不循环

很多机器人，看起来已经很聪明了，能抓、能放、能移动。

但一旦任务步骤开始变长，问题马上暴露。它会忘，忘记自己做到哪一步，甚至会无限循环同一个动作。

这也是为什么，长程任务一直是具身智能最难方向之一。

机器人不仅要知道下一步干什么，还得知道：我现在在哪一步？前面发生了什么？后面还剩什么？

△AI 生成

Era0 这次的重要突破之一，就是短程时序记忆机制。

它会持续追踪历史动作和任务状态。

终于，终于，机器人开始「记事」了。

这一能力，在制作素食三明治任务里尤其明显。

这个任务看似简单。实际上是典型的长程时序依赖任务。很多模型，做到一半就「失忆」，成功率全部为 0。

只有 Era0 成功跑通完整流程，成为全球首个突破该任务的模型。

而这背后对应的，其实正是机器人开始具备真正的「工作记忆」。

一旦进入物流场景，这个能力会更加重要。

因为真实流水线，本身就是连续流程。包裹入库、扫码、分拣、装车，每一步都存在状态依赖。

机器人如果记不住流程，就一定会重复抓取、漏拣错拣。

柔性物体操作：控得柔、抓得稳

柔性物体操作，一直被认为是具身智能最难啃的骨头之一。

因为现实世界里，大量物体根本不是标准刚体。

抹布会变形，软包会塌陷，纸张会飘动，生鲜还会滑。机器人只要力度稍微不对，结果就是掉落、损坏、散开。

而 Era0 通过规模化跨本体预训练，以及更精细的夹爪控制，让机器人能够同时适配刚性、柔性和易碎物体。

动作平滑，低抖动。

最关键的是，它开始有「轻重感」了。

在碎纸清理、叠抹布等柔性任务中，Era0 成功率达到 43.3%，远高于行业平均水平。

而这一能力，一旦进入物流、生鲜、商超场景，价值会立刻放大。

因为现实仓库里，最难处理的往往不是标准纸箱，而是软包、冷链、生鲜、高价值易碎品。

这些场景过去长期依赖人工，因为不敢交给机器人，就怕它太暴力。

真机执行鲁棒：误差小、可重复

最后我想聊的一个重要能力，是稳定。

很多机器人 Demo，看起来都很流畅。但行业真正关心的问题，其实只有一个：它能连续跑多久？

毕竟机器人进入工厂后，面对的不是一次性表演，而是 7 × 24 小时持续作业。

动作误差会不断积累，轨迹抖动会持续放大。

很多机器人刚开始动作很漂亮，可跑半小时后，误差就开始失控。

工业场景真正稀缺的，从来不是「能完成一次」，而是能不能稳定重复一万次。

Era0 这次展现出的另一项核心能力，就是极强的真机执行鲁棒性。

背后依赖的是动作插值平滑，以及真机推理优化。

这一点，在倾倒薯条入盘、扫码等高精度任务里体现得很明显。Era0 成功率达到 90%-100%。

动作轨迹连续平滑，没有明显抖动和偏移。

这意味着，它已经不只是「会做动作」，开始具备工程级稳定性。

而这，恰恰是机器人真正进入规模化产业落地之前，最关键的一道门槛。

不只会比赛，更能进厂干活

具身行业现在有个很有意思的现象：全球机器人公司，都越来越会 " 直播 " 了。尤其是 Figure。

这里我们不打算讨论直播的含金量。毕竟物流分拣本身，并不是什么只有一家能做到的高难动作。

国内不少公司都能做。问题在于，直播场景，很多时候依然是高度可控环境。

物料规整，流程固定，工况理想。

而真正的物流现场，完全是另一回事。

纸箱、软包、异形件混杂；光照、噪音、温度不断变化；设备误差、异常工况、突发情况每天都在发生。

能在 Demo 里连续运行，不等于能真正进入生产系统。

行业真正稀缺的，也从来不是「会不会做演示」，而是能不能长期稳定干活。

这恰恰是星动纪元正在建立的核心优势。

事实上，在 RoboChallenge 之前，星动纪元已经在多个权威真机赛事里展现过统治力。

不久前，星动纪元具身模型在权威具身世界模型测评 WorldArena 中，斩获具身任务全球第一；

在全球具身灵巧操作难度顶尖的真机赛事 Benjie ’ s Humanoid Olympic Games 上，该公司还击败公认最强大脑 PI*0.6，一举拿下剥橘子、开锁、翻袜子三项任务全球第一。

但比冲榜更重要的，还有落地。

很多公司还在讲未来机器人会进入工厂，星动纪元已经开始交付了。

目前，星动纪元已在物流领域率先实现行业首个具身智能 PMF 落地。

公司已与顺丰、中国邮政等企业展开深度合作，在全国 5 个省市的 10 余个物流中心，稳定承接真实分拣作业。

这甚至引起海外机器人垂直媒体 Bots n Beans 创始人 Peter Kappes 的注意。

（星动纪元）已部署。而 Figure ……目前尚未正式宣布任何物流合作。

具身智能行业里，有人还在证明「机器人能干活」。

有人已经开始让机器人批量入厂干活了。

据公开信息，星动纪元在 2026 年 Q2 已开启千台级批量交付，同比增速达 300%。

One more thing

从某种意义上，RoboChallenge 这次把整个行业重新拉回了现实世界。

能不能在随机环境里持续工作，能不能真正进入生产系统，是这次大考最重要的地方。

Era0 的登顶，也同时证明了两件事：

一是它能比赛，说明技术先进；二是它能干活，商业模式成立。

而同时做到这两件事的具身大脑，才会是真正稀缺的下一代基础设施。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签