新浪财经 昨天
成功率99.25%,越疆空弈DobotWAM具身大模型发布,LIBERO排名第一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

新浪科技讯 6 月 1 日下午消息,深圳具身智能企业越疆发布自研世界动作模型空弈 DobotWAM 具身大模型,该模型在具身智能标准评测基准 LIBERO 上分别完成 LIBERO-Spatial、LIBERO-Object、LIBERO-Goal 和 LIBERO-10 四个标准任务套件,覆盖空间关系理解、物体泛化、目标指令理解以及长时序任务执行等关键能力维度,平均成功率达 99.25%,领先于 π 0.5、π 0、GR00T-N1.5、π 0+FAST 等公开模型,以及业内已有数据公布的其他模型。

其中,空弈 DobotWAM 具身大模型在 LIBERO-Object 上实现 100/100 全部成功,在 Spatial、Goal 和 LIBERO-10 三个套件中均达到 99/100。

(配图:LIBERO 评测结果)

机器人走向真实应用,真正的挑战不再是 " 识别物体 ",而是在动态、多变的开放场景中,理解空间关系、拆解任务目标、生成符合运动结构的动作,并在多步执行中始终保持全局一致。

近两年,视觉 - 语言 - 动作模型成为具身智能动作生成的主流范式,在数据覆盖充分、任务边界清晰的场景下展现了较高效率。然而,过度依赖二维图像模式或离线轨迹模仿,在面对空间扰动、物体变化、长流程任务和真实接触反馈时,仍容易出现动作漂移、目标丢失,或局部动作正确而整体任务失败的情况。这要求机器人模型必须超越单纯的 " 模仿 ",建立起对动作深层次结构的真正理解。

据悉,空弈 DobotWAM 的高成功率,源于其在感知、理解、控制与数据闭环上的系统性设计。模型在视觉 - 语言 - 动作建模的基础上,进一步引入三维空间理解、机器人运动几何约束和真实数据闭环机制,使机器人不仅学会 " 模仿动作 ",更学会 " 理解动作为什么这样做 "。

其核心技术突破包含四个方面:

·  3D-Aware Spatial Representation:将 3D 空间信息引入视觉 - 语言 - 动作建模,使模型不只依赖 2D 图像纹理和像素特征,能够显式感知物体位置、空间关系与操作目标之间的几何结构,具备更强的泛化能力。

·  Joint Dynamic Geometry Loss:将机器人关节动态信息与末端执行器几何约束融入训练 loss,使模型从 " 模仿动作 " 升级为 " 理解真实动作结构 ",从而减少轨迹漂移、姿态不连续和抓取失败,提升长时序任务中的执行稳定性。

·  Advanced VLM Task Decomposition:基于高级 VLM backbone 对复杂语言指令进行语义理解与任务拆解,将长流程操作分解为更清晰的阶段目标和可执行子步骤,避免局部动作正确但全局任务失败。

·  High-Quality Data Flywheel + Real-Robot Recap:构建高质量数据飞轮,以 Recap 真机实验为核心,闭环采集、训练、评测与反馈,持续吸收成功、失败及长尾场景的真实经验,提升从仿真 benchmark 到真实环境执行的迁移能力。

这四项技术彼此耦合,使得空弈 DobotWAM 能够更稳定地完成多物体、多阶段、长时序的机器人操作任务,为具身智能的大规模落地提供了可复用的系统性框架。(文猛)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 科技讯 新浪 核心技术 深圳
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论