量子位 前天
机器人感知大升级!轻量化注入几何先验,成功率提升31%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在机器人学习领域,如何让 AI 真正 " 看懂 " 三维世界一直是个难题。

VLA 模型通常建立在预训练视觉语言模型(VLM)之上,仅基于 2D 图像 - 文本数据训练,缺乏真实世界操作所需的 3D 空间理解能力。

当前基于显式深度输入的增强方案虽有效,但依赖额外传感器或深度估计网络,存在部署难度、精度噪声等问题。

为此,上海交通大学和剑桥大学提出一种增强视觉语言动作(VLA)模型空间理解能力的轻量化方法 Evo-0,通过隐式注入 3D 几何先验,无需显式深度输入或额外传感器。

该方法利用视觉几何基础模型 VGGT,从多视角 RGB 图像中提取 3D 结构信息,并融合到原有视觉语言模型中,实现空间感知能力的显著提升。

在 rlbench 仿真实验中,Evo-0 在 5 个需要精细操作的任务上,平均成功率超过基线 pi0 15%,超过 openvla-oft 31%。

Evo-0 提出将 VGGT 作为空间编码器,引入 VGGT 训练过程中针对 3D 结构任务提取的 t3^D token。这些 token 包含深度上下文、跨视图空间对应关系等几何信息。

模型引入一个 cross-attention 融合模块,将 ViT 提取的 2D 视觉 token 作为 query,VGGT 输出的 3D token 作为 key/value,实现 2D – 3D 表征的融合,从而提升对空间结构、物体布局的理解能力。

融合后的 token 与语言指令共同输入冻结主干的 VLM,预测动作由 flow-matching 策略生成。训练中,仅微调融合模块、LoRA 适配层与动作专家,降低计算成本。

研究团队通过在 5 个 rlbench 模拟任务、5 个真实世界操作任务上的全面实验,以及在 5 种不同干扰条件下的鲁棒性评估,证明了空间信息融合方法的有效性。在所有设置中,Evo-0 都一致地增强了空间理解,并且优于最先进的 VLA 模型。

除了上述展示的效果外,在超参数实验中,为了分析超参数如何影响模型性能,团队在 5 个 RLBench 任务上进行了额外的实验。他们重点关注两个方面:训练步数和执行步数,并评估它们对任务成功率的影响。

值得注意的是,仅用 15k 步训练的 Evo-0 已经超过了用 20k 步训练的 π 0,这表明 Evo-0 具有更高的训练效率。

在真机实验部分,实验设计五个空间感知要求高的真实机器人任务,包括目标居中放置、插孔、密集抓取、置物架放置及透明物体操作等。所有任务均对空间精度容忍度极低。

Evo-0 在全部任务中均超越基线模型 pi0,平均成功率提升 28.88%。尤其在插孔与透明物抓取任务中,表现出对复杂空间关系的理解与精准操控能力。

在鲁棒性实验中,论文设计了 5 类干扰条件:(1)引入一个未见过的干扰物体,(2)背景颜色的变化,(3)目标位置的位移,(4)目标高度的变化,(5)相机角度的变化。Evo-0 均有相对鲁棒的结果,并且强于基准 pi0。

综上所述,Evo-0 的关键在于通过 VGGT 提取丰富的空间语义,绕过深度估计误差与传感器需求,以插件形式增强 VLA 模型的空间建模能力,训练高效、部署灵活,为通用机器人策略提供新的可行路径。

论文链接:https://arxiv.org/abs/2507.00416

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

 量子位智库 AI100 季度榜单征集中!征集截至 10 月 10 日。欢迎提名 2025 年 Q3「AI 100」双榜单产品~ 

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 轻量化 传感器 上海交通大学 ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论