量子位 06-13
让机器人学会系统2慢思考,叠衣服倒咖啡等不在话下
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

机器人也能慢思考了!

上海交通大学携手智元机器人等团队推出了 Hume ——融合系统 2(System-2)慢思考的双系统 VLA 模型。通过动作价值引导的动作采样与双系统级联动作去噪,实现深度推理与实时控制的完美结合。

在涵盖长时序规划、复杂柔性物体操作等多种任务场景的广泛实验中,Hume 在多种机器人平台上均展露出了惊艳表现,显著超越当前的最先进模型。

比如像折叠短裤、倒咖啡等操作,Hume 加持下机器人也能得心应手。在各种复杂场景中达到了 91% 的平均成功率。

VLA 模型缺失的慢思考能力

视觉 - 语言 - 动作(VLA)模型在构建通用机器人策略方面取得了显著进展,OpenVLA、π 0、GR00T 等最新研究已在不同任务中展示了较强的适应能力。

然而当前的 VLA 模型大多依赖于直觉反应模式,即根据当前环境 " 本能地 " 预测动作,这使得它们在解决复杂、长时序的决策任务时表现不佳。

与之相对的是,系统 2 慢思考已经通过测试时计算大幅提升了大语言模型(LLM)解决复杂逻辑推理问题的能力。但将这种思考范式应用在需要与物理世界交互的机器人上仍是一个巨大挑战。

首先,如何让 VLA 模型能够在高维连续的动作空间内进行系统 2 慢思考。大语言模型的输出是离散的词元,这使得大语言模型能够像人类一样用语言自然地进行系统 2 慢思考。然而 VLA 模型的输出是一组高维的连续动作值,如何有效利用这些高维连续动作进行系统 2 慢思考成为赋予 VLA 模型 " 慢思考 " 能力的首要挑战。

其次,系统 2 慢思考极大的推理时间开销与机器人的高频实时控制要求之间存在显著矛盾。系统 2 慢思考依赖于模型在推理时对不同输出的探索与重复采样,因此需要耗费大量时间,而机器人控制任务又需要模型快速地推理以产生流畅连续的运动轨迹。在平衡模型推理时间与机器人实时控制需求的问题上,Helix,GR00T 等研究使用潜向量(latent vector)连接两个不同推理频率的系统,有效解决了大参数模型推理缓慢背景下的高频机器人控制问题。然而,使用潜向量连接两个系统不仅无法确保潜向量能在两个系统间传递恰当的信息,还会导致训练过程的复杂度增加。因此,使用一种适当的表征连接两个系统成为 " 慢思考 "VLA 模型迈向真实机器人部署的第二个挑战。

系统 2 慢思考赋能 VLA 模型

为应对以上挑战,本文提出 Hume ——引入系统 2 慢思考的双系统 VLA 模型,赋予机器人深度思考和长时规划的能力。给定视觉观察和语言任务指令,系统 2 首先通过动作去噪生成模块产生多个候选动作,随后使用动作价值估计模块预测所有候选动作的状态 - 动作价值(即 Q 值),并将 Q 值最高的候选动作传递给轻量级的系统 1。之后系统 1 利用级联动作去噪根据实时观测对候选动作进一步细化,最终输出高频率的连续动作指令,实现机器人流畅且精准的控制。

动作价值引导的系统 2 慢思考:Hume 通过动作价值估计模块,对具有不同噪声水平的候选动作估计其状态 - 动作价值,选择出价值最高的候选动作,实现深度思考和高质量动作选择,显著提升机器人对复杂任务的规划与决策能力。

级联动作去噪的系统 1 高频控制:系统 1 接收系统 2 选定的未完全去噪的动作片段,并根据实时观测去除动作片段上的剩余噪声,保证动作流畅、连续且精准,满足机器人对实时、高频控制的需求。

异步双系统协同架构:系统 2 以较低频率进行动作价值引导的深度慢思考,系统 1 以高频率快速推理执行动作,两者通过异步机制协同工作,兼顾推理精度和实时响应,解决了系统 2 思考速度较慢与机器人的高频实时控制要求之间的矛盾。

具体来说,给定视觉观察和语言任务指令 L,模型首先通过预训练视觉语言模型处理输入,利用动作去噪生成模块生成多个候选动作。随后,动作价值估计模块输出每个候选动作的状态 - 动作价值,选出最优动作。接着,轻量级系统 1 接收该最优候选动作,采用级联动作去噪对动作序列进行细化处理,输出高频率的连续动作指令,以供机器人实时执行。

该模型包含三个关键组件 : ( 1 ) 动作去噪生成模块基于预训练视觉语言模型生成候选动作,学习建模多模态输入与机器人动作的映射关系; ( 2 ) 动作价值估计模块负责估计候选动作的状态 - 动作价值,选择当前状态下的最优动作; ( 3 ) 系统 1 利用级联动作去噪实现动作细化与实时控制。

结果发现,得益于系统 2 深度慢思考与系统 1 高频快速推理的有机结合,Hume 显著提升了机器人在长时序和复杂任务中的控制精度。

动作价值引导的系统 2 思考

在系统 2 中,团队设计了一种基于动作价值引导的慢思考机制,使模型能够从多个备选动作中选择最优方案。团队首先通过动作去噪生成模块学习映射函数 F,从观测中生成候选的机器人动作。

该过程基于流匹配去噪方法,预测 " 噪声动作 " 中的剩余噪声。去噪过程从随机噪声开始,通过前向欧拉方法逐步去噪。在推理阶段,基于相同观测,动作去噪生成模块产生 N 个不同噪声级别的候选动作片段:

其中 ξ 控制相邻候选间的噪声间隔,n 为从 1 到 N 之间的整数,这意味着多数生成的候选动作均带有一定水平的噪声。

为了评估动作质量,团队设计了值查询头来估计状态 - 动作值。

具体而言,团队引入特殊查询标记并将其附加到 VLM 输入序列末尾。在经过 VLM 的前向推理过程后,查询标记包含了当前状态下的环境观测信息。之后动作片段将与查询标记共同输入动作价值估计模块,根据输入估计对应动作片段的状态 - 动作价值。动作价值估计模块通过离线强化学习方法训练,其优化目标为:

其中,R ( θ ) 是正则化项,用于防止 Q 值过度估计。

为了验证训练流程能有效优化动作价值估计模块,团队通过主成分分析法 ( PCA ) 将真值动作和候选动作及其对应的状态 - 动作值投影到同一二维空间中,生成如下图所示的值映射图。

该值映射图包含表示不同状态 - 动作值大小的区域,真值动作全部位于高值区域,这证明了值查询头能够估计合理的状态 - 动作值。

从下图中可以直观地看出,随着候选动作接近真值动作,其对应的 Q 值也随之增加,这为基于动作价值估计的动作选择提供了可靠基础。

紧接着,系统 2 通过 Best-of-N 选择策略,从 N 个候选中选择具有最高状态 - 动作值的动作作为最优候选。这种方法使模型能够模拟人类的深度慢思考过程,通过评估多个候选动作选择最佳动作轨迹。

双系统级联动作去噪

为了实现快速响应的机器人控制,系统 1 需要轻量化以实现高频快速推理。系统 1 由 DINOv2-small 视觉编码器和轻量级 transformer 组成,用于级联动作去噪。给定系统 2 选择的候选动作片段,系统 1 将当前观测的图像、机器人状态和从中分割的子动作片段作为输入,通过对子动作片段继续去噪生成精细的机器人动作。

具体而言,在时间步 t,系统 2 选择的动作片段被分割成个子动作片段,系统 1 依次对这些子动作片段进行级联去噪。同时,由于系统 2 生成的候选动作片段未完全去噪,因此需要系统 1 继续去噪以获得准确的动作。系统 1 的去噪过程并不从随机噪声开始,而是从子动作片段开始:

在推理阶段,系统 2 和系统 1 以异步机制协作,提高整体控制频率。具体而言,在初始时间步 t,系统 2 的动作去噪生成模块以较低频率生成 N 个时间跨度 H 的动作作为候选。接着,从最优候选的 h 步分割出子动作片段并传递给系统 1。系统 1 以较高的频率去除中的剩余噪声,产生完全去噪的动作并在机器人上执行。

这种双系统级联动作去噪架构使模型能够平衡深度慢思考与机器人控制的高实时性要求,为复杂任务执行提供了高效灵活的解决方案。

实验验证

团队在多样化的机器人学习场景中评估 Hume 的能力,包括 3 种仿真环境和 3 个不同的真实机器人平台,涵盖了 15 个机器人学习场景和 21 个真实世界操作任务。团队在 SimplerEnv 和 LIBERO 仿真基准上验证了 Hume 的多任务学习能力,在 WidowX、Franka 和 AgiBot G-1 真实机器人平台上测试了其泛化能力。

同时,还进行了全面的消融研究,验证了动作价值引导的慢思考和双系统级联去噪等关键模块的有效性。

实验表明,Hume 在各种评估中均取得了惊艳表现,在 LIBERO 上达到了 98.6% 的平均成功率,在真实 WidowX 任务中取得 91% 的平均成功率,显著超越了现有的通用机器人控制策略。

1. 系统 2 慢思考赋能 VLA

动作价值引导的慢思考能力:HUME 通过系统 2 的动作价值估计模块实现了机器人操作的 " 慢思考 ",使得机器人能够在面临复杂任务时进行长期规划。为了更有效的说明这一点,团队在 Push-T 任务中对 Hume 的推理过程进行了详细可视化,展示了系统 2 采样的多个候选动作轨迹和系统 1 最终执行的精确动作。如图所示,系统 1 去噪后的动作更平滑、更精确,有效完成了精细操作任务。

失败恢复能力:Hume 展现了卓越的失败恢复能力,这是其系统 2 慢思考的重要体现。当机器人进入错误的 state 时,Hume 能够通过动作价值引导的慢思考从多个候选动作中选择最佳方案引导机器人恢复。与之对比,常见的模仿策略如 π ₀和 GR00T 在遇到训练数据中未出现的错误状态时常常无法恢复。实验表明,即使在相同的错误状态下,Hume 通过重复采样未完全去噪的候选动作,并基于动作价值估计选择最佳动作,成功率显著高于其他方法。在真实 WidowX 实验中,当其他模型因抓取失败而完全放弃任务时,Hume 能够在多次尝试后调整轨迹并成功完成任务,展示了系统 2 慢思考能力在复杂环境中的适应性优势。

2. 仿真与真实世界机器人惊艳表现

多任务仿真评估:团队将 Hume 与最新的通用操作策略进行比较,包括 RT-1、RT-1-X、RT-2-X、Octo、OpenVLA、HPT、TraceVLA、RoboVLM、SpatialVLA、GR00T 和 π ₀等,在 SimplerEnv 和 LIBERO 仿真基准上评估了 Hume 的性能。

在 SimplerEnv 基准中,Hume 在 WidowX 多任务上取得了 72.6% 的平均成功率,比 π ₀高出 32.5%,比 OpenVLA 高 64.8%;在 Google 机器人任务上,达到了 76.4% 的平均成功率,比 π ₀高出 19.6%。在 LIBERO 基准测试中,Hume 取得了 98.6% 的最高平均成功率,比 π ₀高出 4.4%,比 GR00T 高出 4.7%。

真实世界机器人控制:团队在三种不同的真实机器人平台包括 WidowX、Franka 及人型机器人 AgiBot G-1 上进行了广泛测试。任务设计涵盖了不同难度的操作,包括工具使用、柔性物体物体操作和长时序复杂任务等。在 WidowX 上,团队比较了代表性的单系统 VLA 模型和双系统 VLA 模型在多种任务中的表现。

结果显示,在简单任务场景中,大多数策略都表现出一定的泛化能力,但在更复杂的任务中,GR00T、π ₀ -FAST 和 OpenVLA 等策略常常遇到抓取失败等问题。

相比之下,Hume 利用动作价值引导的慢思考机制使得模型有效地从失败中恢复,在各种复杂场景中展示了卓越的性能,达到了 91% 的平均成功率。在 Franka 机械臂和人型机器人 AgiBot G-1 上,Hume 在涉及日常长期任务、可变形物体操作等复杂场景中同样表现出色。特别是在 AgiBot 的折叠短裤这一任务中,Hume 达到 88% 的成功率,比 π ₀高出 15%。这些结果表明,Hume 在真实环境中具有强大的适应性和操作精度,能够有效处理真实世界中复杂的机器人控制任务。

3. 系统 1 系统 2 协同框架的消融分析

双系统级联去噪的精细控制:团队通过严格的消融实验验证了双系统级联去噪在实现精确机器人控制中的关键作用。该机制允许系统 1 根据高频观察输入消除残余噪声,实现动作的精确执行。实验结果显示,当移除级联去噪机制时,模型性能在 SimplerEnv 基准上平均下降 3.2%,在 LIBERO 基准上下降 2.7%,在真实机器人任务中显著下降 19%。更严峻的是,直接采用系统 2 输出的最高价值候选动作而不经系统 1 二次精细化的模型表现更为糟糕,在仿真环境中分别下降 9.8% 和 8.8%,在真实机器人场景中甚至下降高达 63%。这一结果有力证明了系统 1 在执行阶段对动作进行精细调整的不可或缺性。

动作价值引导的慢思维决策:动作价值引导的慢思考作为 Hume 的核心设计理念,在消融实验中展现出决定性作用。此机制使系统 2 能够通过多候选动作采样和动作价值估计,在复杂动态环境中做出最优决策。实验表明,去除动作价值引导的慢思考机制会导致模型在 SimplerEnv 和 LIBERO 基准上分别下降 14.95% 和 13.7%,而在复杂多变的真实环境中,性能更是断崖式下降 78%。这种极端退化源于随机候选选择无法应对复杂场景的不确定性。同样,限制系统 2 仅生成单一候选动作的模型也表现出了显著性能下降,分别在三种测试环境中下降 6.2%、4.8% 和 37%。这组实验结果清晰揭示了多候选动作采样与动作价值估计相结合的慢思考机制在复杂任务中的核心价值,以及系统 1 与系统 2 协同工作框架的必要性与有效性。

项目主页:https://hume-vla.github.io

开源代码:https://github.com/hume-vla/hume

论文地址:https://arxiv.org/abs/2505.21432

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 物理 上海交通大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论