量子位 前天
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在灵巧手通用抓取的研究中,由于动作空间维度高、任务具有长程探索特征且涉及多样化物体,传统强化学习(RL)面临探索效率低、奖励函数及训练过程设计复杂等挑战。

基于此,北京大学及 BeingBeyond 团队提出DemoGrasp框架——

一种简单且高效的通用灵巧手抓取学习方法。

该方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑,以适应不同物体与姿态:改变腕部位姿用于确定 " 抓取位置 ",调整手指关节角度用于确定 " 抓取方式 "。

这一核心创新——将连续决策的多步 MDP(马尔可夫决策过程)重构为基于轨迹编辑的 " 单步 MDP" ——有效提升了强化学习在抓取任务上的学习效率和迁移到真机的性能。

核心设计:单条演示 + 单步 RL 从 " 多步探索 " 到 " 全局编辑 "

传统 RL 的困境:高维动作空间的复杂探索

动作空间:每一步都需要输出高自由度机器人所有关节的指令。

奖励设计:需要设计极其复杂的密集奖励函数,引导机器人避开碰撞、接触物体、成功抓取、平滑运动等。

课程学习:需要设计复杂的多阶段学习流程,帮助 RL 探索

DemoGrasp 的核心创新在于用 " 单条成功演示轨迹 " 替代 " 从零开始的探索 ",将高维抓取任务转化为 " 演示编辑任务 ",再通过单步 RL 优化编辑参数,最终结合视觉模仿学习实现虚实迁移。

单条演示和轨迹编辑

一条抓取特定物体的成功轨迹包含了抓取任务通用的模式(如 " 靠近物体→闭合手指→抬起手腕 "),只需调整轨迹中的手腕和手指抓取方式,即可适配没见过的新物体。

DemoGrasp 只需要对一个物体(比如一个方块)采集一条成功抓取演示轨迹,即可通过物体中心的轨迹编辑做出新物体、新位置的抓取行为:

手腕位姿编辑:在物体坐标系下,对原始轨迹中的每一个手腕位点施加一个统一的变换 T ∈ SE ( 3 ) ,通过灵活地调整手腕抓取方向和位置,适应不同大小、形状、合适抓取点的物体。

手指关节编辑:对手指的抓取关节角施加一个增量 Δ q_G,通过与演示轨迹的等比例插值,产生一条灵巧手从初始张开姿态平滑到达新的抓取姿态的动作轨迹。

单步强化学习

在仿真环境中,DemoGrasp 利用 IsaacGym 创建了数千个并行世界,每个世界里都有不同的物体和摆放场景。

学习过程:每一个仿真世界中,策略网络根据初始的观测(末端位姿和物体点云、位姿) 输出一组手腕和手指编辑参数,执行编辑后的轨迹,根据执行过程是否 " 抓取成功 " 和 " 发生碰撞 " 获得奖励。

通过海量试错和在线强化学习,策略学会根据不同形状物体的观测输出合适的编辑参数。

训练效率:在这个紧凑动作空间的单步 MDP 问题上,DemoGrasp 使用单张 RTX 4090 显卡训练 24 小时即可收敛到 >90% 的成功率。

视觉蒸馏,虚实迁移

仿真中的强化学习策略依赖精确的物体点云和位姿,这在现实中难以获取。DemoGrasp 通过视觉模仿学习,将策略蒸馏成与真机对齐的 RGB 策略,实现从仿真到真机的直接迁移。

数据收集:在仿真中运行强化学习策略,记录下上万条成功轨迹:包括渲染的相机 RGB 图像、每一时刻的机器人本体感知和关节角动作。

模型训练:采用流匹配(Flow-Matching)生成模型的方法,学习从图像观测和机器人本体感知预测动作。为缩小仿真到真机的视觉图像差异,训练还使用了预训练的 ViT 提取图像特征,并在仿真数据收集时充分地进行域随机化(随机化光照、背景、物体颜色纹理、相机参数等)。

多模态适配:DemoGrasp 适配单目 / 双目、RGB/ 深度相机等多种相机观测。实验表明,双目 RGB 相机组合的效果最佳,能够更好地减少遮挡、利用纹理和轮廓等信息成功抓取小而薄的物体。

实验结果:仿真和真机双优,全面提升灵巧抓取的泛化性和扩展性

DexGraspNet 是灵巧抓取领域的权威数据集(3.4K 物体)。

DemoGrasp 在该数据集上使用 Shadow Hand 抓取,性能显著优于现有方法:视觉策略成功率达到 92%,训练集到测试集的泛化差距仅 1%,且适应大范围的物体初始位置随机化(50cm × 50cm)、具备更强的空间泛化能力。

跨本体扩展:适配任意灵巧手和机械臂本体

DemoGrasp 无需调整任何训练超参数,成功适配 6 种不同形态的机器人(五指、四指灵巧手,三指夹爪和平行夹爪),在 175 个物体上训练后,在多个未见过的物体数据集上达到 84.6% 的平均成功率。

高性能的虚实迁移

在真实机器人测试中,使用 Franka 机械臂和因时灵巧手,DemoGrasp 成功抓取了 110 个未见过的物体。

在常规大小的物体分类上,DemoGrasp 成功率均达到 90% 以上;

对于扁平物体(手机壳、剪刀等)和小物体(瓶盖、小黄鸭等)的困难抓取任务,策略能够准确地抓取物体、避免碰撞,成功率达到 70%。

DemoGrasp 框架支持对真实场景更加复杂的抓取任务的扩展能力,支持 在杂乱多物体摆放的场景下实现用语言指令引导抓取,且达到 84% 的真机单次抓取成功率。对于光照、背景和物体摆放的大幅变化,策略的成功率没有明显下降。

DemoGrasp 是融合少量人类演示实现高效机器人强化学习的新起点,将在未来支持功能性抓取、工具使用、双手操作等更多灵巧手任务。

训练时策略的闭环能力是当前方法的一个局限,后续研究将通过更加细粒度的演示轨迹拆分,增加强化学习策略的实时调整、错误恢复能力。

此外,DemoGrasp 可以结合多模态大模型,实现开放场景下的自主抓取智能体。

项目主页:https://beingbeyond.github.io/DemoGrasp/

论文:https://arxiv.org/abs/2509.22149

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 北京大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论