量子位 4小时前
只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近日,来自北京大学与 BeingBeyond 的研究团队提出DemoHLM框架,为人形机器人移动操作(loco-manipulation)领域提供一种新思路——仅需 1 次仿真环境中的人类演示,即可自动生成海量训练数据,实现真实人形机器人在多任务场景下的泛化操作,有效解决了传统方法依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点。

核心挑战:人形机器人移动操作的 " 三重困境 "

移动操作是人形机器人融入人类环境的核心能力(如搬箱子、开门、递物等),但长期受限于三大难题:

数据效率低:传统方法需采集大量真实机器人遥操作数据,成本极高且难以规模化;

任务泛化差:依赖任务特定的硬编码设计(如预定义子任务、专属奖励函数),换任务需重新开发;

Sim-to-Real 迁移难:基于仿真训练的策略常因物理引擎差异、传感器噪声,无法在真实机器人上稳定运行。

现有方案要么局限于仿真场景,要么需消耗数百小时真实遥操作数据,难以满足家庭、工业等复杂场景的实用需求。

DemoHLM:分层架构与数据生成革新,破解三重困境

DemoHLM 的核心创新在于 " 分层控制 + 单演示数据生成 " 双引擎,既保证了全身运动的稳定性,又实现了极低数据成本下的泛化学习。

分层控制架构:兼顾灵活性与稳定性

DemoHLM 采用 " 低层全身控制器 + 高层操作策略 " 的分层设计,解耦 " 运动控制 " 与 " 任务决策 ":

低层全身控制器(RL 训练):负责将高层指令(如躯干速度、上半身关节目标)转化为关节力矩,同时保证机器人全方位移动性与平衡能力。基于 AMO 框架优化,运行频率 50Hz,可稳定处理高接触场景(如抓取、推物时的力交互);

高层操作策略(模仿学习):通过视觉闭环反馈(RGBD 相机感知物体 6D 位姿),向低层发送任务导向的指令,实现复杂操作决策。支持 ACT、Diffusion Policy 等多种行为克隆(BC)算法,运行频率 10Hz,侧重长时域规划。

此外,团队为机器人设计了2DoF 主动颈部 +RGBD 相机(Intel RealSense D435),通过比例控制器实现 " 视觉追踪稳定 ",模仿人类操作时的视线调节能力,避免物体遮挡导致的感知失效。

单演示数据生成:从 "1 次演示 " 到 " 千条轨迹 "

DemoHLM 最关键的突破是无需真实数据,仅用 1 次仿真遥操作演示即可生成海量多样化训练数据,核心流程分三步:

演示采集:通过 Apple Vision Pro 捕捉人类动作,映射到仿真中的 Unitree G1 机器人,记录 1 条成功操作轨迹(含关节位姿、末端执行器位姿、物体位姿);

轨迹转换与分段:将演示轨迹拆解为 " 移动(Locomotion)、预操作(Pre-manipulation)、操作(Manipulation)" 三阶段,并且通过坐标系转换实现泛化——

预操作阶段:采用 " 物体中心坐标系 ",确保机器人在不同物体初始位姿下,末端执行器能精准对齐目标;

操作阶段:切换为 " 本体感知坐标系 ",解决抓取 / 搬运时末端与物体相对静止的轨迹生成难题;

批量合成:在仿真中随机初始化机器人与物体位姿,自动调整各阶段指令并 replay,生成数百至数千条成功轨迹,形成训练数据集。

这一过程完全自动化,规避了传统模仿学习 " 数据采集地狱 ",同时通过随机化初始条件,天然提升了策略的泛化能力。

实验验证:从仿真到真实的稳定表现

团队在仿真环境(IsaacGym)真实 Unitree G1 机器人上,针对 10 项移动操作任务(如搬箱子、开门、倒水、递物等)开展全面验证,核心结果如下:

仿真:数据量与性能正相关,算法兼容性强

数据效率显著:随着合成数据量从 100 条增至 5000 条,所有任务成功率均大幅提升——例如 "PushCube" 成功率从 52.4% 升至 89.3%,"OpenCabinet" 从 18.9% 升至 67.3%,且边际收益逐渐收敛,证明数据生成 pipeline 的高效性;

算法适配灵活:在 ACT、MLP、Diffusion Policy 三种 BC 算法上均表现优异,其中 ACT 与 Diffusion Policy 性能接近(如 "LiftBox" 成功率均超 96%),而简单 MLP 因缺乏时序建模能力性能稍弱,验证了框架对不同学习算法的兼容性。

Real-World:Sim-to-Real 迁移稳定,多任务落地

在改装后的 Unitree G1(加装 3D 打印夹爪、2DoF 颈部和单目 RGBD 相机)上,DemoHLM 实现零样本迁移,10 项任务中:

全成功率任务:LiftBox(搬箱子)、PressCube(按立方体)均实现 5/5 成功,操作流程与仿真高度一致;

高稳定任务:PushCube(推方块)4/5 成功、Handover(递物)4/5 成功,仅因地面摩擦差异导致个别失败;

复杂任务突破:GraspCube(抓方块)、OpenCabinet(开门)等需精准力控制的任务,成功率超 60%,在同类仿真训练方法中位于前列。

关键原因在于:高层策略通过视觉闭环实时调整指令,抵消了仿真与真实的物理差异(如关节跟踪误差),确保操作行为的一致性。

行业价值与未来方向

DemoHLM 的突破为人形机器人实用化提供了关键技术支撑:

降低落地成本:单演示 + 仿真数据生成,将训练成本从 " 数百小时真实遥操作 " 降至 " 小时级仿真演示 ",大幅降低行业应用门槛;

提升泛化能力:无需任务特定设计,1 套框架适配多场景(家庭搬运、工业辅助、服务交互),加速机器人从 " 实验室 " 到 " 真实环境 " 的落地;

推动技术融合:分层架构可兼容触觉传感器、多相机感知等升级,为未来更复杂场景(如遮挡环境、柔性物体操作)打下基础。

团队也指出当前局限:依赖仿真数据可能存在长期的 Sim-to-Real 偏差,单 RGB-D 相机在复杂遮挡场景性能受限,且暂不支持未建模物体的操作。未来将探索 " 仿真 + 真实数据混合训练 "" 多模态感知融合 " 等方向,进一步提升鲁棒性。

总结

DemoHLM 以 " 单仿真演示驱动泛化移动操作 " 为核心,通过分层控制架构与高效数据生成 pipeline,破解了人形机器人训练成本高、泛化差、迁移难的三大痛点。

其在 Unitree G1 上的真实落地验证,证明了该框架的实用价值,为下一代人形机器人在家庭、工业、服务场景的规模化应用提供了重要技术路径。

论文连接:https://arxiv.org/pdf/2510.11258

项目主页:https://beingbeyond.github.io/DemoHLM/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 北京大学 物理 传感器
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论