近日,来自北京大学与 BeingBeyond 的研究团队提出DemoHLM框架,为人形机器人移动操作(loco-manipulation)领域提供一种新思路——仅需 1 次仿真环境中的人类演示,即可自动生成海量训练数据,实现真实人形机器人在多任务场景下的泛化操作,有效解决了传统方法依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点。

核心挑战:人形机器人移动操作的 " 三重困境 "
移动操作是人形机器人融入人类环境的核心能力(如搬箱子、开门、递物等),但长期受限于三大难题:
数据效率低:传统方法需采集大量真实机器人遥操作数据,成本极高且难以规模化;
任务泛化差:依赖任务特定的硬编码设计(如预定义子任务、专属奖励函数),换任务需重新开发;
Sim-to-Real 迁移难:基于仿真训练的策略常因物理引擎差异、传感器噪声,无法在真实机器人上稳定运行。
现有方案要么局限于仿真场景,要么需消耗数百小时真实遥操作数据,难以满足家庭、工业等复杂场景的实用需求。

DemoHLM:分层架构与数据生成革新,破解三重困境
DemoHLM 的核心创新在于 " 分层控制 + 单演示数据生成 " 双引擎,既保证了全身运动的稳定性,又实现了极低数据成本下的泛化学习。
分层控制架构:兼顾灵活性与稳定性
DemoHLM 采用 " 低层全身控制器 + 高层操作策略 " 的分层设计,解耦 " 运动控制 " 与 " 任务决策 ":
低层全身控制器(RL 训练):负责将高层指令(如躯干速度、上半身关节目标)转化为关节力矩,同时保证机器人全方位移动性与平衡能力。基于 AMO 框架优化,运行频率 50Hz,可稳定处理高接触场景(如抓取、推物时的力交互);
高层操作策略(模仿学习):通过视觉闭环反馈(RGBD 相机感知物体 6D 位姿),向低层发送任务导向的指令,实现复杂操作决策。支持 ACT、Diffusion Policy 等多种行为克隆(BC)算法,运行频率 10Hz,侧重长时域规划。
此外,团队为机器人设计了2DoF 主动颈部 +RGBD 相机(Intel RealSense D435),通过比例控制器实现 " 视觉追踪稳定 ",模仿人类操作时的视线调节能力,避免物体遮挡导致的感知失效。
单演示数据生成:从 "1 次演示 " 到 " 千条轨迹 "
DemoHLM 最关键的突破是无需真实数据,仅用 1 次仿真遥操作演示即可生成海量多样化训练数据,核心流程分三步:
演示采集:通过 Apple Vision Pro 捕捉人类动作,映射到仿真中的 Unitree G1 机器人,记录 1 条成功操作轨迹(含关节位姿、末端执行器位姿、物体位姿);
轨迹转换与分段:将演示轨迹拆解为 " 移动(Locomotion)、预操作(Pre-manipulation)、操作(Manipulation)" 三阶段,并且通过坐标系转换实现泛化——
预操作阶段:采用 " 物体中心坐标系 ",确保机器人在不同物体初始位姿下,末端执行器能精准对齐目标;
操作阶段:切换为 " 本体感知坐标系 ",解决抓取 / 搬运时末端与物体相对静止的轨迹生成难题;
批量合成:在仿真中随机初始化机器人与物体位姿,自动调整各阶段指令并 replay,生成数百至数千条成功轨迹,形成训练数据集。
这一过程完全自动化,规避了传统模仿学习 " 数据采集地狱 ",同时通过随机化初始条件,天然提升了策略的泛化能力。
实验验证:从仿真到真实的稳定表现
团队在仿真环境(IsaacGym)与真实 Unitree G1 机器人上,针对 10 项移动操作任务(如搬箱子、开门、倒水、递物等)开展全面验证,核心结果如下:

仿真:数据量与性能正相关,算法兼容性强
数据效率显著:随着合成数据量从 100 条增至 5000 条,所有任务成功率均大幅提升——例如 "PushCube" 成功率从 52.4% 升至 89.3%,"OpenCabinet" 从 18.9% 升至 67.3%,且边际收益逐渐收敛,证明数据生成 pipeline 的高效性;
算法适配灵活:在 ACT、MLP、Diffusion Policy 三种 BC 算法上均表现优异,其中 ACT 与 Diffusion Policy 性能接近(如 "LiftBox" 成功率均超 96%),而简单 MLP 因缺乏时序建模能力性能稍弱,验证了框架对不同学习算法的兼容性。

Real-World:Sim-to-Real 迁移稳定,多任务落地
在改装后的 Unitree G1(加装 3D 打印夹爪、2DoF 颈部和单目 RGBD 相机)上,DemoHLM 实现零样本迁移,10 项任务中:
全成功率任务:LiftBox(搬箱子)、PressCube(按立方体)均实现 5/5 成功,操作流程与仿真高度一致;
高稳定任务:PushCube(推方块)4/5 成功、Handover(递物)4/5 成功,仅因地面摩擦差异导致个别失败;
复杂任务突破:GraspCube(抓方块)、OpenCabinet(开门)等需精准力控制的任务,成功率超 60%,在同类仿真训练方法中位于前列。

关键原因在于:高层策略通过视觉闭环实时调整指令,抵消了仿真与真实的物理差异(如关节跟踪误差),确保操作行为的一致性。
行业价值与未来方向
DemoHLM 的突破为人形机器人实用化提供了关键技术支撑:
降低落地成本:单演示 + 仿真数据生成,将训练成本从 " 数百小时真实遥操作 " 降至 " 小时级仿真演示 ",大幅降低行业应用门槛;
提升泛化能力:无需任务特定设计,1 套框架适配多场景(家庭搬运、工业辅助、服务交互),加速机器人从 " 实验室 " 到 " 真实环境 " 的落地;
推动技术融合:分层架构可兼容触觉传感器、多相机感知等升级,为未来更复杂场景(如遮挡环境、柔性物体操作)打下基础。
团队也指出当前局限:依赖仿真数据可能存在长期的 Sim-to-Real 偏差,单 RGB-D 相机在复杂遮挡场景性能受限,且暂不支持未建模物体的操作。未来将探索 " 仿真 + 真实数据混合训练 "" 多模态感知融合 " 等方向,进一步提升鲁棒性。
总结
DemoHLM 以 " 单仿真演示驱动泛化移动操作 " 为核心,通过分层控制架构与高效数据生成 pipeline,破解了人形机器人训练成本高、泛化差、迁移难的三大痛点。
其在 Unitree G1 上的真实落地验证,证明了该框架的实用价值,为下一代人形机器人在家庭、工业、服务场景的规模化应用提供了重要技术路径。
论文连接:https://arxiv.org/pdf/2510.11258
项目主页:https://beingbeyond.github.io/DemoHLM/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦