量子位 昨天
机器人训练,北京男大有了技能玩法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

还得是大学生会玩啊(doge)!

网上正高速冲浪中,结果意外发现:有男大竟找了个机器人队友?而且机器人还相当黏人(bushi~

白天超市打工它要跟着,一看东西装好就立马乐颠颠帮忙拉小推车,上楼下楼忙个不停:

等到中午去食堂兼职,它也自告奋勇帮忙推餐车,而且指哪打哪(拍拍头就知道你想让它停下):

甚至,一天劳作结束后,连健身它也要一起。既然来都来了,男大表示:那就练起来!

笑死,感觉可以以机器人视角去拍 vlog 了,标题就叫《高能量之机器人的一天》。

言归正传,不知道大家发现没有,图中男大和机器人伙伴的交流都是通过拍拍头、拉拉身体搞定的,既没有遥控、也没有语音

这就有点东西了!要知道目前绝大多数机器人都是靠外部传感器(摄像头、激光雷达等)和遥控驱动的,而这群男大竟提出了一种全新的方式——仅通过" 本体感知(Proprioception)"就能和外界交互。

好好好,搞半天人家这还是个技术含量很高的正经研究,而且连论文都有。

速去扒了一扒,结果发现里面还真有不少好东西、新东西——

强化学习新方法:仅依赖本体感知搬运各种物体

先说说他们想解决什么问题吧。

在 " 人机协作搬东西 " 这一核心场景中,相关技术已在机械臂上验证充分,但在人形机器人领域仍探索不足。

这主要是因为人形机器人复杂的 " 全身动力学 " ——相比机械臂仅需控制局部关节,人形机器人需要协调躯干、四肢等多个部位,且运动过程极易受自身平衡、环境接触等多因素影响。

于是,他们设定了一个大胆的目标:实现人形机器人与人类完美协作搬运各种东西

为此,他们在论文中提出了一种全新的强化学习方法 COLA ——不依赖摄像头、激光雷达等外部传感器,机器人仅通过 " 本体感知(Proprioception)" 就能和外界进行交互

具体而言,COLA 的设计思路可以拆解为以下 3 点:

让机器人学会 " 眼里有活儿 "

第一点就是教会机器人如何 " 眼里有活 "。

想象你正在和机器人一起搬柜子。传统机器人往往比较呆板——需要分别设计 " 机器人主导(领导者)" 和 " 人类主导(跟随者)" 两种独立策略,切换时容易卡顿。

而 COLA 将这两种情况整合到一个统一策略中:

当你发力稳定、方向明确时,机器人就化身 " 跟随者 ",配合你的动作。

当你犹豫或柜子有倾斜风险时,它会立刻切换成 " 主导者 ",主动调整动作稳住平衡。

无需任何人工干预或额外指令,机器人自己就能实现两种角色的丝滑切换。

不信你瞅,它现在搬东西上斜坡也不在话下:

在动态实战中训练

此外,为了让 COLA 能应对真实世界的混乱,它的训练场是一个高度动态的闭环环境

一方面,为避免模型仅在固定轨迹搬运中有效,他们在训练时模拟了各种突发状况,例如人类突然转向、物体重量分布变化、手部打滑……主打一个实战演练。

另一方面,训练过程中会逐渐形成一个闭环——机器人的动作会实时反馈给环境(如物体位置变化),环境变化又反过来影响机器人的决策(如物体倾斜后机器人需调整力度),形成 " 决策 - 反馈 - 再决策 " 的循环,就像真实搬运中持续的 " 你拉我推 "。

点击就看人机反复推拉之术(手动狗头):

仅依赖 " 本体感知 ",无需外部传感器

" 岗前培训 " 结束后,接下来真进入实战环节了。

前面也反复提到,COLA 的关键优势之一是 " 不依赖外部传感器 ",仅通过机器人的 " 本体感知 " 就能接收获取信息。

所谓 " 本体感受 " 是指机器人自身的内置感知数据,比如关节角度、肌肉执行器的力度反馈、自身的位置 / 速度信息等。采用这种设计,机器人这下不仅能免受外部环境干扰(如光线昏暗影响摄像头),而且交互方式也大变样了。

很直观的一点就是,一直以来广受吐槽的遥控这下真没了。

搬箱子一人一机就能搞定:

之所以能抛弃传感器,这主要得益于关键两步:

残差教师微调:先让机器人学会稳定的运动策略,然后引入一个残差教师模型,专门学习在搬运协作中需要做出的额外调整(如何打配合),最终将两者结合微调出一个完整的协作策略;

仿真训练与知识蒸馏:上述过程全部在仿真环境中完成,可以快速、安全地模拟数百万次训练。训练出强大的 " 教师 " 后,再通过知识蒸馏技术,将其能力迁移到一个更轻便、更适合在实体机器人上运行的 " 学生策略 " 中。

正是这个精巧的设计,让它彻底告别了传感器。 因为在整个过程中,无论是基础的运动能力,还是高级的协作技巧,模型学习和决策的全部依据,都来自于机器人的本体感知数据。

而且值得一提的是,这种设计也降低了硬件成本和系统复杂度,毕竟现在无需耗费时间金钱在外部传感器的采购和软硬件集成上了。

整体而言,COLA 的终极目标不是去 " 猜 " 人类具体在想什么,而是通过本体感知数据 " 隐式预测(Implicitly Predict)" 两个关键信息:

物体的运动趋势(会不会翻?要往哪倒?)

人类的协作意图(他想转弯吗?需要我多出力吗?)

最终,以 " 维持负载平衡 " 为核心指标,整个过程通过协调的轨迹规划来实现安全、顺滑的人机协作。

仿真 / 真实世界 / 人类用户实验,均验证了 COLA 的有效性

更多实验也验证了 COLA 设计的有效性。

在仿真实验中,通过可控虚拟环境,他们想精确测量 COLA 对人类 effort(指用力大小、肌肉疲劳度)和物体稳定性的影响。

结果发现,不管是运动的精准度(线速度、角速度、高度误差),还是减轻人类搬运时的负担(平均外力),COLA 系列都比之前的显式目标估计、Transformer 方法强很多。

而且其中以 " 领导者 " 思路设计的 COLA-L 比 " 跟随者 "COLA-F 表现更突出,能更好地帮人类分担负载、保持稳定。

在真实世界中,面向不同类型物体(如规则形状的箱子、柔性物体担架等)和不同运动模式(如直线走、转弯等),他们还测试了 COLA 的泛化性。

结果发现,COLA 在所有测试场景中均实现了 " 稳健的协作搬运 ",相关定量结果如下:

除此之外,他们还找来了 23 名人类参与者,让他们分别体验与 "COLA 控制的机器人 " 和 " 其他基线方法控制的机器人 " 进行协作,然后通过问卷和动作传感器来收集主客观感受。

结果显示,COLA 方法在参与者的评估中表现最好,无论是在高度跟踪还是平滑性方面都拿到了最高分。

" 人机协作新范式 " 中国团队造

最后再来看看 COLA 背后的团队,成员清一色来自国内。

三位同等贡献作者均来自北京通用人工智能研究院:

Yushi Du,目前是香港大学电机及电子工程系刚入学新生,由于个人相对低调所以网上资料很少。

Yixuan Li,北京理工大学计算机科学与技术学院博士生。

从已发表的论文来看,他对人形机器人、3D 场景理解与导航、以及人机协作等领域感兴趣。

Baoxiong Jia(兼通讯作者),北京通用人工智能研究院研究科学家。

本科毕业于北京大学,后获得加州大学洛杉矶分校硕博学位,对计算机视觉、AI 和认知科学的交叉领域尤为感兴趣。

光是今年他就有多篇论文入选顶会,最新一篇关于统一力与位置控制的新论文就被 CoRL 2025 接收,并获得口头报告的机会(Oral)。

其他通讯作者分别为 Wei Liang、Yanchao Yang 和 Siyuan Huang。

Wei Liang(梁玮),北理计算机科学与技术学院教授,负责领导感知、交互与具身化实验室(PIE Lab)。

她于 2005 年获得北理计算机科学博士学位,对计算机视觉、用于培训和教育的虚拟现实(VR)以及认知科学感兴趣。

前面提到的 Yixuan Li 大概率是她的学生,因为二人多次合发论文。

Yanchao Yang,香港大学助理教授,由电气与计算机工程系和数据科学研究所联合聘任。

本科毕业于中国科学技术大学,后获得沙特阿卜杜拉国王科技大学硕士学位,随后辗转至加州大学洛杉矶分校读博,并且曾在斯坦福大学做博士后研究。

他对具身智能感兴趣,致力于开发适用于低标注场景的自监督 / 半监督学习技术,以推动具身智能体的自主进化。

Siyuan Huang,北京通用人工智能研究院研究员,并担任该研究院具身人工智能与机器人研究中心主任。

本科毕业于清华大学自动化系,曾获得加州大学洛杉矶分校统计学博士学位,在读博期间还去了 DeepMind 和 Facebook Reality Lab 实习。

目前他还在北京大学任教,对计算机视觉、机器学习等感兴趣,致力于开发通用机器人的泛化模型。

其余两位作者分别为 Yutang Lin 和 Pei Zhou。

Yutang Lin,目前是北京大学元培学院大三学生,同时在北京通用人工智能研究院实习。

其研究兴趣集中在机器人技术、 计算机视觉和强化学习的交叉领域。

Pei Zhou,目前是香港大学电机及电子工程系博士生。和另一位同校同专业的朋友一样,网上资料也相对较少。

对于这项新研究,由于抛弃了目前常见的一些人机交互方式,人们预测它可能带来新的范式转变。

你看呢?

论文:

https://www.arxiv.org/abs/2510.14293

项目主页:

https://yushi-du.github.io/COLA/

参考链接:

https://x.com/siyuanhuang95/status/1980517755163185642

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中!我们正在寻找 AI+ 时代领航者  点击了解详情

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与   

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 机械臂 激光雷达 传感器 健身
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论