每日经济新闻 前天
人形机器人面临“现实落差”训练瓶颈 智元发布真实世界持续学习系统
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

1 月 6 日,智元在官方公众号发布 SOP(英文全称为 Scalable Online Post-training,指一套面向真实世界部署的在线后训练系统)。

智元相关负责人告诉《每日经济新闻》记者,这是为了让人形机器人在真实世界里持续进化。

一直以来,人形机器人行业对选用何种类型数据进行训练存在争议。有厂商使用模拟仿真工具进行训练,也有厂商选用真机进行训练。后者的训练方式一度被业内诟病,认为缺乏真实场景的训练,即训练出来的人形机器人无法部署于真实场景。

简而言之,使用实验室中真机收集的数据进行训练,人形机器人看似都能完成被布置的任务,但在实际使用中往往 " 手足无措 "。

此次智元发布 SOP 框架,或有助于其补足关于真实场景的数据。

智元表示,现有 VLA(视觉、语言、动作)预训练模型已经提供了强大的通用性。然而,真实世界的部署受困于更高的任务专精度要求,以及离线数据采集方式的边际效益递减,往往需要通过后训练获得更高的任务成功率。遗憾的是,当前主流的 VLA 后训练方法仍受离线、单机、串行采集等因素制约,难以支撑高效、持续的真实世界学习。这些限制并非源自具体算法,而是来自学习范式本身。

因此,智元推出 SOP 框架的核心目标是让机器人在真实世界中实现分布式、持续的在线学习。

关于 SOP 框架的效果,智元表示,SOP 让多任务通才的性能普遍提升。

此外,在预训练出现边际效应递减的背景下,SOP 将有助于突破 VLA 的性能瓶颈。智元表示,SOP 在三小时的在轨经验下就获得了约 30% 的性能提升,而 80 小时额外人类专家数据只带来了 4% 的提升。

每日经济新闻

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论