作者 | 许丽思
编辑 | 漠影
机器人前瞻 2 月 27 日报道,今天,Figure AI 发布了一段视频,宣布将上周推出的 VLM 模型应用到 Figure 02 人形机器人上并让它进物流工厂分拣快递,部署这项工作花了 30 天。
Figure 02 上一份打工经历还是在宝马工厂负责汽车装配,当时安排好这份工作花了 12 个月。
上周日,Figure 已经在客户现场验证了让机器人在快递流水线上负责分拣的整套流程的可行性。视频中可以看到,一整排机器人可以比较流畅地抓取、摆放快速,虽然速度看起来比起人类分拣还差了一些。
通过头部戴在的摄像头,机器人可以识别快递上的条码,对于不小心漏拣的快递,也可以进行自我校正。
据 Figure 介绍,研发团队还对 Helix 的系统 1(S1),即低级视觉运动控制策略)做了一系列改进:
1、视觉表征优化
此前系统 1 采用单目视觉输入,新版系统通过立体视觉主干网络结合多尺度特征提取网络,构建丰富的空间层次表征。与之前每个摄像头独立输入图像特征标记不同,Figure 在特征标记化前通过多尺度立体网络融合双摄像头信息,既保持输入交叉注意力变换器的视觉标记总量恒定,又避免计算资源浪费。
多尺度特征使系统既能解析微观细节,又能把握整体场景,共同提升视觉控制的可靠性。
2、跨机器人迁移
在多台机器人上部署单一策略,需要解决由于单个机器人硬件细微差异导致的观测和动作空间中的分布变化问题。这些差异包括传感器校准差异(影响输入观测)和关节响应特性(影响动作执行),如果不进行适当补偿,可能会影响策略性能。
特别是在高维度的整个上半身动作空间中,传统人工校准方式难以规模化应用。因此,Figure 训练了一个视觉本体感受模型,仅通过每台机器人的机载视觉输入来估计末端执行器的六维姿态。这种在线 " 自我校准 " 功能,能够在停机时间最短的情况下,实现跨机器人策略的高效迁移。
3、数据优化
在数据层面,Figure重点筛选人类示范数据,剔除低效、失误或失败的案例。但刻意保留了包含自然修正动作的示范——当修正行为源于环境随机性而非操作失误时。通过与远程操作员密切配合,优化并统一操作策略,也取得了显著效果提升。
4、推理时操作加速
为追赶并最终超越人类操作速度,Figure 采用了简单高效的测试阶段加速技术:对策略动作块输出进行插值(命名为 " 运动模式 ")。系统 1 输出的动作块,代表了一系列以 200 赫兹频率执行的机器人动作。在实际应用中,可以在不修改训练过程的情况下,通过对一个维度为 [ Tx 动作维度 ] 的动作块(代表一个持续 T 毫秒的轨迹)进行线性重采样,将其变为更短的 [ 0.8*Tx 动作维度 ] 轨迹,然后以原来的 200 赫兹控制速率执行这个更短的动作块,从而实现测试时 20% 的加速。
Figure 发现,系统 1 的改进,带来了的效果非常显著:
对不同尺寸包裹的鲁棒性提升:多尺度特征提取和隐性立体视觉输入都显著提高了系统性能,特别是添加立体视觉后,立体视觉模型的吞吐量比非立体视觉提高了 60%。配备立体视觉的系统 1 能够推广应用到系统从未训练过的扁平包裹上。
数据质量优于数量:同对于单个场景而言,数据质量和一致性远比数据数量重要。使用经过精心整理的高质量演示数据训练的模型,尽管训练数据量减少了三分之一,但其吞吐量却提高了 40%。
运动模式在提速 50% 时效果最好:通过线性重采样(" 运动模式 ")来加速策略执行,在提速高达 50% 的情况下效果惊艳,系统 1 的有效吞吐量高于演示数据。不过,然而,当提速超过 50% 时,由于动作变得过于不精确,系统需要频繁重置,有效吞吐量开始大幅下降。
有效实现了跨机器人迁移:通过利用学习到的校准和视觉本体感受模块,Figure 能够将最初在单个机器人数据上训练的同一策略应用到多台其他机器人上。尽管传感器校准存在差异且硬件有细微不同,但该系统在所有平台上都保持了相当的操控性能水平。这种一致性突显了学习校准在减轻协变量偏移方面的有效性,有效减少了对每台机器人进行繁琐重新校准的需求,使大规模部署更具可行性。
Figure 还发布了 Helix 团队扩充的信息,提到准备招募大模型训练、操控工程师、大模型评估、强化学习等岗位的人才。
从 Figure 这次发布的成果来看,虽然人形机器人分拣快递看起来效率不是特别高、不如人工分或机械臂分拣,成本效益上好像不尽如人意。
但是人形机器人展现出强大的场景适应性和跨设备迁移能力,当教会人形机器人上岗工作的时间从 12 个月缩短到 1 个月,未来或许会缩短到 1 星期、1 天,人形机器人走向物理世界的速度不断提升,多场景的大规模部署应用也有了更大的可能性。
登录后才可以发布评论哦
打开小程序可以发布评论哦