Figure抛弃10万行C++代码！用1000小时人类数据训练神经网络，实现全身控制基础模型

美国机器人界掌管 demo 的神，Figure，冷不丁又出一拳！

这一次，他们带来了最新的具身大脑Helix 02以及最新的家务 demo。

在推特上，Figure 老板 Brett 直接放话：

机器人跳舞没什么难的，真正的难点在智能控制。

我们最强的模型来了，能完成复杂和长时序的任务。

话虽狂，但这次的 demo，真的很有说服力。

在视频中，搭载 Helix 02 的 Figure 03，在普通的家庭厨房里，自主完成了洗碗机取盘并放入橱柜的整套流程。

在接近 4 分钟的完整任务里，机器人从头到尾没有重置、没有人工干预、也没有遥操作，行走、抓取、搬运、放置等 61 个操作全部连成一条连续动作链。

Figure 直言，这是迄今为止，人形机器人自主完成的时间跨度最长、复杂度最高的任务。

而且必须强调的是，这一次 Helix 02不再是上下半身分别控制，而是把视觉、触觉等感知统一接入，由一个系统直接输出全身动作的端到端控制。

其中新引入的 system0 还基于 1000 小时人类数据训练，替代了之前手写的 10 万多行代码。

对此，前 CMU 机器人研究员 Chong Zhang 也表示：

Figure 终于抛弃了他们过时的全身 MPC，并使用我们现代的人类到类人的 RL 全身控制。

此外，Helix 02 还第一次地把手掌摄像头与触觉传感器输入引入到模型的控制策略。

对此，不少网友表示有被震撼到：

就连 Sunday 机器人的工程师 Alper 也表示，这是他迄今为止见过最好的机器人全身控制。

Helix 02：加入系统 0 的 VLA

如前面 demo 所展示的那样，这次 Helix 02 的主打的是在厨房里抓取 - 移动 - 放置的长程任务，这需要机器人实现精细的全身控制与移动操作（loco-manipulation）。

为此，Helix 02 打造了一个统一的视觉—运动神经网络——

一个统一全身行走—操作的一体化 VLA 模型（A Unified Whole-Body Loco-Manipulation VLA）。

它把机载的全部传感器、视觉、触觉与本体感知直接接到所有执行器上，让机器人把 " 感觉、思考、行动 " 当成一件事来做。

实现这一点的关键，在于 Figure 在去年 2 月发布的 Helix 双（快慢）系统架构基础上，引入了一个新的System 0，用于全身控制。

至此，Helix 02 形成了一套从像素到扭矩（torque）的紧密层级系统：

System 2（S2）：慢系统，负责高层语义推理——理解场景、理解语言，并将任务拆解为一系列行为目标。

System 1（S1）：快系统，以 200 Hz 的频率进行快速思考，将感知结果转化为全身关节目标。

System 0（S0）：以 1kHz 的频率执行，负责平衡、接触处理以及全身协调执行。

我们先从这次变化最大的System 0说起。

System 0：基于人类数据的人形全身控制

System 0 是一个学习得到的全身控制器：它基于1000 多小时的人类运动数据训练，并结合了仿真到现实（sim-to-real）的强化学习。

具体而言，System 0 用一个神经网络先验，替代了109504 行手工编写的 C++ 控制代码，负责把每一个动作执行得稳定、自然且可控。

从定位上看，S0 是一个面向人形机器人的全身控制基础模型，不为某一个具体动作服务。

它学习的也不是 " 如何走路 " 或 " 如何伸手 "，而是一种更底层的先验：

人在保持平衡与稳定的前提下，通常是怎么运动的。

这也是 Helix 02 的物理具身核心所在——

当上层系统在规划 " 做什么 " 时，S0 负责保证 " 身体能不能顺利、稳定地把这件事做出来 "。

与传统做法中为行走、转向、下蹲、伸手分别设计奖励函数不同，S0 直接从大规模、多样化的人类运动数据中，学习对人类动作的整体跟踪能力。

在复现这些动作的过程中，策略自然学会了如何在各种行为之间协调受力、调整姿态并维持平衡，从而覆盖通用行走—操作所需的完整能力范围。

一些关键细节包括：

训练数据：超过1000 小时的关节级重定向人类运动数据。

模型架构：一个约1000 万参数的神经网络，输入为全身关节状态与基座运动信息，以 1kHz 输出关节级执行器控制指令。

仿真训练：完全在仿真中完成，覆盖20 万 +并行环境，并采用大规模域随机化（domain randomization），从而实现对真实机器人的直接迁移，并在整个机器人机群上具备良好的泛化能力。

System 1：把所有感知，变成全身动作

如果说 S0 解决的是 " 全身动作执行的时候保持稳定 "，那System 1解决的就是：所有感知信息，如何变成可执行的全身动作。

在去年发布的 Helix 中，S1 只控制上半身，输入主要来自关节状态和图像；

而在 Helix 02 中，S1接入了全部传感器，并直接控制整台机器人：

输入：头部摄像头、手掌摄像头、指尖触觉传感器，以及全身本体感知。

输出：覆盖双腿、躯干、头部、手臂、手腕与每一根手指的完整关节级控制。

这种从像素到全身（pixels-to-whole-body）的架构，使 S1 能够将机器人自身状态与环境视为一个强耦合的整体系统来进行推理。

手掌摄像头和触觉传感器是 Figure 03 引入的全新硬件能力，这也是 Figure首次展示依赖这些模态的神经网络控制策略。

手掌摄像头在物体被头部摄像头遮挡时，能够提供手内视觉反馈。

嵌入在每个指尖的触觉传感器可感知低至 3 克的微小受力——灵敏到可以 " 感觉到一枚回形针 "，从而实现具备接触感知、可调控力度的抓取。

这些感知能力，真正释放了五指灵巧手的潜力，使 Helix 能够胜任那些需要多指精细控制的复杂操作任务。

在架构上，S1 依然是一个以 System 2 隐变量为条件的 Transformer，只是现在，它输出的是全身关节目标，并由 S0 以 kHz 级频率进行跟踪执行。

System 2：场景理解与语言

最后，是承担语义推理的System 2。

S2 负责处理场景、理解语言，并为 S1 生成语义级的隐式目标。

在 Helix 02 中，S2 能描述的行为范围被大幅扩展。

过去，它只能下达类似：" 拿起番茄酱。" 这样的指令。

现在，它可以直接表达：" 走到洗碗机前并打开它 "、" 把碗端到台面上 "、" 回到上层架，拿起杯子 " 等指令。

此外，S2 不需要规划具体的步态，也不需要关心手脚如何协同。

它只需生成一串语义级隐变量，由 S1 翻译为运动指令，再由 S0 负责稳定、连续地执行。

结合触觉与手内视觉的灵巧操作

Helix 02 的突破不只体现在全身控制上。

Helix 02 新引入的触觉感知与手掌摄像头，让它能够完成一类纯视觉策略几乎做不到的精细操作任务。

下面是四个代表性的灵巧操作演示。

拧开瓶盖

机器人需要在稳定固定瓶身的同时，施加连续、可控的旋转力来拧下瓶盖，既不能打滑，也不能压坏容器。

这要求双手高度协同，并通过触觉调节的抓取力度与扭矩控制来完成

从药盒中取出单颗药片

机器人需要从分药盒中准确定位并取出一粒小药丸，而药丸往往会被头部摄像头遮挡。

这一任务依赖的是手掌摄像头提供的手内视觉反馈，以及触觉引导下的高精度抓取。

用注射器精确推出 5ml 液体

机器人必须在阻力不断变化、容错空间极小的情况下，推动注射器活塞，精确分配 5ml 药液。

这要求系统具备稳定的力控执行能力，并通过触觉反馈与多指协同，持续保持姿态与压力的微调。

从杂乱箱中取出金属零件：

机器人需要从一堆相互遮挡、叠放、且会在接触中发生位移的金属零件中，准确取出目标部件。

这不仅要求在杂乱环境中做出可靠的视觉抓取决策，还需要通过触觉确认是否真正形成了稳固接触。

在这一演示中，Figure 03 实际展示的是从其 BotQ 制造工厂中卸载真实金属零件的过程。

Loco-Manipulation，新的主线？

去年年初，Helix 的爆火，让很多人第一次意识到快慢双系统可能是具身智能里一个非常关键的方向。

但在当时 Helix 自己的技术报告中，其实也很坦率地暴露了一个问题——

当时解决的仍然只是whole upper-body control，而这次 Helix 02 的发布则直接把基于全身控制的Loco-Manipulation摆上了台面。

换句话说，在之前的 Helix 阶段，机器人的上下半身依然是割裂的。

手在想着怎么抓，腿和脚在想着怎么走，到哪里停住，上下半身通过接口对齐。

而这，也是机器人领域一直以来的主流做法：将行走与操作拆分为两个独立控制器，再用状态机把它们 " 缝合 " 在一起：

走→停→稳定→伸手→抓取→再走。

这种方案在桌面操作上问题不大，不过一旦任务扩展到真实空间里、需要移动与操作同时发生，这种分离就会立刻成为瓶颈。

原因其实很简单，机器人一抬起物体，身体的平衡就发生变化；机器人向前迈一步，手臂的可达范围也随之改变；手臂与双腿在任何时刻都在彼此制约。

也正因为这种上下半身的强耦合关系，此前的很多方案本质上仍是在回放离线规划好的动作，通过 " 先算好、再照着做 " 来绕开问题。

这确实能让机器人完成一些跑、跳、翻滚等演示动作，但代价是控制系统的反馈链路非常浅。

一旦进入真实操作环境，只要物体位置稍有偏移，或接触过程与预期不一致，整套行为就会迅速崩溃。

同时，正如 Figure 指出的，这种频繁的" 停—走—切换 "，不仅慢、难以做鲁棒推理，在行为上也显得非常不自然。

毕竟，人类的上下半身，从来就不是由两个控制器分别控制的。

因此，真正的自主性，需要一种根本不同的方案：一个能够同时对全身进行整体推理的单一学习系统。它可以持续地感知、决策并行动。

在行走中搬运物体，在伸手时动态调整平衡，并在偏差出现时实时恢复，这种基于全身控制的 Loco-Manipulation 就成为了新的解决方案。

此前，因同样装填碗碟任务出圈的 Sunday 机器人创始人Tony Zhao也表示：

恭喜 @Figure_robot 完成这个长时程的洗碗机卸载任务！全身控制（WBC）真的非常惊艳。

Tony 也顺带着提了一些建议，比如这次看起来所有物体都是塑料制品，有些操作似乎也在利用这一点。

不过，中肯地说，相较于 Sunday 之前的轮式机器人，Figure 这次足式控制的难度明显要来的大一些。

同时，另一位网友也表示：

面向人形机器人的全身控制 VLA，如今已经成了 " 入场门槛 "。也要为 Figure 对 Helix 02 的详细拆解点赞——它在与周围世界交互时，已经开始让人感觉不再那么像一台机器人，而更像一个 " 人 "。

当然，Figure 也并不是第一个把全身控制和 loco-manipulation 当作主线来推进的团队。

在更早之前，就已经有类似像WholeBodyVLA的工作，在智元 Agibot X2 人形机器人上，实现了在大尺度空间中的端到端移动—操作任务。

而这一系列趋势，也意味着具身智能的主战场，正在从静态桌面，转移到需要持续平衡、移动与操作协同的真实世界。

参考链接

[ 1 ] https://www.figure.ai/news/helix-02

[ 2 ] https://x.com/SawyerMerritt/status/2016217609297957281?s=20

[ 3 ] https://x.com/adcock_brett/status/2016207851891667395

— 欢迎 AI 产品从业者共建 —

「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库，旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签