具身智能新突破：当机器人开始看人类第一视角视频，结果令人意外

要训练好一个机器人，离不开一个耐心的老师。研究者往往需要亲自示范，再把示范变成训练轨迹。

对视觉 - 语言 - 动作模型（VLA）来说，训练数据越大、越多样，模型通常就越强。但机器人示教数据采集成本高、效率低，长期依赖人工操控，数据瓶颈始终存在。

相比之下，人类第一视角视频（Egocentric Video）场景更丰富、采集成本更低，却不能直接用于机器人训练。它提供的是带噪的伪动作，机器人数据则是高保真轨迹，两者在表示和质量上都不一致。

针对这个问题，ACE Robotics 团队及其合作者提出了 ACE-EGO-0，将人类第一视角视频、机器人数据和仿真 rollout 统一到同一 VLA 预训练框架中。

论文链接：https://arxiv.org/pdf/2606.17200

先来看几个官方 demo ：

结果显示，ACE-EGO-0 在 RoboCasa GR1 TableTop 和 RoboTwin 2.0 上均取得最佳表现，并在真实双臂机器人平台上展现出较强迁移能力。这也说明，只要妥善处理人类数据中的噪声，大规模人类数据能够稳定提升 VLA 的预训练和监督微调效果。

图｜ACE-EGO-0 概览。

ACE-Ego-0 是一个统一的 VLA 预训练框架，通过相机空间动作、形态条件化和时间对齐动作分块对齐人类第一视角视频、机器人与仿真数据，并利用可靠性感知的人类辅助监督，让带噪的伪动作以加权辅助监督的方式参与训练。

在表示层面，ACE-Ego-0 先把机器人末端轨迹和人类手部重建轨迹统一到头部相机坐标系中，让动作和观测共享同一套坐标系。人类视频没有现成的末端执行器，研究团队以腕部为原点定义了一套对应手部的坐标系，用腕部位置、手部姿态和开合状态来表示动作，再转换成与机器人兼容的动作向量。ACE-Ego-0 还用基于 URDF 的形态 token 区分不同机器人结构，并为不同人类视频源分别学习可训练的 embedding，用来表示不同数据源的稳定差异；这些信息只在动作解码阶段使用，不进入视觉 - 语言主干。同时，模型按统一物理时长切分动作块，对齐不同数据集的时间尺度。

图｜ACE-EGO-0 的整体架构。

在训练层面，ACE-Ego-0 不对机器人数据和人类视频等权训练。机器人示教承担主监督，人类视频中的伪动作则按可靠性加权后作为辅助监督参与训练：稳定的位置信号权重更高，噪声更大的旋转和夹爪状态则被降权。

在数据层面，研究团队还设计了一条五阶段处理流程，从数据集筛选、视频筛选、三维手部重建、动作参数化到质量控制，把原始第一视角视频转成可用于训练的伪动作标签。最终，研究团队从 6 个数据源中整理出 1478 小时带伪动作标注的人类视频，并与机器人、仿真数据一起组成了超过 6.0K 小时的混合预训练数据池。

图｜将原始第一视角视频转换为相机空间伪动作的处理流程。

整体来看，ACE-Ego-0 在 RoboCasa 和 RoboTwin 2.0 两个仿真基准上均取得最佳表现，并在真实双臂机器人平台上展现出较强迁移能力。具体来看，它在 RoboCasa GR1 TableTop 上取得 72.8% 的平均成功率，高于 DIAL 的 70.2%、JoyAI-RA 的 63.2%、ABot-M0 的 58.3% 和 FLARE 的 55.0%。

图｜RoboCasa GR1 TableTop 基准上的评测结果。

在 RoboTwin 2.0 ，Easy/Clean 和 Hard/Randomized 设置下分别达到 91.12% 和 90.62%。

图｜RoboTwin 2.0 基准的总体评测结果。

在真实双臂机器人评估中，ACE-Ego-0 同样表现领先：在 ARX 平台 6 个任务、每任务 30 次评测中，平均成功率达到 78.3%，高于同任务数据微调后的 π 0.5（71.7%）和 GR00T-N1.7（35.6%），并在 6 个任务中的 5 个任务上领先。其中，在双臂协同要求较高的 Scoop Coffee 任务上，它达到 86.7%，高于 π 0.5 的 70.0% 和 GR00T-N1.7 的 36.7%。不过，在流程最长的 Pack Shoes 任务上，所有模型表现都明显下降。这说明，在长时序操作链中控制累积性的轨迹漂移，仍是现有预训练 VLA 架构面临的共同挑战。

Scoop Coffee 任务演示视频。

Pack Shoes 任务演示视频。

消融实验逐一移除了 ACE-Ego-0 的三项关键设计：形态 token、时间对齐动作分块，以及可靠性感知的人类辅助损失。结果显示，三者都对最终性能有贡献。在 RoboCasa 上，移除形态 token 后成功率从 72.8% 降到 70.9%，移除时间对齐动作分块后降到 71.7%，移除可靠性感知的人类辅助损失后降幅最大，降到 69.2%。数据源消融显示，仅用 Qwen 初始化、不做具身预训练时，成功率为 65.4%；加入机器人数据后升至 68.3%；再加入人类视频后进一步提升到 72.8%。

图｜ACE-EGO-0 的真实机器人评测结果（a）以及消融实验（b）。

在数据稀缺场景下，人类视频同样带来了明显增益：在 Sweep Cubes 微调实验中，仅用 34 条机器人示教时成功率只有 10%，加入 419 条任务匹配的人类视频后提升到 40%。机器人示教覆盖的末端执行器工作空间为 0.062 平方米，人类视频则达到 0.296 平方米，是前者的 4.8 倍。

图｜Sweep Cubes 微调数据中右臂末端执行器轨迹在水平面上的投影。

研究团队指出，ACE-Ego-0 当前的评估仍主要集中在桌面操作场景，它的通用性还没有在更复杂的设定中得到充分验证。例如，将这套相机空间动作接口扩展到移动操作、全身人形机器人控制，或可变形物体操作时，是否仍然有效，未来有待进一步测试。

与此同时，真实机器人实验虽然验证了该方法在 ARX 双臂平台上的迁移能力，但长时序任务中的累积漂移问题仍然存在。例如，在包含合盖动作的 Pack Shoes 任务上，所有评测模型的表现都出现了明显下降。

从数据和感知模态来看，当前超过 6.0K 小时的预训练数据池仍未纳入灵巧手数据，也不包含力 / 力矩传感信息。未来，仍需要继续扩大人类第一视角视频的规模，提升伪动作管线在旋转和精细手指动作上的重建精度，并引入更丰富的模态信息。这些改进有望让可靠性感知训练目标覆盖更多位置维度之外的动作通道，进一步释放人类示教向机器人控制迁移的潜力。

更多技术细节，详见原论文。

整理：夏千斯

如需转载或投稿，请直接在本文章评论区内留言

宙世代

一起剪

相关标签