以人为中心刷新榜单SOTA！大晓机器人发布“一脑多型”具身操作VLA模型

记者今天从大晓机器人获悉，该公司联合香港中文大学多媒体实验室（CUHK MMLab）正式发布全新 " 一脑多型 " 具身操作 VLA 模型 ACE-Ego，并向行业开源。作为 " 以人为中心 "ACE 研发范式在具身模型预训练的核心落地成果，ACE-Ego 提出大规模第一视角人类视频与多型机器人数据高效联合预训练的新范式，在两大国际权威具身智能基准上双双领先，并在复杂零售场景中展现出强泛化落地能力。

在国际公认的人形机器人操作基准 RoboCasa GR1 TableTop 上，ACE-Ego 以 72.8% 的平均成功率刷新当前最高纪录，夺得榜首，大幅超越英伟达 GR00T、PI π ₀ . ₅、京东 JoyAI-RA 等主流模型；在高难度双臂操作基准 RoboTwin 2.0 的强域随机化测试中，ACE-Ego 以 90.62% 的成功率展现出远超行业平均水平的环境鲁棒性。

去年 12 月，大晓机器人提出 " 以人为中心（Human-centric）" 的 ACE 具身研发范式，将人类与物理世界的互动规律作为核心研究起点，构建了一套从 " 环境式数据采集—开悟世界模型 3.0 —具身交互 " 的全链路技术体系。不同于行业传统 " 以机器为中心 "、依赖大批量高成本真机遥操作数据的路线，ACE-Ego 将海量低成本的第一视角人类视频转化为可用于模型训练的有效监督信号。通过统一相机空间动作表示、统一本体形态编码、时间对齐动态分块、可靠性自适应目标函数四大核心机制，它系统性地破解了人与不同型号机器人数据在空间坐标系、本体结构、时序频率、标签质量上的四重异构难题，实现使用大规模高质量人类第一视角视频与数千小时多机型机器人数据的协同训练。

实验结果证实了大规模第一视角人类视频能够有效提升 VLA 模型预训练和下游适配能力：在 RoboCasa 基准上，引入第一视角人类视频进行联合预训练，相比于仅使用机器人数据进行预训练，模型成功率从 68.3% 提升至 72.8%，实现了 4.5% 的显著性能跨越。这充分证明了 " 以人为中心 " 的大规模数据预训练对提升具身模型泛化能力的巨大价值。

目前，ACE-Ego 已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期、强接触的复杂零售操作，覆盖商品整理、打包履约等典型线下零售环节，突破了此前模型仅能完成简单桌面抓取的能力边界，为具身智能走向产业规模化落地提供了高性价比的技术方案。

刷新两大国际具身智能基准，全面领跑通用操作模型

在 RoboCasa GR1 TableTop 人形桌面操作基准上，ACE-Ego 以 72.8% 的平均成功率，大幅刷新榜单纪录。该基准基于 GR1 人形机器人平台设置 24 项典型家庭任务，涵盖 18 项抓取放置重排与 6 项铰接物体交互，是衡量人形机器人通用操作能力的核心标尺。

在该榜单上，第二名小鹏 DIAL 模型成绩是 70.2%、京东 JoyAI-RA（63.2%）、高德 ABot-M0（58.3%）、FLARE（55.0%）、英伟达 GR00T-N1.6（47.6%）。性能增益覆盖抓取放置、铰接操作全品类任务，其中盘子叠放、托盘移锅等任务成功率突破 98%，证明其能力提升来自框架底层优化，而非特定任务过拟合。

在 RoboTwin 2.0 双臂操作基准中，ACE-Ego 同样稳居 VLA 类模型榜首，展现出极强的环境鲁棒性。该基准包含 50 项覆盖抓取、放置、工具使用、双臂协同的复杂任务，设置干净场景（Easy）与强域随机化场景（Hard）两种模式，其中 Hard 模式随机改变光照、纹理、物体位置等条件，高度模拟真实世界不确定性。

ACE-Ego 在 Easy 模式下成功率达 91.12%，Hard 模式达 90.62%，超越腾讯混元 Hy-VLA（90.9%/90.1%）、京东 JoyAI-RA（90.48%/89.28%）、蚂蚁灵波 LingBot-VLA（88.56%/86.68%）、PI π ₀ . ₅（82.74%/76.76%）、生数 Motus（88.66%/87.02%）、高德 ABot-M0 （86.06%/85.08%）等对比模型。

从干净场景到强随机化场景，ACE-Ego 性能仅衰减 0.5 个百分点，远低于行业平均水平，意味着其习得技能具备极强的环境适应性，更贴近真实商业部署要求。

零售场景全链路落地验证，实操能力解锁商业价值

从鞋盒规整入盒、咖啡定量分装，再到柔性塑料袋打包，ACE-Ego 在典型零售场景中展现出全栈式真实操作能力，覆盖商品陈列、履约打包、货品分拣等线下零售核心作业环节。

机械臂精准识别鞋盒与双鞋的空间位置，按照零售场景的标准陈列方位将鞋依次平稳放入盒内；随后精准定位鞋盒翻盖的铰链转轴与边缘，沿自然合盖轨迹平稳完成翻盖扣合，全程无碰撞、无挤压，展现出对铰接类物体的几何操作理解与精准空间定位能力。

机械臂抓取咖啡勺后，从敞口咖啡罐中平稳舀取定量咖啡豆，抬臂、平移、对准杯口一气呵成，精准控制倾倒角度与速度将咖啡豆全部注入杯中，全程无撒漏。整套长时序操作连贯流畅，体现模型对长程动作序列的规划能力与末端执行的精细对准精度。

机械臂抓取轻薄购物塑料袋的袋口，顺势撑开袋身形成稳定容纳空间，将目标物品平稳放入袋中后收紧袋口完成打包。全程应对塑料袋柔软易变形、无固定形态的特性，实现了柔性物体的稳定抓取与形态操控。

四大核心机制破局异构融合，解锁人机协同预训练新范式

双榜登顶与下游任务高效适配的卓越表现，源于 ACE-Ego 依托 " 以人为中心 " 的研发范式，针对具身智能行业痛点实现的重大技术突破。面对人 - 机数据在空间、结构、时间、训练监督信号四个维度严重不匹配的行业挑战，ACE-Ego 创新构建了 " 大规模人类第一人称视频 + 多具身机器人数据 " 的全链路融合方案。通过自研的四大核心机制，ACE-Ego 分别从空间、结构、时间以及训练监督四个维度统一表示与对齐，彻底破解了人机数据不兼容的难题。这四大机制并行发力，成功支撑了大规模人机异构数据的同框训练，将具身操作模型推入多源协同预训练的新阶段。

机制一：第一视角统一动作空间表达，让不同人与不同机型的动作 " 说同一种语言 "。ACE-Ego 以头部相机坐标系为统一基准，将多机型机器人末端执行器轨迹、不同人类视角视频重建的手部运动全部投影到机器人 " 第一视角 " 下，让动作指令与视觉观测对齐至统一坐标系，免去跨平台复杂坐标校准，新本体部署仅需替换一组相机外参。

机制二：URDF（统一机器人描述格式）本体形态映射，让模型知晓 " 谁在做动作 "。不同机器人的关节结构、物理尺寸差异巨大，人体运动模式与机器人更是截然不同。为此，ACE-Ego 创新性地将 URDF（统一机器人描述格式）映射为跨本体的统一中间层编码。对于机器人，它通过解析 URDF 文件将运动学特征编码并输入动作解码器；对于人类数据，则通过学习专属的 " 代理形态嵌入 " 来模拟人体结构。这种 " 形态条件 " 仅在动作解码阶段注入，不干扰视觉语言主干网络，不仅保留了主干网络强大的通用视觉理解能力，更带来了极快的新机适配速度——在面对 ARX 双臂机器人等全新未知机型时，仅需不到 200 条动作数据，即可在极短时间内完成适配部署。

机制三：时间对齐动态分块，让不同 " 手速 " 数据步调一致。不同机器人平台控制频率从 10Hz 到 30Hz 不等，固定帧数的动作块对应物理时长差异显著，直接混训会扰乱时序逻辑。ACE-Ego 打破按帧切分的传统做法，以物理时长为标准划分动作块，确保所有数据源预测相同时长的未来动作窗口；搭配分桶采样策略，按任务类型、时序阶段、块长组合成批，大幅降低填充开销，稳定梯度更新，让跨频率数据的联合训练平稳落地。

机制四：可靠性自适应目标函数，带噪声数据 " 按需采信 "。人类视频数据中的动作标签由视觉算法重建获得，动作标签带有一定重建噪声，若与高精度传感器数据同权训练反而会拉低模型精度。ACE-Ego 设计了双层训练目标体系：机器人传感器数据作为 " 准确 " 监督信号，全权重锚定核心控制精度；人类采集动作作为重要多样性补充信号也参与训练，实行三级加权机制 —— 通道级重点采信高可靠位置信号，数据集级按重建质量设置权重上限，帧级通过运动平滑度动态过滤异常片段。这套 " 信息过滤器 " 既充分释放了大规模人类视频场景的多样性潜力与行为广度，又牢牢守住机器人高精度数据的质量底线。

四大机制环环相扣，打通了 " 人类视频规模化扩量 + 机器人数据保障精度 " 的全新技术路径，为具身操作模型的规模化训练打开了成本与规模的双重增长空间。

宙世代

一起剪

相关标签