猎云网 13小时前
高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

来源:猎云网

4 月 19 日,在 2026 北京亦庄机器人半程马拉松上,阿里巴巴旗下高德正式公开全球首款开放环境全自主具身机器人 " 高德途途 ",这款四足机器人成功协助视障人士完成复杂避障、人群穿行等实战挑战,突破了 " 实验室 " 到 " 开放环境 " 之间的技术鸿沟。

途途能够应对导盲等严苛场景的底层依托,正是高德全新发布的 ABot 全栈具身技术体系。该体系基于上万种真实场景与千万级多模态 Clip 数据,将高德沉淀的空间智能资产高效转化为具身核心训练资源,打造出全球首个面向 AGI 的全栈具身技术体系。

ABot 体系,从架构上突破了传统具身智能 " 单点拼凑、封闭验证 " 的碎片化路径,以 AGI 为核心目标,首次将数据引擎、基座模型与执行中枢耦合为统一系统。目前,高德 ABot 系列模型已经在全球 15 项权威基准测试中拿到 SOTA。

ABot 体系:三层飞轮式设计,构建持续进化的具身智能闭环

ABot 体系采用闭环飞轮式设计,涵盖数据、模型、应用三层,架构并非简单堆叠,而是深度咬合、互为引擎,实现 " 数据驱动模型、模型服务应用、应用反哺数据 ",精准击穿数据稀缺、仿真鸿沟与技能泛化三大行业瓶颈,形成持续自我进化的完整闭环。

数据是具身智能的核心 " 燃料 ",直接决定其泛化能力的天花板。不同于大语言模型,传统真机采集难以规模化,成本呈指数级攀升。

作为数据层的核心, ABot-World 通过批量合成 Video、Depth、Point Cloud、Trajectory 四类训练数据,配合 RL Training Engine 在虚拟环境里定义奖惩、反复试错。模型以高保真仿真替代高昂的真机采集,从根本上弥合 Sim-to-Real 鸿沟,将数据成本压缩数个数量级。

模型层重点解决具身操作的通用性和导航的长程性,其核心是感知与决策。其中 ABot-M 负责操作,ABot-N 负责导航,两个模型分工训练、通过 Model Skill 机制组合调用,完成长程复杂任务。

应用层的核心是具身版 " 龙虾 "ABot-Claw,通过将异构机器人统一于共享认知框架之下,打造具备调度、记忆、分层控制与社会对齐能力的 " 执行中枢 ",以应对长程任务闭环难、知识不共享等问题。

ABot 体系的设计逻辑,直接沿袭自高德的空间智能飞轮:依托近 10 亿月活场景产生的海量时空数据与实时反馈,算法在闭环中持续迭代,推动模型对物理世界的认知不断加深,飞轮每日在真实世界中自动演进,从根本上界定了高德的体系化优势:不依赖单点技术突破,而是依靠飞轮在真实场景中持续运转的 " 转速 "。

ABot-World:物理合规性、动作可控性、零样本泛化三大维度均达全球第一

当主流世界模型仍受困于 " 视觉幻觉 " 与动力学脱节时,ABot-World 率先突破,成为全球首个将物理定律深度嵌入生成全流程的可微分、可进化动力学引擎。作为 ABot 体系的底层仿真基座,它直接决定了上层模型的物理一致性与泛化上限。正是以该引擎为核心,ABot 体系彻底打通 " 虚拟训练 - 真实部署 " 闭环。

架构上,ABot-World 专为具身智能设计了 14B DiT 架构,以观测与动作为输入,在潜空间直接生成符合时空动力学的未来状态序列,并基于千万级真实数据与多层级采样治理,突破单一任务的泛化制约。

场景构建上,3DGS 冷启动空间基座面向手机拍摄、航测图等稀疏输入,通过 " 粗建模、高保真修复再到蒸馏回环 " 的自动化流程,将低质量视频转化为高质量 3D 场景,大幅拉低数据成本。

训练方面,模型首创 Diffusion-DPO 物理偏好对齐框架,由 VLM 生成物理规则清单并独立判别,构建优劣样本对,驱动模型主动抑制违反物理规律的行为。同时,拉格朗日动力学与 3DGS 重建的融合使得每一帧画面都成为包含质量、摩擦、接触力等属性的可微分物理快照。

除此之外,ABot-World 还构建了 " 训练 + 数据 " 双引擎并行架构,实现模型自进化。依托自有地图与脱敏数据,结合 3DGS 技术实现厘米级重建与光照一致性,系统已累计生产万级 3D 真实场景、百万级推理数据与千万级训练轨迹,覆盖 99% 的典型生活场景。通过接入 VLA 闭环,模型实现 " 预测即训练,演练即学习 " 的持续进化,并经由跨形态动作映射,统一支持多种机械形态的精确控制。

在 PBench、EZSbench、WorldArena、Agibot World Challenge 等主流评测中 ABot-World 持续领先,并成为唯一在物理合规性、动作可控性、零样本泛化三大维度均达 SOTA 的模型。

ABot-N& ABot-M:ABot 体系的 " 运动双核 ",跨本体导航与操作基座斩获 11 项 SOTA

若将 ABot 全栈体系视为具身智能的 " 运行大脑 ",ABot-N 与 ABot-M 便是其 " 运动双核 ",分别掌管机器人的 " 双腿 " 与 " 双手 ",直接响应物理世界中 " 去哪里 " 与 " 做什么 " 的基础指令。依托统一架构设计,高德打造出可解耦和协同的专用基座模型,一举突破跨形态适配与跨任务泛化的技术瓶颈。

作为全球首个实现五大核心导航任务 " 大一统 " 的 VLA 基座模型,ABot-N 具备意图理解、自主决策与持续进化能力,是途途走向开放世界的核心导航引擎。其采用层级式 " 大脑 - 动作 " 架构,通过多模块协同实现单一模型导航任务全覆盖,彻底打破传统专用架构的泛化天花板。

ABot-N 推出后,迅速在 VLN-CE(R2R/RxR)、HM3D-OVON、EVT-Bench 等 7 大权威基准上全面刷新 SOTA,并在导航精度、社会合规性、zero-shot 泛化实现断层式领先。

ABot-M 是全球首个统一架构的具身操作基座模型,其可实现一个 " 通用大脑 " 适配多种形态的机器人,大幅提升操作模型在异构机器人形态和任务场景下的泛化能力。

ABot-M 提出了全球首个动作流形学习,将学习目标由去噪重构转为流形投影,显著提升动作生成的稳定性与解码效率,在高自由度全身控制等复杂场景中展现出更强的可扩展性。并且在感知端,采用语义流和动作流双流并行的架构,提升精细操作的执行精度。

在 LIBERO、LIBERO-Plus、RoboCasa GR1、RoboTwin 2.0 等主流评测中,ABot-M 全面超越 π 0.5、UniVLA、OpenVLA-OFT 等强基线,在泛化能力、鲁棒性与跨形态迁移三个维度实现系统性领先。

不仅如此,ABot-N、ABot-M 的多项子成果入选 ICLR、CVPR 等顶会,成为精确、高效、安全的机器人导航、操作的范式参考。

记忆是机器人跨越认知与执行鸿沟的底层基石。传统机器视觉受限于 " 视野之外即荒原 ",记忆呈场景碎片化,严重制约泛化能力。

为突破这一瓶颈,ABot-Claw 首创 "Map as Memory" 理念,重构具身智能的记忆机制。作为 ABot 体系的 " 执行中枢 ",ABot-Claw 采用集中式 Harness 架构,将高德地图与用户私有地图设为全局认知锚点,把多模态感知数据统一映射至共享语义空间,形成可动态刷新、持久沉淀的 " 世界记忆 "。新终端接入后,仅需读取全局上下文即可零成本继承环境认知,彻底粉碎场景孤岛。

另外,ABot-Claw 采用 " 云端大脑—边缘响应 " 两级设计,兼顾智能深度与执行可靠性。在调度层面,该架构还支持多种异构机器人的并行协作与任务接力,故障时自动接续,实现任务上下文无缝移交与跨形态协作,这标志着机器人系统从 " 单体智能 " 向 " 体系智能 " 的演进,机器人不再是孤立个体,而是共享记忆、统一调度、协同进化的智能网络节点。

ABot-Claw 还首创闭环反馈与纠错机制,在模糊指令理解、跨机导引等复杂场景中充分验证其鲁棒性与泛化性。

伴随高德途途的全球首秀,高德同步宣布将开源 ABot 全体系,此举不仅是对 "AMAPAI Inside" 核心理念的深度践行,更将重塑具身智能的研发范式,加速 AGI 时代的全面到来。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 高德 马拉松 数据驱动 技能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论