
来源:猎云网
4 月 19 日,在 2026 北京亦庄机器人半程马拉松上,阿里巴巴旗下高德正式公开全球首款开放环境全自主具身机器人 " 高德途途 ",这款四足机器人成功协助视障人士完成复杂避障、人群穿行等实战挑战,突破了 " 实验室 " 到 " 开放环境 " 之间的技术鸿沟。

途途能够应对导盲等严苛场景的底层依托,正是高德全新发布的 ABot 全栈具身技术体系。该体系基于上万种真实场景与千万级多模态 Clip 数据,将高德沉淀的空间智能资产高效转化为具身核心训练资源,打造出全球首个面向 AGI 的全栈具身技术体系。
ABot 体系,从架构上突破了传统具身智能 " 单点拼凑、封闭验证 " 的碎片化路径,以 AGI 为核心目标,首次将数据引擎、基座模型与执行中枢耦合为统一系统。目前,高德 ABot 系列模型已经在全球 15 项权威基准测试中拿到 SOTA。
ABot 体系:三层飞轮式设计,构建持续进化的具身智能闭环
ABot 体系采用闭环飞轮式设计,涵盖数据、模型、应用三层,架构并非简单堆叠,而是深度咬合、互为引擎,实现 " 数据驱动模型、模型服务应用、应用反哺数据 ",精准击穿数据稀缺、仿真鸿沟与技能泛化三大行业瓶颈,形成持续自我进化的完整闭环。
数据是具身智能的核心 " 燃料 ",直接决定其泛化能力的天花板。不同于大语言模型,传统真机采集难以规模化,成本呈指数级攀升。
作为数据层的核心, ABot-World 通过批量合成 Video、Depth、Point Cloud、Trajectory 四类训练数据,配合 RL Training Engine 在虚拟环境里定义奖惩、反复试错。模型以高保真仿真替代高昂的真机采集,从根本上弥合 Sim-to-Real 鸿沟,将数据成本压缩数个数量级。
模型层重点解决具身操作的通用性和导航的长程性,其核心是感知与决策。其中 ABot-M 负责操作,ABot-N 负责导航,两个模型分工训练、通过 Model Skill 机制组合调用,完成长程复杂任务。
应用层的核心是具身版 " 龙虾 "ABot-Claw,通过将异构机器人统一于共享认知框架之下,打造具备调度、记忆、分层控制与社会对齐能力的 " 执行中枢 ",以应对长程任务闭环难、知识不共享等问题。
ABot 体系的设计逻辑,直接沿袭自高德的空间智能飞轮:依托近 10 亿月活场景产生的海量时空数据与实时反馈,算法在闭环中持续迭代,推动模型对物理世界的认知不断加深,飞轮每日在真实世界中自动演进,从根本上界定了高德的体系化优势:不依赖单点技术突破,而是依靠飞轮在真实场景中持续运转的 " 转速 "。
ABot-World:物理合规性、动作可控性、零样本泛化三大维度均达全球第一
当主流世界模型仍受困于 " 视觉幻觉 " 与动力学脱节时,ABot-World 率先突破,成为全球首个将物理定律深度嵌入生成全流程的可微分、可进化动力学引擎。作为 ABot 体系的底层仿真基座,它直接决定了上层模型的物理一致性与泛化上限。正是以该引擎为核心,ABot 体系彻底打通 " 虚拟训练 - 真实部署 " 闭环。
架构上,ABot-World 专为具身智能设计了 14B DiT 架构,以观测与动作为输入,在潜空间直接生成符合时空动力学的未来状态序列,并基于千万级真实数据与多层级采样治理,突破单一任务的泛化制约。
场景构建上,3DGS 冷启动空间基座面向手机拍摄、航测图等稀疏输入,通过 " 粗建模、高保真修复再到蒸馏回环 " 的自动化流程,将低质量视频转化为高质量 3D 场景,大幅拉低数据成本。
训练方面,模型首创 Diffusion-DPO 物理偏好对齐框架,由 VLM 生成物理规则清单并独立判别,构建优劣样本对,驱动模型主动抑制违反物理规律的行为。同时,拉格朗日动力学与 3DGS 重建的融合使得每一帧画面都成为包含质量、摩擦、接触力等属性的可微分物理快照。
除此之外,ABot-World 还构建了 " 训练 + 数据 " 双引擎并行架构,实现模型自进化。依托自有地图与脱敏数据,结合 3DGS 技术实现厘米级重建与光照一致性,系统已累计生产万级 3D 真实场景、百万级推理数据与千万级训练轨迹,覆盖 99% 的典型生活场景。通过接入 VLA 闭环,模型实现 " 预测即训练,演练即学习 " 的持续进化,并经由跨形态动作映射,统一支持多种机械形态的精确控制。
在 PBench、EZSbench、WorldArena、Agibot World Challenge 等主流评测中 ABot-World 持续领先,并成为唯一在物理合规性、动作可控性、零样本泛化三大维度均达 SOTA 的模型。
ABot-N& ABot-M:ABot 体系的 " 运动双核 ",跨本体导航与操作基座斩获 11 项 SOTA
若将 ABot 全栈体系视为具身智能的 " 运行大脑 ",ABot-N 与 ABot-M 便是其 " 运动双核 ",分别掌管机器人的 " 双腿 " 与 " 双手 ",直接响应物理世界中 " 去哪里 " 与 " 做什么 " 的基础指令。依托统一架构设计,高德打造出可解耦和协同的专用基座模型,一举突破跨形态适配与跨任务泛化的技术瓶颈。
作为全球首个实现五大核心导航任务 " 大一统 " 的 VLA 基座模型,ABot-N 具备意图理解、自主决策与持续进化能力,是途途走向开放世界的核心导航引擎。其采用层级式 " 大脑 - 动作 " 架构,通过多模块协同实现单一模型导航任务全覆盖,彻底打破传统专用架构的泛化天花板。
ABot-N 推出后,迅速在 VLN-CE(R2R/RxR)、HM3D-OVON、EVT-Bench 等 7 大权威基准上全面刷新 SOTA,并在导航精度、社会合规性、zero-shot 泛化实现断层式领先。
ABot-M 是全球首个统一架构的具身操作基座模型,其可实现一个 " 通用大脑 " 适配多种形态的机器人,大幅提升操作模型在异构机器人形态和任务场景下的泛化能力。
ABot-M 提出了全球首个动作流形学习,将学习目标由去噪重构转为流形投影,显著提升动作生成的稳定性与解码效率,在高自由度全身控制等复杂场景中展现出更强的可扩展性。并且在感知端,采用语义流和动作流双流并行的架构,提升精细操作的执行精度。
在 LIBERO、LIBERO-Plus、RoboCasa GR1、RoboTwin 2.0 等主流评测中,ABot-M 全面超越 π 0.5、UniVLA、OpenVLA-OFT 等强基线,在泛化能力、鲁棒性与跨形态迁移三个维度实现系统性领先。
不仅如此,ABot-N、ABot-M 的多项子成果入选 ICLR、CVPR 等顶会,成为精确、高效、安全的机器人导航、操作的范式参考。
记忆是机器人跨越认知与执行鸿沟的底层基石。传统机器视觉受限于 " 视野之外即荒原 ",记忆呈场景碎片化,严重制约泛化能力。
为突破这一瓶颈,ABot-Claw 首创 "Map as Memory" 理念,重构具身智能的记忆机制。作为 ABot 体系的 " 执行中枢 ",ABot-Claw 采用集中式 Harness 架构,将高德地图与用户私有地图设为全局认知锚点,把多模态感知数据统一映射至共享语义空间,形成可动态刷新、持久沉淀的 " 世界记忆 "。新终端接入后,仅需读取全局上下文即可零成本继承环境认知,彻底粉碎场景孤岛。
另外,ABot-Claw 采用 " 云端大脑—边缘响应 " 两级设计,兼顾智能深度与执行可靠性。在调度层面,该架构还支持多种异构机器人的并行协作与任务接力,故障时自动接续,实现任务上下文无缝移交与跨形态协作,这标志着机器人系统从 " 单体智能 " 向 " 体系智能 " 的演进,机器人不再是孤立个体,而是共享记忆、统一调度、协同进化的智能网络节点。
ABot-Claw 还首创闭环反馈与纠错机制,在模糊指令理解、跨机导引等复杂场景中充分验证其鲁棒性与泛化性。
伴随高德途途的全球首秀,高德同步宣布将开源 ABot 全体系,此举不仅是对 "AMAPAI Inside" 核心理念的深度践行,更将重塑具身智能的研发范式,加速 AGI 时代的全面到来。


