阿里达摩院开源具身智能三件套！RCP协议首解机器人开发碎片化难题

智东西

作者 | 李水青

编辑 | 云鹏

智东西 8 月 11 日报道，在世界机器人大会上，阿里达摩院宣布开源其自研的 VLA（视觉 - 语言 - 动作）模型 RynnVLA-001-7B、世界理解模型 RynnEC、以及机器人上下文协议 RynnRCP，推动数据、模型和机器人的兼容适配，打通具身智能开发全流程。

达摩院将 MCP（模型上下文协议）理念引入具身智能，首次提出并开源 RCP（Robotics Context Protocol）协议，推出一套完整的机器人服务协议和框架 RynnRCP。它类似于一个 " 万能连接器 "，能够打通从传感器数据采集、模型推理到机器人动作执行的完整工作流，目前已支持 Pi0、GR00T N1.5 等多款热门模型以及 SO-100、SO-101 等多种机械臂。

RynnRCP 是一套完整的机器人服务协议和框架，主要由两个模块组成：RCP 框架和 RobotMotion。

RCP 目前实现的主要功能包括：提供机器人本体及相关传感器能力的抽象，对外提供各种功能，并通过标准协议、不同的传输层和模型服务进行交互；RobotMotion 作为云端推理与机器人本体控制之间的桥梁，将离散的低频推理命令实时转换为高频的连续控制信号，驱动机器人完成运动任务。此外，它还配备了运动规划与控制所需的工具包，助力具身智能融入物理世界。

机器人上下文协议 RynnRCP 开源页面截图

开源地址：

https://github.com/alibaba-damo-academy/RynnRCP

RynnVLA-001 是达摩院自研的基于视频生成和人体轨迹预训练的视觉 - 语言 - 动作模型，能够从第一人称视角的视频中学习人类的操作技能，隐式迁移到机器人手臂的操控上。

如下面动图所示，当研发人员告诉机械臂把草莓放到手掌上，机械臂能够理解语言的意思，随后在一些物品中识别出草莓，拿起并放到正确的位置。

RynnVLA-001 演示

研发人员在同一数据集上对基线进行了微调，以评估其性能。对比结果如下图所示，RynnVLA-001 在多项具体的捡拾物品放置测评中都取得了最高分成绩。

RynnVLA-001 测评结果

研发团队提供了如何使用开发者自己的 LeRobot 数据（第 2 阶段和第 3 阶段）对模型进行微调的说明，后续还将发布如何从零开始训练模型的说明。

VLA 模型 RynnVLA-001 开源页面截图

开源地址：

https://github.com/alibaba-damo-academy/RynnVLA-001

世界理解模型 RynnEC 将多模态大语言模型引入具身世界，赋予了大模型理解物理世界的能力。该模型能够从位置、功能、数量等 11 个维度全面解析场景中的物体，并在复杂的室内环境中精准定位和分割目标物体，建立连续的空间感知并支持灵活交互。

RynnEC 是一种专为具身认知任务设计的视频多模态大型语言模型（MLLM），如下图所示，能够对现实世界中几乎无限的事物进行识别和认知分析。本次，达摩院推出了 RynnEC-2B 模型、RynnEC-Bench 和训练代码。

RynnEC 演示

如下图所示，RynnEC-2B 在 Direct Seg（直接分割）、Situational Seg（情境分割）、Material（材料）、State（状态）、Surface（表面）等对象认知测试中超越了 Gemini-2.5-Pro、Qwen2.5-VL-72B 等顶尖模型，并在空间认知测试中大幅超越了这些模型。

RynnEC-2B 测评结果

聚焦 RynnEC-Bench 基准，其在两个关键领域对模型进行评估：object cognition（对象认知）和 spatial cognition（空间认知），评估总体 22 体现的认知能力。

世界理解模型 RynnEC 开源页面截图

开源地址：

https://github.com/alibaba-damo-academy/RynnEC

结语：打通机器人从感知到执行的完整链路

达摩院此次开源的 " 三件套 " ——贯通硬件的 RynnRCP 协议、拟人化操控的 RynnVLA 模型与理解物理世界的 RynnEC 模型，如同为具身智能开发者提供了一套 " 乐高式工具包 "。

它们通过标准化连接、拟人化控制与空间认知三大突破，打通了机器人从感知到执行的完整链路，有望在之后迭代的过程中大幅降低开发门槛，加速具身智能在工业、家庭等场景的规模化落地，让机器人真正 " 看得懂世界，动得像人类 "。

宙世代

一起剪

相关标签