智东西
作者 | 李水青
编辑 | 云鹏
智东西 8 月 11 日报道,在世界机器人大会上,阿里达摩院宣布开源其自研的 VLA(视觉 - 语言 - 动作) 模型 RynnVLA-001-7B、世界理解模型 RynnEC、以及机器人上下文协议 RynnRCP,推动数据、模型和机器人的兼容适配,打通具身智能开发全流程。
达摩院将 MCP(模型上下文协议)理念引入具身智能,首次提出并开源 RCP(Robotics Context Protocol)协议,推出一套完整的机器人服务协议和框架 RynnRCP。它类似于一个 " 万能连接器 ",能够打通从传感器数据采集、模型推理到机器人动作执行的完整工作流,目前已支持 Pi0、GR00T N1.5 等多款热门模型以及 SO-100、SO-101 等多种机械臂。
RynnRCP 是一套完整的机器人服务协议和框架,主要由两个模块组成:RCP 框架和 RobotMotion。
RCP 目前实现的主要功能包括:提供机器人本体及相关传感器能力的抽象,对外提供各种功能,并通过标准协议、不同的传输层和模型服务进行交互;RobotMotion 作为云端推理与机器人本体控制之间的桥梁,将离散的低频推理命令实时转换为高频的连续控制信号,驱动机器人完成运动任务。此外,它还配备了运动规划与控制所需的工具包,助力具身智能融入物理世界。
机器人上下文协议 RynnRCP 开源页面截图
开源地址:
https://github.com/alibaba-damo-academy/RynnRCP
RynnVLA-001 是达摩院自研的基于视频生成和人体轨迹预训练的视觉 - 语言 - 动作模型,能够从第一人称视角的视频中学习人类的操作技能,隐式迁移到机器人手臂的操控上。
如下面动图所示,当研发人员告诉机械臂把草莓放到手掌上,机械臂能够理解语言的意思,随后在一些物品中识别出草莓,拿起并放到正确的位置。
RynnVLA-001 演示
研发人员在同一数据集上对基线进行了微调,以评估其性能。对比结果如下图所示,RynnVLA-001 在多项具体的捡拾物品放置测评中都取得了最高分成绩。
RynnVLA-001 测评结果
研发团队提供了如何使用开发者自己的 LeRobot 数据(第 2 阶段和第 3 阶段)对模型进行微调的说明,后续还将发布如何从零开始训练模型的说明。
VLA 模型 RynnVLA-001 开源页面截图
开源地址:
https://github.com/alibaba-damo-academy/RynnVLA-001
世界理解模型 RynnEC 将多模态大语言模型引入具身世界,赋予了大模型理解物理世界的能力。该模型能够从位置、功能、数量等 11 个维度全面解析场景中的物体,并在复杂的室内环境中精准定位和分割目标物体,建立连续的空间感知并支持灵活交互。
RynnEC 是一种专为具身认知任务设计的视频多模态大型语言模型(MLLM),如下图所示,能够对现实世界中几乎无限的事物进行识别和认知分析。本次,达摩院推出了 RynnEC-2B 模型、RynnEC-Bench 和训练代码。
RynnEC 演示
如下图所示,RynnEC-2B 在 Direct Seg(直接分割)、Situational Seg(情境分割)、Material(材料)、State(状态)、Surface(表面)等对象认知测试中超越了 Gemini-2.5-Pro、Qwen2.5-VL-72B 等顶尖模型,并在空间认知测试中大幅超越了这些模型。
RynnEC-2B 测评结果
聚焦 RynnEC-Bench 基准,其在两个关键领域对模型进行评估:object cognition(对象认知)和 spatial cognition(空间认知),评估总体 22 体现的认知能力。
世界理解模型 RynnEC 开源页面截图
开源地址:
https://github.com/alibaba-damo-academy/RynnEC
结语:打通机器人从感知到执行的完整链路
达摩院此次开源的 " 三件套 " ——贯通硬件的 RynnRCP 协议、拟人化操控的 RynnVLA 模型与理解物理世界的 RynnEC 模型,如同为具身智能开发者提供了一套 " 乐高式工具包 "。
它们通过标准化连接、拟人化控制与空间认知三大突破,打通了机器人从感知到执行的完整链路,有望在之后迭代的过程中大幅降低开发门槛,加速具身智能在工业、家庭等场景的规模化落地,让机器人真正 " 看得懂世界,动得像人类 "。
登录后才可以发布评论哦
打开小程序可以发布评论哦