阿里杀入具身智能

（世界模型工场关注 AI 圈内部消息，获取更多一手消息）

导语：具身智能已经成了中国 AI 圈最热的赛道之一。

大模型战争，正在从对话框打到现实世界。

6 月 16 日，阿里巴巴发布千问具身智能大模型 Qwen-Robot 系列。

和过去只会聊天、写代码、看图片的大模型不同，这一次，阿里要开始控制机器人进入真实世界。

Qwen-Robot 是什么？

这次阿里发布的 Qwen-Robot 不是一个单独的机器人模型，而是一套模型组合，包括三部分：

丨 Qwen-RobotManip：负责操作，相当于机器人的 " 手 "。

它是视觉 - 语言 - 动作模型，也就是 VLA。

机器人不只是看见杯子、听懂拿起来，还要生成一串连续动作。

这类模型难在适配不同机器人，机械臂、双臂机器人、人形机器人，身体结构都不一样。

它的一个亮点，是采用 80 维统一动作表征，相当于给不同硬件定义一套通用肢体语言。

它还基于摄像头画面里的相对位置操作，不必过度依赖繁琐的绝对坐标计算。

在数据层面，它基于完全由开源数据构建的超过 38000 小时语料库完成预训练，并在 RoboChallenge Table30 v1 真机测评中包揽前两名。

丨 Qwen-RobotNav：负责导航，相当于机器人的 " 脚 "。

它是视觉语言导航模型，也就是 VLN。

它要让机器人听懂自然语言，并在真实空间里移动。

比如 " 去厨房门口 "" 绕过桌子 "" 找一下我的行李箱 "，机器人要一边看环境，一边记住走过哪里，一边规划下一步路线。

它的亮点是把语言指令导航、目标搜索、自动驾驶等五大任务族，统一到同一个框架里。

过去这些任务往往分开做，现在它试图用一套模型，处理多种移动智能体任务。

此外，它还提出任务自适应观察机制，可以根据任务灵活切换记忆策略。

它也是业内少数原生支持多种智能体框架的 VLN 模型，并已在宇树 Go2 四足机器人上实现零样本真实环境部署。

丨 Qwen-RobotWorld：负责思考，相当于机器人的 " 大脑 "。

它是世界模型。

所谓世界模型，不只是识别物体，而是推演物理世界接下来会怎么变化。

比如杯子被推到桌边会不会掉，抽屉拉开后里面东西会怎么移动，机器人下一步动作是否合理。

它的特别之处，是以自然语言作为统一动作接口，把机器人操作、自动驾驶、室内导航等多类场景打通。

训练上，它拥有 860 万条视频和文本对、超过 2 亿帧画面，并采用 30% 通用视频数据和 70% 具身专属数据混合训练。

所以，Qwen-Robot 系列模型，是把操作、导航、世界推演组合成一套机器人通用能力栈。

阿里为何下场？

毫无疑问，具身智能已经成了中国 AI 圈最热的赛道之一。

2026 年一季度，国内具身智能赛道披露融资超过 50 起，获投企业超过 30 家，累计融资额约 200 亿元。

宇树科技、智元机器人、银河通用、星海图、自变量机器人、智平方、千寻智能、云深处等公司，纷纷跻身百亿估值阵营。

具身智能，正在变成资本、产业和大厂共同押注的新战场。

猛一看，阿里这次发布 Qwen-Robot，不过是在追机器人的风口。

但更深的原因，在于大模型竞争的方向在变化。

过去两年，大模型竞争主要发生在数字世界。聊天、写作、代码、搜索、办公、Agent，本质上都是 AI 在屏幕里完成任务。

但具身智能不同，它要让 AI 控制机器人，在物理世界完成真实任务。

比如，让机器人进入仓库、工厂、商超、家庭、物流场景，完成搬运、分拣、巡检、配送、服务等任务。

如果未来机器人都需要一个通用大脑，那么这个大脑就可能变成新的云服务、新的模型底座，甚至新的产业入口。

这正是阿里必须下场的原因。

它不一定要亲自造机器人，但它一定不能错过机器人最核心的智能层。

具身智能，是大模型走向产业和物理世界的重要下一站。

在这一领域，阿里已有积累。

2025 年 8 月，阿里达摩院开源过 RynnVLA、RynnEC、RynnRCP 等模型和协议，分别对应动作生成、世界理解，以及机器人本体、传感器、模型服务和动作执行之间的连接。

之后，千问团队又推出 Qwen-VLA，把 Qwen 的视觉语言能力，扩展到动作生成和轨迹预测。

这次 Qwen-Robot 的发布，是把具身智能能力正式放进千问主品牌，变成了机器人行业听得懂、用得上的三类模块。

这意味着，具身智能不再只是阿里实验室里的研究方向，而是正式进入阿里大模型的主战场。

这个 " 大脑 " 有什么不一样？

现阶段做具身智能的公司，几乎都在讲 " 大脑 "。

智元发布 GO-1，强调 " 一脑多形 " 和数据回流；自变量发布 WALL-B，主打世界统一模型；银河通用推出 LDA-1B，讲世界 - 动作统一框架；星海图发布 G0，用 " 快慢双脑 " 让机器人完成整理床铺这类长程任务。

那么，阿里 Qwen-Robot 和这些机器人公司的具身智能模型，有什么不同？

最大的区别，在于起点不同。

阿里是从大模型往机器人走。

它原来有大语言模型、多模态模型、Agent、视频理解模型和云服务能力。

Qwen-Robot 更像是在这些基础上，继续往操作、导航、世界模型延伸。

具身智能厂商则是从机器人往大模型走。

它们先有本体、机械臂、传感器、运动控制和真实任务，再用机器人每天采集的数据训练自己的 VLA、世界模型或具身大脑。

这决定了双方优势不同。

阿里的优势，是模型底座强、生态大、平台化能力强。

Qwen-Robot 如果跑通，可以不绑定某一台机器人，而是变成很多机器人公司都能调用的通用能力。

这更像机器人行业的安卓，或者未来云端机器人模型 API。

但阿里的短板也明显，真实机器人不是它的主业。

具身智能最后比的不是 benchmark，而是真机数据、失败数据、场景闭环。

机器人在实验室抓起杯子，和在仓库、商超、家庭里连续工作，是两回事。

这正是具身智能厂商的优势。

智元、自变量、星海图、银河通用这类公司，离真实机器人更近。

它们有自己的本体，有数据采集链路，有真机测试，也能把失败案例重新回流到训练系统。

这些公司的模型，通常不是为了做一个通用 API，而是为了让自己的机器人更快进工厂、进商超、进家庭，完成具体任务。

所以，阿里和具身智能厂商很可能走出两条路径。

一条是阿里这样的基础模型厂商，做通用底座、云服务和开发者生态；

另一条是机器人公司，做本体、数据、场景和端到端闭环。

前者赢在规模化和生态，后者赢在真实世界的脏活累活。

大厂纷纷入局具身智能

Qwen-Robot 背后真正值得关注的，不只是阿里，大厂们都在从大模型走向具身智能。

腾讯有 HY-Embodied，字节 Seed 团队在做 VLA，京东发布具身智能数据基础设施和具身大模型，小米也在探索机器人本体和端侧模型。

再加上美团、阿里、字节、京东频繁投资机器人公司，信号已经很清楚：

大厂不再只是围观具身智能，而是在抢未来机器人背后的入口。

谁能让更多机器人调用自己的模型，谁就有机会成为物理世界里的新平台。

这也是为什么大厂们要从投机器人公司，走向自研具身模型。

但热闹归热闹，具身智能离真正爆发还有很长一段路。

高质量真机数据、真实环境里的泛化能力、成本、安全、部署和维护等，都是具身智能产业尚未解决的问题。

当国内大厂开始集体争夺具身智能入口，这未必只是另一场内卷。

它也可能意味着，机器人进入真实产业的速度，已经开始加快。

# 阿里 # 具身智能

追加内容

本文作者可以追加内容哦 !

宙世代

一起剪

相关标签