从 " 纯数字聊天 " 拉进 " 操控物理世界 " 的新阶段。
6 月 16 日,阿里巴巴正式发布千问大模型家族首个完整的具身智能模型系列 —— Qwen-Robot,一口气推出三大核心模型,分别为 VLA 操作模型 Qwen-RobotManip、VLN 移动模型 Qwen-RobotNav 和世界模型 Qwen-RobotWorld。

这场憋了很久的大招,阿里一口气甩出了三张王牌。
Qwen-RobotManip 解决 " 手笨 " 的问题,通过视觉——语言——动作一体化学习,能精准抓取螺丝、装配零件,甚至完成拧瓶盖、叠衣服这类精细动作。
Qwen-RobotNav 解决 " 路痴 " 的问题,不用预先建图,就能在陌生写字楼、商场里自主导航,还能看懂人类用的地铁线路图和导览牌。
而作为核心的 Qwen-RobotWorld,则给机器人装上了 " 会预判的大脑 ",能理解物理规律、预判物体运动,实现从 " 看到 " 到 " 做到 " 的完整闭环。
三个模型既能单独用,也能无缝协同,直接成为各类机器人的通用智能底座。

这次不是换皮的大模型更新,阿里已经搭好了从手到脚再到大脑的完整技术体系。
Qwen-Robot 系列是国内首个同时覆盖操作、导航和世界建模三大核心能力的完整具身智能模型系列,而大多数竞争对手目前仍只在单一领域有所突破。它深度继承了通义千问 3.7 系列的技术成果,特别是全域思考模式(All-field Thinking),首次实现了文本、图像、代码和物理动作的统一推理链,打破了海外模型仅支持文本思考链的限制。
同时,依托阿里云强大的算力基础设施和百炼 MaaS 平台,Qwen-Robot 系列提供了从模型训练、微调、部署到应用开发的全链路服务,企业可以快速将其集成到自己的机器人产品中,大幅降低具身智能的落地门槛。阿里还宣布将开放 Qwen-Robot 的部分接口,邀请机器人厂商、科研机构和开发者共同完善生态系统,首批合作伙伴已包括多家工业机器人和服务机器人企业。
这已经是它短短一个月内发布的第三款重磅大模型。
5 月 20 日,Qwen3.7-Max 横空出世,在第三方机构 Artificial Analysis 全球总榜中拿下 56.6 分,稳居国产模型第一。6 月 2 日,Qwen3.7-Plus 多模态智能体登场,不再只会 " 看图说话 ",能直接操控电脑界面、调用工具、写代码,11 小时就能独立开发出一个完整的英语学习 App。

阿里这边步步紧逼,国内大模型战场早已杀红了眼。
字节跳动更不手软,6 月 10 日刚开放豆包专业版灰度测试,最高档年费突破 5000 元,同时字节正在砸重金押注世界模型,目标年底前做到全球最佳水平。DeepSeek 继续走 " 技术碾压 + 价格屠杀 " 路线,V4 Flash 登顶斯坦福 HELM 全项第一,API 价格低到让同行直呼 " 没法活 "。MiniMax 的 M3 模型对标 Claude Sonnet,定价却只有对方的五分之一。腾讯云更是直接跟进降价,最高降幅达 97.5%,把价格战打到了地板以下。
当通用大模型的能力逐渐趋同,谁能先把 AI 从屏幕里解放出来,走进工厂、走进家庭、走进真实的物理世界,谁就能拿下未来十年的话语权。
阿里手握云计算的算力优势,还有电商、物流、制造等海量真实场景,在具身智能的商业化落地方面天然领先。但百度的先发积累、字节的流量攻势、DeepSeek 的技术狠劲,都让这场较量充满变数。
来源:星河商业观察


登录后才可以发布评论哦
打开小程序可以发布评论哦