阿里千问进军具身智能,释放了怎样的信号?

过去的两年，AI 的形态发生了快速的转变。从能写诗、写代码的文本模型，到会生图、P 图的图像模型，再到能生成以假乱真视频的视觉模型，AI 认识世界的能力已经开始无限逼近人类。

智能体时代的到来，让人们意识到 AI 不能只是网页中的对话框，而是要操控电脑完成任务。如今，各家 AI 企业又形成了一个隐秘而庞大的共识：AI 的终极形态不能只困在屏幕里，必须走向物理世界。

具身智能（Embodied AI）这个词，去年人们还少有听闻，而如今，2026 年已经被炒作成了 " 具身智能 " 的元年。

为了尽早抢占生态位置，也为了不被其他竞争对手甩开身位，阿里的通义千问团队也正式交出了在具身智能领域的第一份答卷：Qwen-VLA。

事实上，这是阿里延续其 " 重视生态 + 全面覆盖 " 策略又一次明确的体现。VLA，意为 Vision-Language-Action，这不仅标志着千问起步跨入了具身智能赛道，还向行业释放了一个强烈的信号：阿里要做的不是针对单一机器人的 "bug 修复 "，而是要做出一个统领全场景的基座模型。

01 机器人行业正在呼唤 " 秦始皇 "

在拆解 Qwen-VLA 的硬核技术之前，必须先看清它试图解决的商业痛点。

目前的机器人行业，普遍面临着极其严重的碎片化问题。在发布会上，企业总是不可避免地要回答 " 具身智能会在哪个领域优先落地 " 这个问题，答案可能是家用，也可能是制造业。但是，这些答案都太过于广泛，在实际的演示中，我们能看到的往往只有家用机器人表演叠衣服、工业机器人表演物品分类。

换句话说，叠衣服的机器人不会扫地和切菜，物品分类的机器人不会拧螺丝，针对不同品牌的机器人必须要单独定制一套或多套算法才能多覆盖几个细分的应用场景。

从技术角度来看，这明显与通用人工智能（AGI）的理念背道而驰。

从商业逻辑来看，这种 " 专机专用 " 的模式，导致的直接结果就是极高的研发和交付成本，完全享受不到大模型时代的规模化成本优势。只要系统的边际成本降不下来，那么机器人走进千家万户就永远是纸上谈兵。

而 Qwen-VLA 的野心就在于此，它要做具身智能领域的 " 秦始皇 "，实现 " 车同轨，书同文 "。

仔细想想，这与阿里千问做大语言模型的思路几乎完全一致：虽然旗舰模型追不上国外顶尖模型的性能，但它不同规模的开源模型却成为了全球最主流的基座模型，甚至 Anthropic 刚刚推出的 Opus 4.8 都被发现可能蒸馏了 Qwen 系列模型。

回到具身智能领域，在它的架构里，桌面机械臂抓取、双臂协同、视觉语言导航这些不同的环节，被统一抽象成了同一个底层数学问题：在特定的视觉观察、语言指令和机器人形态条件下，预测下一步应该执行的连续动作轨迹。

这就意味着，用一个通用的策略模型，就能横跨多种不同形态的硬件平台。一旦这种 " 通用大一统 " 思路跑通，机器人软件的复用率就会呈现指数级上升，这就是阿里千问在具身智能领域实现商业化落地的破局点。

02" 大脑 + 小脑 " 的技术路线

搞清楚了商业逻辑，就可以深入到技术层面。

具身智能是比现有的大语言模型和智能体更高级的 AI 形态，与物理世界的交互成为了它必须具备的基本技能。因此，让模型在一个仿真世界中进行学习就成了无法跳过的一个重要环节。

目前，模型的世界生成形式主要有两种技术路线：一种是依靠视频生成重建世界，例如 OpenAI 的 Sora 和 Google 的 Genie，另一种则是依靠 3D 空间生成对世界显式建模，例如李飞飞的 World Labs。

不过，阿里千问的 Qwen-VLA 没有沿着过往的道路继续向前探索，而是选择了 "VLA 大一统策略模型 + 扩散动作生成 + 仿真强化学习 " 的融合路线。

三个专业名词都不是新提出来的概念，但这条路线还没有人尝试过。现有的 VLA 模型，核心就在于 " 预测下一帧画面长什么样 "，而 Qwen-VLA 则明确提出，相比于视觉预测，它更强调生成智能体可以直接执行的动作信号。也就是说，它不预测未来的画面，而是直接输出关节角度、底盘方向这些直观的物理参数。

在架构上，Qwen-VLA 按照仿生学设计了类似于人类大脑与小脑协同的框架：

大脑负责认知和理解。采用 Qwen3.5 多模态模型作为中枢，它需要看懂环境并理解人类复杂的语言指令，甚至要能准确判断空间位置关系，比如 demo 中把某个颜色的物体放到另一个颜色的物体旁边这种指令。

小脑负责精细动作的控制。Qwen 团队抛弃了传统的输出头，转而接入了一个拥有 11.5 亿参数、基于扩散模型的动作解码器。这确实是目前 AI 行业最前沿的做法，因为机械臂的动作必须是平滑、连续和高频的，而扩散模型在生成这种细粒度连续轨迹上本来就有天然的优势。

确定了上述架构之后，问题就来到了训练环节。众所周知，VLA 这种多模态模型的训练难度与大语言模型根本不在同一个量级，因此 Qwen 设计了教科书般的四阶段训练法：

顾名思义，从文本到动作预训练，他们把动作视为语言的 " 解压缩 "。在这个阶段，模型甚至不需要接触图像，只是纯粹通过阅读 " 拿起杯子 " 这种语言指令，在小脑中建立起对动作轨迹一连串的 " 肌肉记忆 "，也就是动作先验。

即持续多模态预训练。在模型拥有 " 肌肉记忆 " 之后才允许它 " 睁眼 "，因为模型不仅要严格遵循指令，还必须能看懂眼前真实的画面。在这一步，认知大模型与动作解码器连通，刚刚闭眼学会的 " 拿起杯子 " 动作会和眼前杯子具体的位置、形状、颜色相对应，也就是视觉对齐。

即监督微调。模型能够 " 拿起杯子 "，证明它已经具备了干活的基本能力。接下来要做的，是让它学会如何像人类一样干活。研究人员会挑选出最标准、最高质量的真实人类操作录像，让模型一点点地跟着学，比如折叠衣服、收拾碗筷等等。所谓的模仿学习，就是要让模型学会最标准的动作。

强化学习是所有模型训练的范式。光看录像模仿永远解决不了一个真实存在而且频繁出现的问题：容易 " 死记硬背 "。杯子放歪了一点，手滑了一下，结果就可能是一地碎玻璃。而模型此时也不知道该如何纠错，于是直接宕机。因此，模型必须进入虚拟仿真环境中进行训练，规则也很简单，动作是否标准不重要，完成目标就会得到奖励，只有这样，模型才能在无数次失败中学会自我纠错。

莫拉维克悖论告诉了人们一件事：对人类来说，走路、抓取都是再简单不过的物理动作，对 AI 来说却难如登天。其核心原因已经得到了广泛的共识：数据极度匮乏。

互联网上有数以万亿计的文本，但真实世界中的物理动作参数却无限接近于零。

规模化法则在具身智能领域同样适用。为了喂饱 Qwen-VLA，阿里千问体现出了强大的财力和工程能力，构建起了极度复杂且庞大的数据源：

其中，74.2% 的真机遥操作数据占了绝对的大头。除了全球开源的机器人数据集，阿里还内部收集了超过 1000 小时的真实机器人遥操作数据，也就是人类佩戴设备控制机器人干活留存下来的轨迹数据。这些数据，能够转变为最宝贵且最真实的物理参数。

与此同时，阿里千问也没有放弃视频生成这条路，人类第一视角视频数据也占了 6%。这部分数据相比之下更容易获得，人类佩戴摄像头干活，然后保留下稳定的视频数据即可。虽然没有直接可用于机器人的参数，但模型仍然能够从中学习到人类双手的动作逻辑。

上述两种数据最大的优点就在于高质量和高有效性，但离不开人类操作，这就会导致成本居高不下。

为了解决这个问题，大规模合成仿真（3.7%）成为了具身智能企业的首选。这种方式不仅能降低成本，还能大大提升数据积累的速度，Qwen 团队使用仿真引擎，目前已经自动生成了超过 800 万条物理碰撞的轨迹，能够覆盖多种罕见的长尾场景。

最后则是通用的图文数据（8.5%）。为了让模型在实际应用场景中不至于忘掉最基本的常识和认知，数据集中还掺入了常规的多模态问答数据。

想要评估一个用于具身智能的模型强不强，标准与大语言模型和智能体截然不同。在实验室等预设、可控环境中表现得再好，也可能在遇到从没见过的事物时突然宕机。

这也是 Qwen-VLA 的亮眼之处。它不仅打平甚至碾压了 ABot-M0 和 StarVLA 等多个仿真专属模型，还在真实的双臂机器人上展现出了极强的分布外泛化能力以及动态场景零样本能力。

简单来说，对于完全没见过的物体，照样能够抓取。训练时模型可能只见过抓取木块和杯子，但测试时变成了玩具鸭和墨镜，只要用户给出准确的指令，视觉大脑就能够准确定位，小脑迅速规划动作并成功抓取物体。

同时，真实世界中光线背景随时都会改变，但模型并不会因此受到影响。把背景换成训练中从未见过的颜色或者高亮 / 低亮环境，模型仍然能够完成极其精细的动作，完全不会受到背景噪音的干扰。

更难的场景在于那些动态移动的物体，Qwen-VLA 展现出了最大的优势：零样本出击。在 DOMINO 动态操控评测中，针对一直处于移动状态的物体，Qwen-VLA 可以在没有任何特殊微调的情况下，实时调整轨迹、精准拦截并完成操作，效果甚至超越了一大批专门针对动态场景优化的传统模型。

05 距离真正的 AGI 还有多远？

抛开这些激动人心的成绩单，用客观的眼光重新审视 Qwen-VLA，所有人都应该认清一个事实：这最多只能算是一次早期的探索，具身智能距离真正的落地还差得很远。

所谓的 " 具身智能元年 "，完全是一次商业上的营销。Qwen 团队在论文中坦诚指出模型存在几点局限性，其实是全球具身智能企业都要面对的问题：

一是动作数据量级依然太小。相比于动辄以 TB 计的文本预训练数据，目前的物理动作数据在规模和多样性上都还远远不够。一旦面对极其复杂的接触式交互，模型仍然缺乏健壮性。

二是 " 既要又要 " 的优化妥协。在现有的技术路径距离 AGI 遥遥无期的背景下，VLA 是一个值得肯定的探索思路。但强行把视觉、语言、导航和动作生成这些环节放到一起训练，就必须直面左右互搏的优化难题。有些纯视觉能力在引入动作训练后，反而可能发生性能倒退。

三是缺少触觉反馈的无实物表演。具身智能的落地需要各种物理接触，然而目前的输入仍然重度依赖视觉，缺乏力反馈、触觉和本体感觉的深度融合。如果不解决多模态传感器的融合问题，机器人永远不能像人一样 " 用双手 " 干活。

四是长程任务依然是痛点。现有的评测大多是十几秒的短任务，如何让机器人在长达数小时的任务中自主规划并分解步骤，甚至是从失败中自动恢复，目前仍然是一个开放难题，智能体的经验恐怕不能直接挪用。

总之，从察言观色到下场干活是本质上的跨越，绝非一朝一夕所能实现。

而阿里 Qwen-VLA 的发布，证明了 " 用统一的大模型基座去收敛碎片化的物理控制 " 这条路径是完全可行的。

当算法开始真实地感受到重力、摩擦力和空间阻隔，人工智能的浪潮才算真正抵达了物理世界的海岸。

宙世代

一起剪

相关标签