跨越VLA的“虚实鸿沟”,中国具身智能大模型长出“新大脑”

当具身智能行业里大多数玩家都在抢滩 IPO 时，有人却把重心放在了大模型上。

一面是宇树科技科创板 IPO 过会、智元启动赴港 IPO，行业从一级市场加速向二级市场迁徙；另一面，行业内部的路线竞争却在肉眼可见地白热化，从硬件形态之争，到数据来源之争，再到如今最核心的 " 大脑 " 架构之争。

在这个当口，国内两家具身智能公司几乎同时拿出了各自的 " 答卷 "。

5 月 29 日，自变量机器人发布了全球首个「事件级预测」具身智能世界模型 WALL-WM，颠覆了行业沿用数十年的 " 按帧学习 " 范式；6 月初，星海图紧随其后推出了新一代具身基础模型 G0.5，在七项独立评测中全面领先，并在业界公认最难的长程任务基准 BEHAVIOR-1K 上，以一个通用策略模型，击败了 π 0.5 和以往依赖多个专用模型的冠军方案。

在行业普遍 " 重硬件、轻软件 " 的叙事惯性下，这两家公司为什么偏偏选择了这条既慢又重的路？

大模型的 " 天花板 " 被捅破了？

目前市面上主流的具身智能企业，绝大多数都采用了 VLA（视觉 - 语言 - 动作）这条技术路线。但在 VLA 范式下，具身智能模型的进化天花板其实肉眼可见。

首当其冲的便是 " 虚实鸿沟 " 这一世界性难题。2026 年 4 月，斯坦福大学发布的《AI Index Report 2026》揭示了一个令人警醒的现实：由于仿真环境难以完全模拟真实世界的物理属性，某些机器人在仿真环境中高达 89.4% 成功率，在真实家庭场景中骤降至 12%。

与此同时，VLA 模型依赖互联网图文数据训练，虽能识别物体，却难以真正理解施力、形变等物理交互规律，被业内戏称为 " 缸中大脑 "。

更棘手的是，VLA 在通用化与自主化维度的脆弱泛化能力，导致一旦场景变化或任务链条拉长，成功率便会剧烈下降。正是这种数据驱动下的 " 盲走 "，卡住了行业的瓶颈。

面对这一结构性天花板，星海图和自变量机器人，几乎同时从两个截然不同的方向给出了各自的回答。

首先，星海图 G0.5 的做法，可以理解为在 VLA 架构内部做了一次彻底的 " 底层重构 "。

它跳出了传统 VLA"VLM 做编码器 + 独立动作专家 " 的路径依赖，在这条路上，VLM 输出的隐藏状态要经过压缩才能传递给动作模块，核心推理能力被稀释了大半。G0.5 的解法相当直接：让同一个模型、同一套权重，在自回归 token 序列中同步生成推理 token 与动作 token。自此，VLM 的链式思维、上下文学习、prompt 调制等生成式能力，可以原生作用于动作生成，中间不再隔着那个让信息严重损耗的压缩瓶颈。

而这套架构落地，靠的是一项不小的工程功。

G0.5 引入了跨本体动作编解码器，将 18 种机器人本体数据统一到 27 维动作空间，并通过 " 活跃自由度预测 " 机制避免为静止关节浪费 token。例如在双臂任务中，这套稀疏设计就能节省将近一半的 token 量。

原生思维链机制则让模型在生成动作前先输出子任务分解、目标框等推理 token，这些推理结果与动作 token 受同一损失函数约束，真正实现了 " 边思考边行动 "。

再加上时空注意力模块通过分解的时空注意力机制，将历史视觉信息融入当前决策，尤其适用于需要反复穿越空间的长程任务。

量化数据更能说明问题。

在真实机器人数据集 DROID 的 10 项桌面任务中，G0.5 未经任何微调即达 82.5% 的平均成功率，较前代模型提升 25 个百分点；在 SimplerEnv-Bridge 跨数据集迁移测试中取得 87.3% 的成绩，超越所有对比模型；在双臂协调测试 RoboTwin 2.0 中取得 93.3% 的平均成绩……

最直观的检验来自 BEHAVIOR-1K，包含 50 个完整家庭场景的长程任务，单次演示平均时长 6.6 分钟。G0.5 仅用单个预训练模型训练 1 个 epoch，就以 0.2904 的任务成功率超越了前代训练 4 个周期的成绩，更胜过使用 4 个模型集成的冠军方案。

如果说 G0.5 是对 VLA 的一次 " 内部大重构 "，那么自变量机器人团队带来的全球首个「事件级预测」具身智能世界模型 WALL-WM 则是彻底换了一条赛道。它不再走 VLA 的老路，而是从 " 世界模型 " 的视角重新思考机器人怎么学动作。

传统 VLA 的思路是把机器人动作切成固定长度的 " 帧块 " 来学：预测 0.1 秒后手在哪、0.2 秒后手在哪……把一个抓杯子的动作拆成几十张几乎雷同的画面，让模型一帧一帧去死记硬背。

结果就是，模型记住的是 " 手指每帧挪几毫米 "，而不是 " 抓住杯子 " 这个目标。如果在这时换个桌子、换种节奏，就会立刻翻车。

为了实现这一关键突破，自变量团队在论文中指出，文本、视觉、动作这三类信息在高维空间中具有不同的流形几何与时间尺度，" 完全对齐 " 在本质上就是不现实的。

文本是低熵离散语义，视觉是高维连续场景动态，动作则被物理世界强约束，三者既不共享空间邻域也不共享时间尺度，强行压入同一共享空间，只会让预训练先验在动作捷径中被覆盖。这也能解释为何相当多数 VLA 仿真效果亮眼，真机落地却大打折扣。

所以 WALL-WM 的解法则相当 " 反常识 "。它把预测单位从时间帧换成了语义事件——伸手、抓取、提起、移动、放置，这些有明确物理意义的行为片段，才是机器人真正需要学会的东西。这时，模型不再问 "0.1 秒后是什么样 "，而是直接想象 " 抓住杯子那一刻 " 是什么样，并基于这个想象同步生成抵达它的动作。

具体来说，WALL-WM 做的不是直接从画面生成动作，而是先让模型理解 " 下一个事件会让世界怎么变 "，再把这种变化翻译成机器人该执行的轨迹。这背后是一整套从感知到控制的路径重构：事件指令入口告诉模型 " 下一步要做什么 "；事件世界模型负责预演 " 下一个事件会让世界怎么变 "；动作生成层将这种变化翻译成机器人可执行的轨迹。

总的来看，G0.5 和 WALL-WM 在 VLA 路线逐渐逼近天花板的行业节点上，分别从 " 架构内部重构 " 和 " 换道世界模型 " 两个方向撕开了一道裂缝，第一次让行业知道机器人这颗 " 大脑 "，不再只有一种答案。

什么样的土壤，长出了这两颗 " 大脑 "？

技术突破从来不是凭空发生的。

G0.5 和 WALL-WM 的背后，是两家公司在技术路线选择、数据策略和资本布局上的长期定力。其中最显著的共性，在于对 " 大脑先行 " 战略的坚持。

星海图创始人高继扬出身 Waymo 和 Momenta 的自动驾驶量产研发一线，其创始团队兼具清华学术背景与一线工程实战经验。在行业普遍遵循 " 硬件先行 " 逻辑的背景下，星海图反其道而行之——将大量精力投入大模型的预训练架构设计，用工厂和商业场所的真实部署数据持续反哺 G 系列模型迭代。

自变量则更纯粹，从创立之初就确立了 " 大小脑统一的端到端大模型 " 的技术路线。他们认为，" 大脑 " 不是 AI 模型的下游应用，而是与语言大模型平行存在的物理世界基础模型。

不过，虽然两家公司都押注了 " 大脑先行 " 这条更 " 重 " 却更真实的路线，但在路径选择上却各有侧重。

星海图走的是 " 整机 + 智能 " 的软硬一体策略，产品矩阵已覆盖轮式双臂机器人 R1 系列、双足人形机器人 Kengo 及多款本体硬件，同时提供预训练模型、数据采集、评测、微调、部署等完整后训练工具链。2026 年公司已收获国内头部汽车制造商与智慧物流企业的千台级订单。

并且，星海图并未将技术路线局限于单一的 VLA 框架。早在 2026 年 3 月，团队便先行发布了世界模型研究成果 Fast-WAM，彻底告别了 " 先想象、后执行 " 的传统低效范式，通过对模型底层逻辑的深度重构，将单步推理延迟压缩至 190 毫秒，在保持 SOTA 性能的同时实现 4 倍提速，为具身智能的规模化产业落地铺平了道路。

自变量同样践行软硬一体，但更突出 " 模型驱动硬件 " 的底层逻辑。公司已发布 " 量子一号 "" 量子二号 " 两款机器人本体，并实现机械臂、关节模组、动力驱动器等核心零部件的全面自研。创始人王潜也提出，具身智能的核心竞争在于数据闭环构建与模型进化能力。

在这一时间节点，6 月 9 日，智元（AGIBOT）也推出行业首个开放且完整的具身智能生态技术体系—— AIMA（AI Machine Architecture），正式启动 " 元苼 " 生态发展计划，未来五年将投入 20 亿元专项资金。这进一步预示行业正在从 " 本体 " 之争转向 " 机器人大脑 " 之争。

不论是 G0.5、WALL-WM，还是智元在此时推出的 AIMA 生态，它们的诞生并非偶然，而是技术路线、数据策略与资本布局共同作用的必然结果。当资本逐渐冷静，数据壁垒与模型架构的分水岭愈发清晰，行业或许正在达成一个共识：真正的护城河，不在关节灵活度与量产规模之中，而在代码深处。

宙世代

一起剪

相关标签