DoNews 5小时前
跨越VLA的“虚实鸿沟”,中国具身智能大模型长出“新大脑”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

当具身智能行业里大多数玩家都在抢滩 IPO 时,有人却把重心放在了大模型上。

一面是宇树科技科创板 IPO 过会、智元启动赴港 IPO,行业从一级市场加速向二级市场迁徙;另一面,行业内部的路线竞争却在肉眼可见地白热化,从硬件形态之争,到数据来源之争,再到如今最核心的 " 大脑 " 架构之争。

在这个当口,国内两家具身智能公司几乎同时拿出了各自的 " 答卷 "。

5 月 29 日,自变量机器人发布了全球首个「事件级预测」具身智能世界模型 WALL-WM,颠覆了行业沿用数十年的 " 按帧学习 " 范式;6 月初,星海图紧随其后推出了新一代具身基础模型 G0.5,在七项独立评测中全面领先,并在业界公认最难的长程任务基准 BEHAVIOR-1K 上,以一个通用策略模型,击败了 π 0.5 和以往依赖多个专用模型的冠军方案。

在行业普遍 " 重硬件、轻软件 " 的叙事惯性下,这两家公司为什么偏偏选择了这条既慢又重的路?

01

大模型的 " 天花板 " 被捅破了?

目前市面上主流的具身智能企业,绝大多数都采用了 VLA(视觉 - 语言 - 动作)这条技术路线。但在 VLA 范式下,具身智能模型的进化天花板其实肉眼可见。

首当其冲的便是 " 虚实鸿沟 " 这一世界性难题。2026 年 4 月,斯坦福大学发布的《AI Index Report 2026》揭示了一个令人警醒的现实:由于仿真环境难以完全模拟真实世界的物理属性,某些机器人在仿真环境中高达 89.4% 成功率,在真实家庭场景中骤降至 12%。

与此同时,VLA 模型依赖互联网图文数据训练,虽能识别物体,却难以真正理解施力、形变等物理交互规律,被业内戏称为 " 缸中大脑 "。

更棘手的是,VLA 在通用化与自主化维度的脆弱泛化能力,导致一旦场景变化或任务链条拉长,成功率便会剧烈下降。正是这种数据驱动下的 " 盲走 ",卡住了行业的瓶颈。

面对这一结构性天花板,星海图和自变量机器人,几乎同时从两个截然不同的方向给出了各自的回答。

首先,星海图 G0.5 的做法,可以理解为在 VLA 架构内部做了一次彻底的 " 底层重构 "。

它跳出了传统 VLA"VLM 做编码器 + 独立动作专家 " 的路径依赖,在这条路上,VLM 输出的隐藏状态要经过压缩才能传递给动作模块,核心推理能力被稀释了大半。G0.5 的解法相当直接:让同一个模型、同一套权重,在自回归 token 序列中同步生成推理 token 与动作 token。自此,VLM 的链式思维、上下文学习、prompt 调制等生成式能力,可以原生作用于动作生成,中间不再隔着那个让信息严重损耗的压缩瓶颈。

而这套架构落地,靠的是一项不小的工程功。

G0.5 引入了跨本体动作编解码器,将 18 种机器人本体数据统一到 27 维动作空间,并通过 " 活跃自由度预测 " 机制避免为静止关节浪费 token。例如在双臂任务中,这套稀疏设计就能节省将近一半的 token 量。

原生思维链机制则让模型在生成动作前先输出子任务分解、目标框等推理 token,这些推理结果与动作 token 受同一损失函数约束,真正实现了 " 边思考边行动 "。

再加上时空注意力模块通过分解的时空注意力机制,将历史视觉信息融入当前决策,尤其适用于需要反复穿越空间的长程任务。

量化数据更能说明问题。

在真实机器人数据集 DROID 的 10 项桌面任务中,G0.5 未经任何微调即达 82.5% 的平均成功率,较前代模型提升 25 个百分点;在 SimplerEnv-Bridge 跨数据集迁移测试中取得 87.3% 的成绩,超越所有对比模型;在双臂协调测试 RoboTwin 2.0 中取得 93.3% 的平均成绩……

最直观的检验来自 BEHAVIOR-1K,包含 50 个完整家庭场景的长程任务,单次演示平均时长 6.6 分钟。G0.5 仅用单个预训练模型训练 1 个 epoch,就以 0.2904 的任务成功率超越了前代训练 4 个周期的成绩,更胜过使用 4 个模型集成的冠军方案。

如果说 G0.5 是对 VLA 的一次 " 内部大重构 ",那么自变量机器人团队带来的全球首个「事件级预测」具身智能世界模型 WALL-WM 则是彻底换了一条赛道。它不再走 VLA 的老路,而是从 " 世界模型 " 的视角重新思考机器人怎么学动作。

传统 VLA 的思路是把机器人动作切成固定长度的 " 帧块 " 来学:预测 0.1 秒后手在哪、0.2 秒后手在哪……把一个抓杯子的动作拆成几十张几乎雷同的画面,让模型一帧一帧去死记硬背。

结果就是,模型记住的是 " 手指每帧挪几毫米 ",而不是 " 抓住杯子 " 这个目标。如果在这时换个桌子、换种节奏,就会立刻翻车。

为了实现这一关键突破,自变量团队在论文中指出,文本、视觉、动作这三类信息在高维空间中具有不同的流形几何与时间尺度," 完全对齐 " 在本质上就是不现实的。

文本是低熵离散语义,视觉是高维连续场景动态,动作则被物理世界强约束,三者既不共享空间邻域也不共享时间尺度,强行压入同一共享空间,只会让预训练先验在动作捷径中被覆盖。这也能解释为何相当多数 VLA 仿真效果亮眼,真机落地却大打折扣。

所以 WALL-WM 的解法则相当 " 反常识 "。它把预测单位从时间帧换成了语义事件——伸手、抓取、提起、移动、放置,这些有明确物理意义的行为片段,才是机器人真正需要学会的东西。这时,模型不再问 "0.1 秒后是什么样 ",而是直接想象 " 抓住杯子那一刻 " 是什么样,并基于这个想象同步生成抵达它的动作。

具体来说,WALL-WM 做的不是直接从画面生成动作,而是先让模型理解 " 下一个事件会让世界怎么变 ",再把这种变化翻译成机器人该执行的轨迹。这背后是一整套从感知到控制的路径重构:事件指令入口告诉模型 " 下一步要做什么 ";事件世界模型负责预演 " 下一个事件会让世界怎么变 ";动作生成层将这种变化翻译成机器人可执行的轨迹。

总的来看,G0.5 和 WALL-WM 在 VLA 路线逐渐逼近天花板的行业节点上,分别从 " 架构内部重构 " 和 " 换道世界模型 " 两个方向撕开了一道裂缝,第一次让行业知道机器人这颗 " 大脑 ",不再只有一种答案。

02

什么样的土壤,长出了这两颗 " 大脑 "?

技术突破从来不是凭空发生的。

G0.5 和 WALL-WM 的背后,是两家公司在技术路线选择、数据策略和资本布局上的长期定力。其中最显著的共性,在于对 " 大脑先行 " 战略的坚持。

星海图创始人高继扬出身 Waymo 和 Momenta 的自动驾驶量产研发一线,其创始团队兼具清华学术背景与一线工程实战经验。在行业普遍遵循 " 硬件先行 " 逻辑的背景下,星海图反其道而行之——将大量精力投入大模型的预训练架构设计,用工厂和商业场所的真实部署数据持续反哺 G 系列模型迭代。

自变量则更纯粹,从创立之初就确立了 " 大小脑统一的端到端大模型 " 的技术路线。他们认为," 大脑 " 不是 AI 模型的下游应用,而是与语言大模型平行存在的物理世界基础模型。

不过,虽然两家公司都押注了 " 大脑先行 " 这条更 " 重 " 却更真实的路线,但在路径选择上却各有侧重。

星海图走的是 " 整机 + 智能 " 的软硬一体策略,产品矩阵已覆盖轮式双臂机器人 R1 系列、双足人形机器人 Kengo 及多款本体硬件,同时提供预训练模型、数据采集、评测、微调、部署等完整后训练工具链。2026 年公司已收获国内头部汽车制造商与智慧物流企业的千台级订单。

并且,星海图并未将技术路线局限于单一的 VLA 框架。早在 2026 年 3 月,团队便先行发布了世界模型研究成果 Fast-WAM,彻底告别了 " 先想象、后执行 " 的传统低效范式,通过对模型底层逻辑的深度重构,将单步推理延迟压缩至 190 毫秒,在保持 SOTA 性能的同时实现 4 倍提速,为具身智能的规模化产业落地铺平了道路。

自变量同样践行软硬一体,但更突出 " 模型驱动硬件 " 的底层逻辑。公司已发布 " 量子一号 "" 量子二号 " 两款机器人本体,并实现机械臂、关节模组、动力驱动器等核心零部件的全面自研。创始人王潜也提出,具身智能的核心竞争在于数据闭环构建与模型进化能力。

在这一时间节点,6 月 9 日,智元(AGIBOT)也推出行业首个开放且完整的具身智能生态技术体系—— AIMA(AI Machine Architecture),正式启动 " 元苼 " 生态发展计划,未来五年将投入 20 亿元专项资金。这进一步预示行业正在从 " 本体 " 之争转向 " 机器人大脑 " 之争。

不论是 G0.5、WALL-WM,还是智元在此时推出的 AIMA 生态,它们的诞生并非偶然,而是技术路线、数据策略与资本布局共同作用的必然结果。当资本逐渐冷静,数据壁垒与模型架构的分水岭愈发清晰,行业或许正在达成一个共识:真正的护城河,不在关节灵活度与量产规模之中,而在代码深处。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 ipo 物理 斯坦福大学 数据驱动
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…