马上要过年了,蚂蚁旗下的灵波科技这几天像是下饺子一样,连续发了一堆具身的新成果。
他们 1 月 27 日先是发了开源高精度空间感知模型 LingBot-Depth,次日则发了具身大模型 LingBot-VLA。
作为一家机器人公司最常见的核心产品,当大家以为 VLA 已经是这一波技术宣发的终局时,蚂蚁又水灵灵地端出来了两款世界模型,而且两款世界模型的定位都不一样。
这大概就是大集团做具身大脑的魅力吧。要么不出手,一出手就是一整个 LingBot 家族。
29 日官宣的 " 世界模型 " 叫 LingBot-World。
蚂蚁方面将它定位成一个的开源版的 Genie3。它可以生成一个高保真、可控制且逻辑一致的模拟环境。与 Genie3 类似,它拥有许多世界知识、力图理解世界的物理规律。
而昨天官宣的 " 世界模型 ",则叫 LingBot-VA。
从名字可以看出来,相比于 VLA,VA 直接将 Video 和 Action 对应了起来。官方将它称之为 " 自回归视频 - 动作世界模型 "。通过自回归模型的方式,LingBot-VA 可以通过视频去预测下一个动作,再重新解码成机器中一个个具体的操作,从而实现大脑与真实世界交互中的自我进化的同时,也大幅提高了视频学习的效率。
看完技术报告,上述两个模型都有很好的表现。
LingBot-World:
在视频质量、动态程度、长时序一致性与交互能力等关键指标上达到了领先地位。

而 LingBot-VA:
在 LIBERO 和 RoboTwin 等主流基准测试中,分别以 98.5% 和 92%+ 的成功率大幅领先现有模型。在针对具身控制中常见的 " 长时漂移 " 难题,复杂任务成功率超过 98%。


而且还能做到帮你做实验:
做早餐等日常的操作:
而在昨天,Genie3 终于开放了公开了世界模型的入口,给目前火热的世界模型市场又添了一把火。
相比于 Genie3 的世界模型之路,蚂蚁灵波的世界模型路径更加有指向性:
即有思考地赋能 " 开源 " 的 " 具身生态 "。
相比于 Genie3,LingBot-World 和 LingBot-VA 都是开源的。LingBot-World 这相当于让很多具身开发者拥有了自己的模拟训练场,成本更低,具备二次开发的潜力;而 LingBot-VA 则让世界模型能够直接上机验证部署。
蚂蚁方面表示," 未来 VLA 与世界模型的深度融合将释放更大的协同潜力,这也是我们通往通用具身智能的核心路径。"
从做梦者到模拟者
当下的世界模型大致可以粗略分成三类:
第一类大概是以 Lecun 新创业的 AMI Lab 为代表,他们的目标是想要做一个智能上限的突破。 第二类则是偏向于构建对真实世界的仿真模拟,比如刚才提到的 Genie3。第三类是想要做智驾与机器人控制的,最具代表性的便是特斯拉从 FSD 到 Optimus 的战略构想。
Lecun 的构想终究还是太理想。从这次的发布来看,蚂蚁灵波可以说是为数不多同时对两条路径都想去做探索的具身玩家。
而蚂蚁灵波两篇技术报告,其实分别对两条路线的探索意义给出了自己的建议。
首先,LingBot-World 的引言是这样说的:
理解和模拟物理世界的人工智能长期被视作 CV 和机器学习的圣杯……而当前最先进的视频生成模型本质上做梦者(Dreamer)而不是模拟者(Simulator)。因为它本质是基于统计相关性的像素幻觉,而缺乏坚实的对物理法则的理解。
这段话很好理解:很多视频生成的 " 世界 " 只是造了一个样子,就像人做梦一样。梦里的世界只是和现实长得像,可能稍微把测试模型在上面跑一跑,牛顿的棺材板就按不住了。
蚂蚁灵波是如何分别在两条路线上实现这个任务的呢?
LingBot-World 认为,如果要从视频生成转变成世界模型,这背后至少有三个瓶颈:高质量交互数据稀缺、标准扩散架构难以维持较长时间的叙事和结构的一致性、传统模式的计算开销巨大。
为此,团队做了三件事情:
第一,他们做了一个数据引擎:这个数据引擎的语义可以分层,数据可以扩展。因此,这个引擎可以将 " 纠缠 " 的表征分离开来,进而处理各种不同类型的数据。
蚂蚁灵波将他们的数据引擎分成了三个协同组件:数据获取、数据剖析、数据标注。
数据主要来自于真实世界视频、游戏视频以及利用虚幻引擎制作的合成渲染数据。再利用一套标注流程,将数据转化成可训练的资产。

第二,不仅数据分层了,他们将训练也同样分成了三个部分:
首先,先用通用视频来训练,即建设视频生成的基本能力(establish the general video prior ) ,从而保证模型的高保真纹理等能力。
接下来引入 MoE 架构,注入世界知识和动作可控制性。这样模型就具备了基本的世界知识。
最后,加入实时推理架构。采用因果注意力适配和少步蒸馏,将双向扩散模型转换为高效的自回归系统。
而由于去掉了费时费力的双向扩散模型,整个系统的延迟低于 1 秒,成本潜力也得到了优化。

蚂蚁灵波在技术报告里放出来了一些 demo。
Demo 显示,LingBot-World 能力可以根据 prompt 给出丰富的一致性视角:

也可以通过视频探索来做场景的三维重建:

更重要的是:这是一个完全开源的模型。
所以它可以被用作非常多的用途,除了一些事件生成、三维建模、视角探索,也可以用来做智能体的模拟训练等等,或许未来还可以被探索出更加丰富的玩法。
给机器人的世界加入因果
而 LingBot-VA 的思路有所相似也有所不同。
相同的是,他们都对数据层面做了更多的探索,在模型方面也都引入了自回归的框架来改进模型的效率。但不同的是,蚂蚁灵波这次希望利用一种 " 统一 " 的方式来尝试解决目前 VLA 的局限性。
而这个 " 统一 " 的答案其实就是 LingBot-VA,一个 " 自回归视频 - 动作世界模型 "。

蚂蚁灵波说他们看了市面上的很多解决方案,但各有各的问题。
比如交互式神经模拟器、基于块或段的视频 - 动作扩散模型、用于数据或目标合成的离线视频生成器等等,但这些方法虽然吸引人,但难以实时反馈和记忆的问题,而且缺乏与物理现实中的因果关系。
所以说,他们想用自回归模型来解决这个问题。
思路其实并不复杂:
其实本质就是用一段视频去预测下一段视频的状态。而当模型知道下一段视频流中的状态时,便可以反推并解码成具体的执行动作。
这样一来,由于视频与动作之间存在明确的时间和逻辑关系,便自然就构成了很明确的物理现实世界中的因果关系。
而执行这套思路的方式,便是 LingBot-VA 的 MoT(Mix-of-Transformer)架构。
如下图所示,在 MoT 架构中,一边是 Transformer 生成的视频流,另一边是 Transformer 生成的动作流。将两个 " 流 " 在序列中交错排列,便将高维视频 Token 与低维动作 Token 映射到了统一的潜空间里。

在具体操作上,LingBot-VA 用了很多种方式,来实现 " 视频流 " 和 " 动作流 " 之间的 " 对齐 " 和 " 融合 "。
比如,考虑到视频会存在冗余(毕竟现在机器人的操作都相对慢),所以会对具体的视频做稀疏化的处理。但动作流视频和视频流视频的需要的稀疏程度其实是各不相同的。那么与之对应的,每个视频帧对应的动作也会有相应的变化。如此才能保证高效生成视频的同时,还能保持较高频的控制能力。
再比如,由于视频流和动作流的模态特征存在差异,LingBot-VA 也会调用单独的 Transformer 模块来进行单独的处理和对齐等工作。
而在噪声处理中,推理过程中的视频 token 的消耗数量则会远远多于动作的 token,所以也引入了噪声增强策略,针对性地只对部分内容进行去噪——比如,动作预测就不需要完全去噪,而完全可以从部分噪声的视频中直接学习。
此外,LingBot-VA 还会给模型加入注意力掩码机制,从而保证这套系统的预测是真的由自回归系统的预测得出的,而不是模型自己生成的。

聪明如你可以看到:这整套模型中不仅有多个 Transformer 架构的模型,还要将模型与模型之间进行对齐、解码,再用自回归模型去做预测和匹配。那计算压力陡增,必然会让模型的响应能力变得迟钝。
为了让这套系统可以更好地跑在真机上,LingBot-VA 引入异步推理流水线将动作预测与电机执行并行化处理,从而实现高效控制。

这套模型的优势是,它其实是一个 " 闭环 " 的机制——因为它可以低成本且及时地获取真实世界的及时反馈。
只要机子在跑,那么机子的每一步预测都会不断和真实世界交互并修正幻觉的问题。理论上来说,只要跑的时间足够久,积累的数据足够多,那么模型就会不断变强。
而且由于这套系统的核心是自回归,所以必须依赖一个缓存系统,这让它也自然拥有了一定的记忆功能。而且实测下来,这套记忆能力表现还是不错的。
在计数和寻物两项记忆任务中,LingBot-VA 都拿下了满分的成绩。

蚂蚁灵波拿这套系统跑了一些 Demo 测评,主要也是对标目前行业领先的 π 0.5 模型,可以看到在六个项目的得分表现还不错。尤其在完成度指标和经典的 " 叠被子 " 测试场景中,有比较大的领先优势。

而且由于它采用了自回归的架构,再加上大规模多源数据预训练,所以对场景的学习能力非常强。
根据真机实测的数据,一个场景仅需 30~50 条演示数据即可完成适配。这对于 VLA 架构的大脑来说同样是不可想象的。
总结
蚂蚁灵波作为刚入局的具身新玩家,连续发四个技术工作,让这家新公司已然有了一点 " 生态 " 的样子了。
比如第一个发布的 LingBot-Depth 模型,提供高精度的空间感知能力,让机器人真正 " 看清 " 物理世界;
VLA 是具身操作的主流路线,灵波打造 LingBot-VLA 基模并开源开放,在 Depth 的赋能下实现精准的物理操作,且具备突出的跨本体、跨任务的泛化能力。
而 LingBot-World 则是构建了模拟的仿真空间,让它得以成为大脑的虚拟训练场;
LingBot-VA 则探索了模型与环境交互新范式,降低模型对环境的学习成本,提高了环境反馈的效率,为机器人基础模型从 " 反应式控制 " 走向 " 可推演、可闭环的行动生成 " 提供了可验证的技术选项。
但无论如何他们却有着一些共同的技术审美:
他们都深度拥抱开源,坚信开源生态的价值,力图参与到开源的基础建设中,帮助更多的生态参与者走得更深更远;
他们都紧密围绕着行业发展的第一性需求展开,走理想主义与现实主义的一条平衡之道。可能其中并非所有的技术都是最酷的,但却都是实实在在处理今天一些实际的开源生态问题,丰富了开源具身工具库的生态位。
而以上都蚂蚁在具身生态的一个开始。而当更多的玩家走进开源,或许有一天具身开源生态真的能走出更大的共识。而世界模型也会发展出更多创造性的解法。


登录后才可以发布评论哦
打开小程序可以发布评论哦