VLA 模型五花八门,到底哪些设计真正有用?
MMLab@NTU 联合中山大学的最新研究,给出了一份从入门到精通的终极 " 菜谱 " ——VLANeXt。
这项研究没有简单提出一个新模型了事,而是系统性地从12 个关键维度,深度剖析了 VLA 的设计空间。从基础组件到感知要素,再到动作建模的额外视角,每一步都有扎实的实验支撑。
最终的产物 VLANeXt,在标准基准 LIBERO 及泛化性测试 LIBERO-plus 上,全面超越了包括 7B 参数模型在内的各类 SOTA 方法。面对未见过的光照、背景、相机位姿等扰动,其成功率较此前最佳方法大幅跃升了10%。
无论你是刚入局具身智能的小白,还是想进一步优化模型的老手,这份 " 菜谱 " 都能帮你找到答案。

背景:走出 VLA 的 " 原始汤 "
随着大基础模型的崛起,视觉 - 语言 - 动作模型(VLA)展现出了极大的潜力,通过继承丰富的视觉理解和语言基础,为通用机器人策略学习提供了可扩展的途径。然而,目前的 VLA 研究领域依然处于一种 " 原始汤(primordial soup)" 阶段——充满了各种天马行空的探索和设计,但缺乏清晰的架构。
A 组说自己的模型很强,取得了非常棒的性能,B 组也说自己的模型达到了 SOTA。但是由于各家在训练协议和评估设置上的不一致,其实很难辨别到底哪些设计选择才是真正起核心作用的。为了给这个碎片化的设计带来秩序,应当回归本质:在统一的框架和评估设置下,从最基础的模型出发,全面重新审视 VLA 的设计空间。
方法剖析:12 个维度的 " 配方 "
RT2 模型是 VLA 模型的起点。为了帮助大家更好的理解和建模 VLA 模型的整一个发展流程,团队也从一个类似 RT2 的模型出发,来一步步添加新的设计构建强大的 VLA 模型,这样团队可以清晰的看过 VLA 的发展过程,以及一些关键的模块设计。
研究团队产出的 RT2-like 的 baseline 模型是一个非常简单的模型,其基于 LLaMA 作为 backbone,输入是一张当前帧的第三视角照片,以及对应的任务指令文本,输出是下一个时间步的 action。action 的建模则采用复用最不常用的文本 tokens 作为动作 tokens 的方式。损失函数则直接采用分类损失,将每个维度的 action 分成了 256 个 bins 进行学习。整个探索过程的预览如下图所示:

基础组件(Foundational Components)
基础组件部分,研究团队探索了 VLA 设计最基础的部分,包括结构的设计,损失函数的设计等。
独立策略模块:首先,团队发现解耦语言和行为空间,采用独立的 Policy 模块比直接复用文本 token 进行动作分类的效果要好得多。因此,团队将 baseline 的复用文本 token 的策略换成了独立的 policy head。
深层策略建模:进一步,团队发现独立出来的策略模块需要一定的深度建模,才能学好 action 的分布。因此,团队进一步将独立的 policy head 加深,最后团队使用了 29 层的 policy,和 VLM 的 backbone 保持一致。

动作分块(Action Chunking):进一步,团队发现引入动作分块(Action Chunking)不仅可以提升推理的速度,还能提升模型的性能。因此,团队进一步引入动作分快(Action Chunking),采用了 8 的分块大小(另外,根据实验结论,4 以上的分块均可以取得不错的性能)。
连续动作建模:在动作学习目标上,团队发现流匹配(Flow Matching)、DDIM 或者直接回归这几种连续建模相比离散分类能达到更强的性能。因此,团队采用了流匹配(Flow Matching)的损失函数替换了原来的分类的方案。
VLM 基座容量:在 VLM 基座上,团队探索了 LlaMA,PaliGemma 和 Qwen 这几种 VLM,团队发现,更强的 VLM 基座可以得到更强的 VLA 性能。因此,团队最后采用了 Qwen3VL-2B 的模型,替换了原来的 LlaMA 的 backbone。
柔性连接(Soft Connection):在探讨 VLM 与 Policy 如何交互时,团队发现,通过插入可学习的 Query 作为 " 隐式缓冲 ",然后再进行逐层连接,其效果略优于完全松散(类似于 MetaQuery 这样的连接方式)或生硬的紧密连接(直接没有缓冲的逐层连接)。因此,团队采用了 Soft Connection 的方式。

感知要素(Perception Essentials)
感知要素探索 VLA 输入感知的必要性,探索什么样的输入信息是有价值的。
时序历史观察:关于是否需要加历史的视觉信息,团队发现,冗余的时序观察历史并未带来提升,反而可能引入噪声导致性能下降。因此,团队不加入历史的视觉信息,只是用当前帧的图像,维持了原来的设计。高效有用的历史视觉信息建模有待未来进一步探索。
多视角加持:团队发现,结合第三人称和腕部视角的输入,能提供互补的几何线索,让机器人的动作更加准确。因此,团队采用了多视角的方式,替代了原来的单视角(只有第三视角)的形式。
本体感觉(Proprioception)的归宿:本体感觉该不该加?加在哪里?团队的结论是:将本体感觉注入到 VLM 端,比不使用或直接注入 Policy 端效果更好,因为它能在 VLM 层面更好地与视觉和语言信号融合。因此,团队采用了将本体感知加到 VLM 侧的方式,替换了原来的不加本体感知的方式。
本体感知的建模:团队进一步探索了本体感知该如何加入到 VLM 侧,团队探索了 linear 的建模以及 transformer 的建模,团队发现,linear 的建模已经足够,transformer 的复杂建模有可能使得训练不稳定。因此,团队采用了将本体感知经过 linear 建模加入到 VLM 中的方式。

动作建模的额外视角(Action Modeling Perspectives)
动作建模的额外视角主要探索是否可以设计一些 multi-task learning 的辅助任务来帮助更好的 action 建模和学习。
世界模型的取舍:采用世界模型的建模来帮助 action 的学习是如今 VLA 里的一大流派,称为动作世界模型。团队发现,虽然预测未来图像(世界模型的建模)确实能带来性能提升,但会导致训练时间飙升近三倍。出于对效率的考量,团队在这套实用配方中并没有使用这种建模,维持了原样。
时间序列预测视角:进一步,在时间序列预测(time series forecasting)的领域,频域建模也是一个非常有效的流派,而 action 建模本质上也是一种时间序列的预测任务,因此团队希望在 action 建模中引入频域建模的思想。具体地,通过离散余弦变换(DCT),团队引入了简单的频域对齐的辅助损失。这一招将动作生成视为一个时间的整体进行学习,几乎在不增加额外训练开销的情况下,有效提升了预测效果。
完整的探索过程的实验结果如下所示:

完整的模型 VLANeXt 的架构图如下所示:

结果验证:用扎实设计一步步铸就高性能
融合上述 " 配方 " 的最终产物就是 VLANeXt。团队证明了,凭借系统化的设计原则,简单的模型架构同样能爆发出惊人的战斗力(并且,团队 Huggingface 中的 checkpoint 的效果比论文中 report 的还要更好,论文中团队 report 一个偏保守的性能)。


在标准的 LIBERO 基准以及测试模型鲁棒性与泛化性的 LIBERO-plus 基准上,VLANeXt 全面超越了包括 7B 参数模型(如 OpenVLA-OFT)在内的各类 SOTA 方法。
特别是在面对 LIBERO-plus 中未见过的光照、背景、相机位姿或语言指令重写等系统性扰动,VLANeXt 展现了极强的泛化能力,其成功率较此前最佳方法大幅跃升了 10%。

在真实的部署和尝试中,VLANeXt 不仅在单臂任务(如清理桌面、开抽屉放置物体)表现优异,在没有经过专门双臂预训练的情况下,也能展现出一定的跨形态适应能力,顺利完成了双臂的协作任务(如双臂抬起篮子、双臂清理桌面)。
下面展示了不同场景下 VLANeXt 模型执行任务过程的可视化。



论文地址:
https://arxiv.org/abs/2602.18532
代码地址:
https://github.com/DravenALG/VLANeXt
checkpoints 地址:
https://huggingface.co/DravenALG/VLANeXt
作者信息:
这篇论文的第一作者是来自南洋理工大学 MMLab@NTU 的一年级博士生伍晓鸣,主要研究具身智能和 VLA 模型。

这篇论文的另一位共同作者是来自南洋理工大学 MMLab@NTU 的博士后廖康,主要研究统一多模态大模型和世界模型。

这篇论文的另一位共同作者是来自中山大学的教授郑伟诗。他是中山大学计算机学院的副院长,也是长江学者特聘教授。他也是论文第一作者伍晓鸣的硕士生导师。

论文的通讯作者是来自南洋理工大学的校长讲席教授吕健勤(Chen Change Loy)。他是 MMLab@NTU 的主任,也是 CVPR 2026 的程序主席。他是论文第一作者伍晓鸣的博士生导师。

一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


