视觉 - 语言 - 动作模型是实现机器人在复杂环境中灵活操作的关键因素。
然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。
为此,研究团队提出了SimpleVLA-RL。基于 veRL 框架,他们实现了针对 VLA 模型的交互式轨迹采样与并行仿真渲染机制。
SimpleVLA-RL 通过 " 交互式轨迹采样 + 结果奖励 + 探索增强 " 的设计,解决了 VLA 模型训练的三大核心瓶颈:
降低对大规模演示数据的依赖,提升数据效率;
增强模型在分布偏移场景下的泛化能力;
实现高效的 Sim-to-Real 迁移,提升真实世界任务性能。
实验结果表明,该框架在 LIBERO 与 RoboTwin 等标准基准测试中均实现了 SoTA 的性能。更为关键的是,即便在有限数据的条件下,SimpleVLA-RL 依然能够训练出表现优异的模型并具备极高的泛化能力。
在 " 单轨迹 SFT"(每个任务仅 1 条演示数据)场景下,应用 SimpleVLA-RL 后,OpenVLA-OFT 的 LIBERO 平均成功率从 48.9% 提升至 96.9%,长时序任务 LIBERO-Long 从 17.3% 提升至 91.7%。
此外,模型在训练过程中还展现出自主探索能力,并涌现出新的操作策略,例如通过 " 推动 " 替代 " 抓取 " 的 Pushcut 现象。这些结果表明,SimpleVLA-RL 为 VLA 模型的高效训练与泛化能力提升开辟了新的研究路径。
SimpleVLA-RL:端到端在线训练方案
VLA 模型作为机器人操控领域的重要研究范式,旨在融合视觉感知、语言理解与动作生成,从而在复杂物理环境中实现灵活的任务执行。
现阶段的主流训练流程通常遵循 "大规模预训练 + 有监督微调" 的范式。然而,该方法在实际应用中面临两大核心瓶颈:
数据稀缺性
SFT 依赖于大规模的高质量机器人操作轨迹,而此类数据的采集过程需要精心构建实验场景、涵盖多样化的交互对象,并依赖专业操作人员完成。由此导致采集成本高昂、规模受限,从根本上制约了其可扩展性。
泛化能力不足
SFT 的学习过程高度依赖于任务与场景特定的数据分布,因而在面对分布外任务(out-of-distribution tasks)、全新环境或未见过的对象时,模型性能会显著下降,尤其在长时序依赖与组合型任务中尤为明显。
与此同时,大规模推理模型(如 DeepSeek-R1)的最新进展表明强化学习在仅依赖结果奖励的情况下,也能显著提升模型的逐步推理能力。
这引出了一个自然的问题:RL 能否同样有效地增强 VLA 模型在长时序任务中逐步规划动作的能力?然而将 RL 直接应用于 VLA 训练又面临一些独特挑战:
1、传统机器人 RL 往往依赖人工设计的过程奖励,该方式难以扩展至复杂的开放环境;
2、VLA 的训练需要与物理或高保真模拟环境进行多轮交互,训练效率低,成本远高于基于文本的 LLM 推理优化。
基于上述问题,研究团队出了SimpleVLA-RL,它是在 veRL(LLM 强化学习框架)上扩展的一套端到端在线训练方案,专门针对 VLA 模型的特点做了优化。
整体设计主要包含四部分:
首先是交互式轨迹采样。与 LLM 仅依赖文本 token 采样不同,VLA 必须在闭环中不断更新视觉观测和机器人状态。
因此,SimpleVLA-RL 让模型直接输出动作 token 的概率分布,用随机采样生成多样轨迹。整个过程中,机器人执行动作后环境返回新状态,再继续生成,直到任务完成。
其次是结果奖励建模。研究人员不再使用复杂的过程奖励(如距离目标远近),而是采取极简的二元结果:
任务成功记为 1,失败记为 0,并将这个奖励均匀分摊到整个轨迹的动作 token 上。
这样一来,不仅避免了过程奖励在不同任务间的不可迁移性,也省去了针对任务调参的麻烦,更好地聚焦了训练目标。
第三是探索增强。VLA 模型很容易因为训练数据过于单一而收敛到狭窄解法,从而导致 rollout 的轨迹高度同质化进而影响 GRPO 的优势估计。
为了解决这个问题,SimpleVLA-RL 在三个地方做了调整:
动态采样,只保留 " 部分成功、部分失败 " 的轨迹组,确保优势估计有效,避免梯度消失;
扩大 GRPO 的裁剪区间,从 [ 0.8, 1.2 ] 放宽到 [ 0.8, 1.28 ] ,让低概率但可能有价值的动作更容易被保留;
rollout 阶段提高采样温度,从 1.0 提升到 1.6,以此鼓励更多样化的探索。
最后是训练目标。基于上述的一系列改进,团队进一步对 GRPO 做了简化:移除了 KL 散度正则项,不再依赖参考模型,从而减少内存消耗,也让新行为的探索不受束缚。
研究团队的主要贡献可以总结为如下几点:
构建 VLA 专属高效 RL 框架:基于 veRL 扩展,加入 VLA 交互式轨迹采样、多环境并行渲染及 " 训练 - 推理 - 渲染 " 一体化设计,解决 VLA 与环境交互慢、成本高的问题,支持规模化训练。
最优性能:团队引入了探索增强策略,使性能稳定提升 10 – 15%。在 LIBERO 与 RoboTwin 1.0 & 2.0 等基准上,SimpleVLA-RL 超越多个现有 SoTA 模型。
数据效率与泛化能力:仅需单个演示轨迹,RL 即可将 LIBERO-Long 的成功率从 17.1% 提升至 91.7%,并在空间、物体与任务泛化上显著优于 SFT。
真实世界可部署性:仿真环境中训练的策略能够有效迁移至真实机器人,实现强大的仿真到现实(sim-to-real)性能提升,无需额外的真实机器人数据。
发现 "Pushcut" 新现象:RL 训练使模型自主探索出人类演示之外的新策略。
基准测试性能:刷新 SOTA
SimpleVLA-RL 基于 OpenVLA-OFT(autoregressive VLA 模型)实现,在三大基准测试(LIBERO、RoboTwin1.0、RoboTwin2.0)及真实世界任务中验证,核心结果如下:
LIBERO(单臂操控基准)
在 Spatial、Object、Goal、Long 四个任务集上,SimpleVLA-RL 将 OpenVLA-OFT 的平均成功率从 91.0% 提升至 99.1%,其中长时序任务 LIBERO-Long 提升 12.0 个百分点(86.5% → 98.5%),超越 π ₀(85.2%)、UniVLA(92.0%)等 SOTA 模型。
RoboTwin1.0(双臂操控基准)
四个任务平均成功率从 39.8% 提升至 70.4%,其中 "Blocks Stack" 任务提升 33.1 个百分点(7.1% → 40.2%)。
RoboTwin2.0(高多样性双臂基准)
覆盖短 / 中 / 长 / 超长时序 12 个任务,平均成功率从 38.3% 提升至 68.8%,超越 π ₀(49.2%)和 RDT(33.3%)。即使是需多轮交互的超长时序任务(如 "Put Bottles Dustbin"),也提升 18.7 个百分点。
在 LIBERO 的 "9 个已见任务训练 +1 个未见任务测试 " 实验中,SimpleVLA-RL 与 SF 表现出显著差异:
SFT:在已见任务成功率达 90% 以上时,未见任务出现 " 灾难性遗忘 ",部分任务成功率降至 0%(如 LIBERO-Goal 的 3 个未见任务);
SimpleVLA-RL:所有未见任务成功率均提升,其中 LIBERO-Object 的 "Unseen Task 2" 提升 36.5 个百分点,LIBERO-Spatial 的 "Unseen Task 1" 从 43.3% 提升至 71.8%,证明 RL 能学习通用技能而非过拟合特定数据。
仅使用仿真数据训练(无真实数据),在 AgileX Piper 机械臂上测试 4 个真实任务:
OpenVLA-OFT 的平均成功率仅 17.5%,"Pick Bottle" 任务完全失败。
SimpleVLA-RL 将平均成功率提升至 38.5%,"Stack Bowls" 提升 32 个百分点(38.0% → 70.0%),"Pick Bottle" 实现 14% 成功率,证明 RL 能增强仿真模型的真实环境适配性。
在 RoboTwin 2.0 的 "Move Can Pot" 与 "Place A2B Right" 两个任务中,SFT 模型仅能复现演示数据中显式呈现的 " 抓取–移动–放置 " 操作序列。
相比之下,经过 SimpleVLA-RL 训练的模型能够自主探索并发现更高效的替代策略,例如直接通过 " 推 " 的方式将罐子移至目标位置。研究团队将这种现象定义为 "Pushcut",其特征是能够突破人类演示模式限制,利用奖励信号探索并采纳演示外的路径。
他们认为其本质在于结果奖励并不约束具体动作模式,而是允许模型在满足任务目标的前提下,自主选择最优或更简洁的行为路径。
"Pushcut" 现象证明 RL 能让 VLA 模型超越人类演示的局限并探索更优策略,为未来自主、自适应 VLA 模型的研发提供了新范式。
论文链接:https://arxiv.org/pdf/2509.09674
Github 链接:https://github.com/PRIME-RL/SimpleVLA-RL
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦