缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

视觉 - 语言 - 动作模型是实现机器人在复杂环境中灵活操作的关键因素。

然而，现有训练范式存在一些核心瓶颈，比如数据采集成本高、泛化能力不足等。

为此，研究团队提出了SimpleVLA-RL。基于 veRL 框架，他们实现了针对 VLA 模型的交互式轨迹采样与并行仿真渲染机制。

SimpleVLA-RL 通过 " 交互式轨迹采样 + 结果奖励 + 探索增强 " 的设计，解决了 VLA 模型训练的三大核心瓶颈：

降低对大规模演示数据的依赖，提升数据效率；

增强模型在分布偏移场景下的泛化能力；

实现高效的 Sim-to-Real 迁移，提升真实世界任务性能。

实验结果表明，该框架在 LIBERO 与 RoboTwin 等标准基准测试中均实现了 SoTA 的性能。更为关键的是，即便在有限数据的条件下，SimpleVLA-RL 依然能够训练出表现优异的模型并具备极高的泛化能力。

在 " 单轨迹 SFT"（每个任务仅 1 条演示数据）场景下，应用 SimpleVLA-RL 后，OpenVLA-OFT 的 LIBERO 平均成功率从 48.9% 提升至 96.9%，长时序任务 LIBERO-Long 从 17.3% 提升至 91.7%。

此外，模型在训练过程中还展现出自主探索能力，并涌现出新的操作策略，例如通过 " 推动 " 替代 " 抓取 " 的 Pushcut 现象。这些结果表明，SimpleVLA-RL 为 VLA 模型的高效训练与泛化能力提升开辟了新的研究路径。

SimpleVLA-RL：端到端在线训练方案

VLA 模型作为机器人操控领域的重要研究范式，旨在融合视觉感知、语言理解与动作生成，从而在复杂物理环境中实现灵活的任务执行。

现阶段的主流训练流程通常遵循 "大规模预训练 + 有监督微调" 的范式。然而，该方法在实际应用中面临两大核心瓶颈：

数据稀缺性

SFT 依赖于大规模的高质量机器人操作轨迹，而此类数据的采集过程需要精心构建实验场景、涵盖多样化的交互对象，并依赖专业操作人员完成。由此导致采集成本高昂、规模受限，从根本上制约了其可扩展性。

泛化能力不足

SFT 的学习过程高度依赖于任务与场景特定的数据分布，因而在面对分布外任务（out-of-distribution tasks）、全新环境或未见过的对象时，模型性能会显著下降，尤其在长时序依赖与组合型任务中尤为明显。

与此同时，大规模推理模型（如 DeepSeek-R1）的最新进展表明强化学习在仅依赖结果奖励的情况下，也能显著提升模型的逐步推理能力。

这引出了一个自然的问题：RL 能否同样有效地增强 VLA 模型在长时序任务中逐步规划动作的能力？然而将 RL 直接应用于 VLA 训练又面临一些独特挑战：

1、传统机器人 RL 往往依赖人工设计的过程奖励，该方式难以扩展至复杂的开放环境；

2、VLA 的训练需要与物理或高保真模拟环境进行多轮交互，训练效率低，成本远高于基于文本的 LLM 推理优化。

基于上述问题，研究团队出了SimpleVLA-RL，它是在 veRL（LLM 强化学习框架）上扩展的一套端到端在线训练方案，专门针对 VLA 模型的特点做了优化。

整体设计主要包含四部分：

首先是交互式轨迹采样。与 LLM 仅依赖文本 token 采样不同，VLA 必须在闭环中不断更新视觉观测和机器人状态。

因此，SimpleVLA-RL 让模型直接输出动作 token 的概率分布，用随机采样生成多样轨迹。整个过程中，机器人执行动作后环境返回新状态，再继续生成，直到任务完成。

其次是结果奖励建模。研究人员不再使用复杂的过程奖励（如距离目标远近），而是采取极简的二元结果：

任务成功记为 1，失败记为 0，并将这个奖励均匀分摊到整个轨迹的动作 token 上。

这样一来，不仅避免了过程奖励在不同任务间的不可迁移性，也省去了针对任务调参的麻烦，更好地聚焦了训练目标。

第三是探索增强。VLA 模型很容易因为训练数据过于单一而收敛到狭窄解法，从而导致 rollout 的轨迹高度同质化进而影响 GRPO 的优势估计。

为了解决这个问题，SimpleVLA-RL 在三个地方做了调整：

动态采样，只保留 " 部分成功、部分失败 " 的轨迹组，确保优势估计有效，避免梯度消失；

扩大 GRPO 的裁剪区间，从 [ 0.8, 1.2 ] 放宽到 [ 0.8, 1.28 ] ，让低概率但可能有价值的动作更容易被保留；

rollout 阶段提高采样温度，从 1.0 提升到 1.6，以此鼓励更多样化的探索。

最后是训练目标。基于上述的一系列改进，团队进一步对 GRPO 做了简化：移除了 KL 散度正则项，不再依赖参考模型，从而减少内存消耗，也让新行为的探索不受束缚。

研究团队的主要贡献可以总结为如下几点：

构建 VLA 专属高效 RL 框架：基于 veRL 扩展，加入 VLA 交互式轨迹采样、多环境并行渲染及 " 训练 - 推理 - 渲染 " 一体化设计，解决 VLA 与环境交互慢、成本高的问题，支持规模化训练。

最优性能：团队引入了探索增强策略，使性能稳定提升 10 – 15%。在 LIBERO 与 RoboTwin 1.0 & 2.0 等基准上，SimpleVLA-RL 超越多个现有 SoTA 模型。

数据效率与泛化能力：仅需单个演示轨迹，RL 即可将 LIBERO-Long 的成功率从 17.1% 提升至 91.7%，并在空间、物体与任务泛化上显著优于 SFT。

真实世界可部署性：仿真环境中训练的策略能够有效迁移至真实机器人，实现强大的仿真到现实（sim-to-real）性能提升，无需额外的真实机器人数据。

发现 "Pushcut" 新现象：RL 训练使模型自主探索出人类演示之外的新策略。

基准测试性能：刷新 SOTA

SimpleVLA-RL 基于 OpenVLA-OFT（autoregressive VLA 模型）实现，在三大基准测试（LIBERO、RoboTwin1.0、RoboTwin2.0）及真实世界任务中验证，核心结果如下：

LIBERO（单臂操控基准）

在 Spatial、Object、Goal、Long 四个任务集上，SimpleVLA-RL 将 OpenVLA-OFT 的平均成功率从 91.0% 提升至 99.1%，其中长时序任务 LIBERO-Long 提升 12.0 个百分点（86.5% → 98.5%），超越 π ₀（85.2%）、UniVLA（92.0%）等 SOTA 模型。

RoboTwin1.0（双臂操控基准）

四个任务平均成功率从 39.8% 提升至 70.4%，其中 "Blocks Stack" 任务提升 33.1 个百分点（7.1% → 40.2%）。

RoboTwin2.0（高多样性双臂基准）

覆盖短 / 中 / 长 / 超长时序 12 个任务，平均成功率从 38.3% 提升至 68.8%，超越 π ₀（49.2%）和 RDT（33.3%）。即使是需多轮交互的超长时序任务（如 "Put Bottles Dustbin"），也提升 18.7 个百分点。

在 LIBERO 的 "9 个已见任务训练 +1 个未见任务测试 " 实验中，SimpleVLA-RL 与 SF 表现出显著差异：

SFT：在已见任务成功率达 90% 以上时，未见任务出现 " 灾难性遗忘 "，部分任务成功率降至 0%（如 LIBERO-Goal 的 3 个未见任务）；

SimpleVLA-RL：所有未见任务成功率均提升，其中 LIBERO-Object 的 "Unseen Task 2" 提升 36.5 个百分点，LIBERO-Spatial 的 "Unseen Task 1" 从 43.3% 提升至 71.8%，证明 RL 能学习通用技能而非过拟合特定数据。

仅使用仿真数据训练（无真实数据），在 AgileX Piper 机械臂上测试 4 个真实任务：

OpenVLA-OFT 的平均成功率仅 17.5%，"Pick Bottle" 任务完全失败。

SimpleVLA-RL 将平均成功率提升至 38.5%，"Stack Bowls" 提升 32 个百分点（38.0% → 70.0%），"Pick Bottle" 实现 14% 成功率，证明 RL 能增强仿真模型的真实环境适配性。

在 RoboTwin 2.0 的 "Move Can Pot" 与 "Place A2B Right" 两个任务中，SFT 模型仅能复现演示数据中显式呈现的 " 抓取–移动–放置 " 操作序列。

相比之下，经过 SimpleVLA-RL 训练的模型能够自主探索并发现更高效的替代策略，例如直接通过 " 推 " 的方式将罐子移至目标位置。研究团队将这种现象定义为 "Pushcut"，其特征是能够突破人类演示模式限制，利用奖励信号探索并采纳演示外的路径。

他们认为其本质在于结果奖励并不约束具体动作模式，而是允许模型在满足任务目标的前提下，自主选择最优或更简洁的行为路径。

"Pushcut" 现象证明 RL 能让 VLA 模型超越人类演示的局限并探索更优策略，为未来自主、自适应 VLA 模型的研发提供了新范式。

论文链接：https://arxiv.org/pdf/2509.09674

Github 链接：https://github.com/PRIME-RL/SimpleVLA-RL

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签