量子位 4小时前
具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

机器人拉个拉链,到底需不需要 " 脑子 "?

过去几年,从 OpenVLA 到 π 0、π 0.5,具身大模型已经能让机器人把指令和动作连得有模有样。

但一旦包的位置挪了几厘米,或者光照暗了一点,它们往往就会 " 大脑宕机 "。

究其原因,是因为这些机器人大多在玩 " 连连看 ":看到观察结果,直接输出动作。

它们只是记住了轨迹,却并不理解背后的物理逻辑。

现在,一种让机器人 " 先想明白,再稳定行动 " 的新范式来了。

由至简动力、北大、港中文联合提出的LaST-R1,首次将隐空间物理推理塞进了强化学习的闭环。

同时,LaST-R1 作为 LaST ₀基座模型的物理世界后训练范式,LaST ₀首创面向机器人的隐空间物理思维链推理,并已中稿 ICML2026 Spotlight(top 2.2%)。

它的表现有多夸张?

仿真满分级别:在 LIBERO benchmark 上,仅靠 1 条轨迹预热,平均成功率就冲到了99.9%

真机性能起飞:在真实抓取、旋转等复杂任务中,比目前最强的 SOTA 模型 π 0.5 还要高出22.5%

强化 " 物理推理 ":即便换了物体、背景或光照,它依然能稳如老狗,不再是单纯的动作复刻,而是真正学会了在隐空间里进行 " 物理思考 "。

这个让机器人长出 " 物理脑 " 的 LaST-R1,到底是怎么炼成的?

那个让环境反馈同时优化 " 怎么想 " 和 " 怎么动 " 的LAPO算法又藏着什么玄机?

我们顺着这篇论文,深挖了一下这套能让机器人 " 深思熟虑 " 的后训练黑科技。

具身大模型的隐形天花板:只会模仿,不懂物理

尽管从 OpenVLA 到 π 0.5,具身大模型已经完成了图像、语言与动作的初步对齐。

但在实际落地中,工业界发现了一个致命的 " 幻觉 ":

能模仿,不等于能在物理世界泛化。

这就导致了极差的泛化性。

打个比方,机器人可能记住了 100 种拉拉链的轨迹,但只要拉链的角度偏转 15 度,或者光照发生变化,单纯靠 " 观察→动作 " 的端到端映射就会失效。

核心问题在于,现有的 VLA 模型缺少一个" 思考 "的中间层——即让机器人在行动之前,对物理世界进行推理。

过去,学术界也曾尝试引入思维链(CoT)来解决推理问题。

但对于机器人操作而言,语言推理往往太慢且颗粒度太粗,你很难用文字精准描述 " 拉链咬合时的细微阻力反馈 "。

LaST-R1 的核心突破,就是放弃了低效的语言 CoT,转而在隐空间(Latent Space)中构建物理推理链。

它不再让机器人看到图像就 " 闭眼 " 出动作,而是先在隐性空间里建模场景的结构、物体的物理关系以及未来的动态变化。

然而,要让机器人学会这种 " 思考 ",仅靠静态的模仿学习(SFT)是不够的。

目前的强化学习(RL)方法大多像是一个只看结果的严厉教练:它只告诉机器人动作成没成功(优化 Action Space),却无法指导机器人 " 刚才那下你是怎么想的 "。

针对这一痛点,该团队提出的 LAPO(Latent-to-Action Policy Optimization)算法,正式将 " 思考过程 " 拉进了强化学习的优化闭环。

它让环境反馈不仅优化动作,也优化机器人行动前的 " 物理思考 "。

不只练 " 手 " 更要修 " 脑 ":如何让机器人强化模型的物理推理?

近日,至简动力、香港中文大学、北京大学计算机学院多媒体信息处理国家重点实验室,提出了一种面向机器人操作的自适应物理隐空间推理强化学习框架——

LaST-R1(Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning)。

它希望通过强化学习后训练,让具身大模型不仅学会生成动作,也学会在行动前,进行面向物理世界的隐空间推理。

LaST-R1 概览。 ( a ) 不同于仅严格优化动作的 vanilla RL 基线方法, ( b ) 我们的方法利用 LAPO 联合优化自适应 latent CoT 与物理执行过程。通过连接认知推理与控制,LaST-R1 实现了   ( c ) 更快的收敛速度、更高的仿真成功率,以及 ( d ) 更强的真实世界泛化能力。

与以往主要优化action space(动作空间,即机器人所有可执行指令的集合)的具身大模型 RL 不同,LaST-R1 的核心思想是:

机器人不应只从图像和指令直接预测下一步动作,而应先在latent space(隐空间,可以理解为机器人大脑里的 " 隐性认知层 ")中理解场景结构、物体关系和物理动态,再生成更稳定、精准的动作。

换句话说:

LaST-R1 不只优化机器人的 " 手 ",也优化它的 " 脑 "。

具体来看,LaST-R1 构建了一个面向latent reasoning-before-acting策略的强化学习后训练框架,核心由三步组成:

1、物理隐空间推理建模(Physical Latent Reasoning)

传统具身大模型往往直接从 observation 生成 action,动作前缺少可建模、可优化的物理推理过程。

LaST-R1 在模型推理中引入latent CoT:生成动作前,先在 latent space 中建模当前场景、物体关系和未来物理动态。

相比语言推理,latent reasoning 更适合承载连续、高频、难以语言化的物理信息。

2、隐空间推理与动作生成的联合强化优化(Latent-to-Action Policy Optimization)

传统具身大模型 RL 多数只优化动作结果:哪个 action 带来更高 reward,就强化哪个 action。

LaST-R1 提出LAPO,把环境奖励同时作用于latent reasoningaction generation:成功轨迹不仅强化正确动作,也强化动作之前的 " 好推理 ";失败轨迹不只修正动作结果,也反向调整内部物理推理空间。

让 reward 真正塑造动作背后的 reasoning process。

3、自适应 latent CoT 推理机制(Adaptive Latent CoT)

不同任务决策需要不同长度的思考。

LaST-R1 引入adaptive latent CoT:简单状态下,模型可以快速结束推理并执行;拉拉链、擦花瓶、拧瓶盖等复杂接触式操作,则分配更长 reasoning horizon。

在交互中学会:什么时候该多想,什么时候该立刻执行。

LaST-R1 改变的是具身大模型后训练的优化对象:从只优化动作,转向同时优化动作背后的物理推理。

研究团队在仿真和真机环境中都进行了系统验证。

在仿真 LIBERO benchmark 上,LaST-R1 仅依赖1 条轨迹完成 warm-up,随后通过在线 RL 优化,最终取得99.9%平均成功率,并相比 Action-Only+PPO 展现出更快收敛和更高最终性能。

在真机部署中,LaST-R1 仅使用30 条轨迹warm-up,再通过 RL 后训练将平均成功率从52.5%提升到93.75%,显著超过使用100 条专家轨迹的 π 0.5(71.25%)。

更重要的是,在真实扰动条件下,LaST-R1 仍保持较小性能下降,说明其学习到的不是单一场景中的动作轨迹,而是更可迁移的空间语义和物理动态理解。

上述结果意味着,具身大模型强化学习的重点正在发生变化——

机器人不再只是通过 RL 学会更熟练地执行动作,而是开始通过 RL 学会更合理地进行物理推理。

LaST-R1 的意义,在于它提出了一种新的具身大模型后训练范式,能够让环境反馈同时塑造机器人的 " 思考方式 " 和 " 行动方式 "。

一旦隐空间推理从模仿学习的 " 静态脚本 " 进化为强化学习的 " 演进核心 ",机器人便能摆脱对演示数据的刻板复现。

在不断的交互试错中,它们开始强化模型的物理推理。

这或许也是具身大模型从 " 会模仿 " 走向" 会适应 "的关键一步。

LaST-R1 框架概述

LaST-R1 框架。 ( a ) LaST-R1 是一个统一模型,以视觉观测和语言指令作为输入,其中视觉基础模型提供具有物理语义约束的 latent targets,用于在动作生成前引导 latent CoT 推理。 ( b ) 在 LAPO 强化学习后训练过程中,LaST-R1 以闭环方式与环境交互,并将 latents、actions 和 rewards 存储到 rollout buffer 中,以联合重塑 latent space 与 action space。进一步地,模型通过基于预测概率学习生成   token,实现自适应推理,从而在不同任务中动态调整推理长度。 ( c ) 通过 LAPO,LaST-R1 能够在多样化任务中形成自适应推理长度,从而提升泛化能力与执行稳定性。

整个 LaST-R1 框架可以概括为三个关键阶段:先推理、再优化、动态决定想多久。

第一阶段:行动前的隐空间推理(Latent Reasoning-before-Acting)

给定当前视觉观测和语言指令,LaST-R1 不会直接生成动作,而是先生成一段隐空间推理嵌入(latent reasoning embeddings),作为行动前的 " 隐空间物理思考 ",用于建模物体关系、未来状态和操作动态。

随后,模型再基于这些隐空间推理 ( latent reasoning ) 并行生成 action tokens。

这一步解决的是:如何让动作生成建立在物理推理之上。

第二阶段:LAPO 同时优化隐空间(latent)和动作(action)

LaST-R1 的核心算法是LAPO(隐空间到动作策略优化,Latent-to-Action Policy Optimization)

传统具身大模型 RL 主要优化 action,而 LAPO 将 latent reasoning 也纳入强化学习目标,让环境奖励同时塑造 " 怎么想 " 和 " 怎么动 "。

论文中最关键的是latent-level ratio surrogate

其中,表示 rollout 时旧策略生成的 latent sequence,表示当前策略重新生成的 latent sequence,控制 latent 分布宽度。

直观来说,如果某条轨迹成功,LaST-R1 不仅会强化对应动作,也会强化动作之前产生的 " 好推理 "。

随后,LAPO 将 latent 和 action 放进统一的 clipped objective 中:

其中,表示同时优化 latent reasoning 和 action generation,是 advantage estimate,用于限制策略更新幅度。

最终,总训练目标为:

这意味着:LaST-R1 的 RL 后训练不只是优化机器人的动作结果,也在优化行动前的物理推理过程。

第三阶段:Adaptive Latent CoT

不同任务需要不同的思考长度。

因此,LaST-R1 引入Adaptive Latent CoT,通过 token 让模型动态决定何时结束 latent reasoning 并进入 action generation。

这是为了让机器人根据任务难度自适应分配推理预算。

也就是说,LaST-R1 不是让机器人每一步都固定想同样久,而是让它学会:简单状态快速执行,复杂状态多想一步。

为了优化这个结束标识符 token 的自适应生成,训练目标需要进一步加上 L_end。

实验结果分析 1、仿真实验:LIBERO 99.9%

LaST-R1 在 LIBERO benchmark 上进行系统评估,覆盖 Spatial、Object、Goal 和 Long 四个任务套件。实验在one-shot SFT warm-up设置下进行,随后进入在线 RL 后训练。

结果显示,LaST-R1 在四个 suite 上分别达到99.8%/100.0%/100.0%/99.8%,平均成功率达到99.9%,超过 OpenVLA-OFT、π 0.5、SimpleVLA-RL 和 π RL 等强基线。

相比只优化动作空间的 Action-Only + PPO,LaST-R1 + LAPO 收敛更快、最终成功率更高,说明 latent reasoning 与 action generation 的联合优化能够为 RL 提供更稳定的 " 认知缓冲区 ",从而提升复杂长程操作能力。

2、真机实验:从 52.5% 到 93.75%

LaST-R1 在四个真实操作任务上进行测试,覆盖单臂高精度插入、双臂协同、接触式擦拭和连续旋转等复杂物理交互。

为了突出 RL 后训练效果,论文将其与 SOTA 模型 π 0.5 对比:π 0.5 使用 100 条专家轨迹进行 SFT,而 LaST-R1 仅使用 30 条轨迹 warm-up,并通过 RL 后训练继续优化。

结果显示,LaST-R1 将真机平均成功率从 warmup 后的52.5%提升到93.75%,显著超过 π 0.5 的71.25%,说明其优势不仅存在于仿真环境,也能迁移到真实物理交互中,并形成更稳定的执行策略。

3、泛化实验:换物体、换背景、换光照,依然稳

在 LIBERO OOD 设置中,研究团队采用 9 个 seen tasks 进行在线 RL,并保留 1 个 held-out task 做泛化测试。

结果显示,Action-Only + PPO 容易出现性能停滞甚至退化,而 LaST-R1 + LAPO 能在 OOD tasks 上持续提升,说明 latent reasoning 能帮助模型学到更可迁移的空间语义和物理动态。

在真实世界中,论文进一步测试了unseen object、background variation 和 lighting condition三类扰动。

相比 SFT π 0.5,LaST-R1 在这些变化下保持更小的性能下降,说明它并不是简单记住训练场景中的动作轨迹,而是形成了更鲁棒的物理推理与动作生成能力。

结语:具身大模型不只是要会行动,而是开始学会 " 思考推理 "

LaST-R1 的意义,不只是把 LIBERO 平均成功率推到99.9%,也不只是让真机任务成功率提升到93.75%

更重要的是,它提出了一种新的具身大模型后训练范式:强化学习不应该只优化机器人的动作,也应该优化动作背后的物理推理过程

过去,我们更关心机器人能不能生成正确动作。

现在,LaST-R1 在此基础上进一步追问:机器人能不能在行动前进行正确的物理推理?

通过 LAPO,环境 reward 可以直接塑造 latent reasoning space;

通过 adaptive latent CoT,机器人可以根据任务难度动态调整思考长度。

这意味着,机器人不再只是复现演示数据中的动作轨迹,而是在交互中逐步强化模型的物理推理。

从这个角度看,LaST-R1 让具身大模型强化学习从 " 看见就动 " 走向 " 先想明白,再稳定行动 "。

当具身大模型开始学会在 latent space 中思考,机器人距离真正的自主操作,也许又近了一步。

论文链接 :   https://arxiv.org/abs/2604.28192

项目主页 :   https://siriyep.github.io/last-r1/

代码链接:https://github.com/CHEN-H01/LaST-R1

* 本文系量子位获授权刊载,观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

评论
大家都在看