量子位 7小时前
LeCun的世界模型单GPU就能跑了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

LeCun 世界模型最新进展,开源了一套极简训练方案,单 GPU 就能跑

这套方案叫LeWorldModel,它基于 JEPA 架构,实现像素输入直接预测未来,速度快到离谱,完整规划仅需 1 秒

它能只看像素画面、不用复杂技巧、单 GPU 就能稳定训练,学会预测 " 我做这个动作,世界会变成什么样 ",用来帮机器人、智能体做规划和控制,又快又稳又好用。

实际效果也很不错:

速度飞起:规划速度比大模型方案快 48 倍,1 秒内搞定。

参数很小:只有1500 万参数,所有训练与规划实验均在单张 NVIDIA L40S 显卡上完成,几小时即可训完

控制很强:在推箱子、机械臂、导航等 2D/3D 任务里,超过之前的端到端方法,和大模型方案打得有来有回。

懂物理: latent 里藏着位置、角度等物理信息,还能识别 " 不合物理 " 的怪事(比如物体突然瞬移,它会觉得 " 很意外 ")。

技术架构:把 JEPA 简化到本质

团队介绍,以往的 JEPA 方法通过启发式方法或技巧(例如 EMA、停止梯度法、预训练表示、掩码或复杂的损失函数)来避免模型崩溃。

然而,这些技巧使得 JEPA 训练不稳定且难以进行。

而 LeWM 的思路是把 JEPA 简化到本质:用编码器把图片变特征,用预测器根据动作猜下一个特征,再用高斯正则防止坍塌,全程端到端、极简稳定训练。

其架构只用到两个核心组件——编码器 + 预测器:

编码器:把画面压缩成一小串数字(latent 特征)。

预测器:根据当前特征 + 你要做的动作,预测下一刻的特征

最关键的创新在于,它只用了两个损失:

预测损失:让预测器尽量猜对下一帧的真实特征,用简单的 MSE 均方误差。作用是让模型学会世界的动态规律。

SIGReg 正则损失:强制让所有特征向量服从标准高斯分布。作用是防止模型 " 摆烂坍塌 "(所有画面输出一样的特征)。

所以最终的总损失 = 预测损失 + λ × SIGReg 正则损失。

正则化权重 λ 是唯一需要调优的超参数,极大简化了训练流程,完全不需要以往的额外方法,这也是 LeWM 稳定、好用的根本原因。

实验结果:完胜此前 JEPA 方法

先放结论:LeWM完胜之前的端到端 JEPA 方法(PLDM),和依赖大模型预训练的 DINO ‑ WM打成平手甚至更强,同时训练更简单、速度更快、参数更小

团队在 4 个经典机器人 / 控制任务上进行测试,并与 DINO-WM 和 PLDM 这两种基于 JEPA 的最先进方法进行比较。

4 个任务分别是 Push-T(推箱子)、Reacher(机械臂够目标)、OGBench-Cube(3D 机械臂抓方块)、Two-Room(2D 导航)。

结果显示:

Push-T(推箱子):LeWM 最强,成功率 96%,比 PLDM 高 18%,甚至超过带体感输入的 DINO-WM;

Reacher(机械臂够目标):LeWM>PLDM,和 DINO-WM 接近;

OGBench-Cube(3D 机械臂抓方块):LeWM 略输 DINO-WM,但依然很强;

Two-Room(2D 导航):LeWM 稍弱,但物理信息依然学得很好。

在 2D 和 3D 任务中,LeWM 缩小了与基于基础模型的世界模型(例如 DINO-WM)之间的差距,同时优于端到端基线 PLDM。

值得注意的是,LeWM 的规划速度比 DINO-WM快 48 倍:不到 1 秒 vs 约 47 秒。

原因是 LeWM 能把观测数据缩小约 200 倍,AI 预测未来时算得更快、更省力,让基于特征的世界规划几乎可以实时运行

此外,LeWM 是真懂物理。

模型把画面变成一串数字(latent),团队在训练好的 LeWM 后面,接入一个简单的小探测器,让它只靠 latent 数字,去预测机器人 / 方块的位置、方块的角度、机械臂指尖坐标。

结果位置预测几乎 100% 准确,角度预测也非常准,比之前的 PLDM 强很多,和大模型 DINO 差不多。

为了直观展示 LeWM 的学习效果,团队还额外训练了一个用于可视化的小解码器,展示了三类画面:真实视频、模型 " 看到 " 的还原视频、以及模型的未来预测视频。

可以看到,LeWM 不仅能准确理解当前场景,还能正确预测物体接下来的运动,真正抓住了环境的核心结构与变化规律。

不仅如此,它还能识别 " 违反物理规律 " 的怪事。

团队做了个实验,故意制造两种 " 扰动场景 ",看模型会不会觉得不对劲:

视觉扰动:物体突然变色;

物理扰动:物体直接瞬移到随机位置,违背物理定律。

模型面对 " 变色 " 的反应是平平无奇,而面对 " 物理违规 ",惊讶值直接爆表。

团队背景

一作 Lucas Maes,米兰国际关系学院(Mila)的三年级博士生,导师是 Damien Scieur。

目前在布朗大学担任访问研究员,与 Randall Balestriero 合作研究世界模型。

其工作重点是通过各种方法改进 JEPA ,包括基于梯度的规划、分层时间抽象、目标规范和物理理解。

Quentin Le Lidec,纽约大学柯朗数学研究所的博士后研究员,与 Yann LeCun 合作研究机器人世界模型。

目前的研究重点是利用人工智能解决物理世界中的问题,曾为 Pinocchio、 Simple 和 stable-worldmodel 等开源项目做出贡献。

Damien Scieur,现任三星研究员,曾任普林斯顿大学博士后,主要方向是优化算法。

Randall Balestriero,布朗大学计算机科学助理教授,长期深耕人工智能与深度学习领域。

2013 年起研究可学习信号处理,他参与的技术曾用于 NASA 火星车火星地震探测。

2021 年获莱斯大学博士学位,后进入 Meta AI 做博士后,师从 Yann LeCun。

项目主页:https://le-wm.github.io/

github 地址:https://github.com/lucas-maes/le-wm

论文地址:https://arxiv.org/pdf/2603.19312v1

—  欢迎 AI 产品从业者共建  

「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

gpu 物理 机器人 开源 机械臂
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论