这两天,Physical Intelligence(PI)联合创始人 Chelsea Finn 在上,对斯坦福课题组一项最新世界模型工作 kuakua 连续点赞。
生成看起来不错的视频很容易,难的是构建一个真正对机器人有用的通用模型——它需要紧密跟随动作,还要足够准确以避免频繁幻觉。


这项研究,正是她在斯坦福带领的课题组与清华大学陈建宇团队联合提出的可控生成世界模型 Ctrl-World。
这是一个能让机器人在 " 想象空间 " 中完成任务预演、策略评估与自我迭代的突破性方案。
核心数据显示,该模型使用零真机数据,大幅提升策略在某些在下游任务的指令跟随能力,成功率从 38.7% 提升至 83.4%,平均改进幅度达 44.7%。
其相关论文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》已发布于 arXiv 平台。


注:Ctrl-World 专为通用机器人策略的策略在环轨迹推演而设计。它生成联合多视角预测(包括腕部视角),通过帧级条件控制实现细粒度动作控制,并通过姿态条件记忆检索维持连贯的长时程动态。这些组件实现了:(1)在想象中进行精准的策略评估,并与真实世界轨迹推演对齐(2)通过合成轨迹实现针对性的策略改进
研究背景:机器人训练的 " 真实世界困境 " 与世界模型的破局价值
当前,视觉 - 语言 - 动作(VLA)模型虽在多种操作任务与场景中展现出卓越性能,但在开放世界场景中仍面临两大核心难题,这也是团队研发 CTRL-WORLD 的核心动因:
难题一,策略评估成本高,真实测试烧钱又低效。
验证机器人策略性能需在不同场景、任务中反复试错。
以 " 抓取物体 " 任务为例,研究者需准备大小、材质、形状各异的物体,搭配不同光照、桌面纹理的环境,让机器人重复成百上千次操作。
不仅如此,测试中还可能出现机械臂碰撞(故障率约 5%-8%)、物体损坏(损耗成本单轮测试超千元)等问题,单策略评估周期常达数天。更关键的是,抽样测试无法覆盖所有潜在场景,难以全面暴露策略缺陷。
难题二,策略迭代同样难,真实场景数据永远不够用。
即便在含 95k 轨迹、564 个场景的 DROID 数据集上训练的主流模型 π ₀ . ₅,面对 " 抓取左上角物体 "" 折叠带花纹毛巾 " 等陌生指令或 " 手套、订书机 " 等未见过的物体时,成功率仅 38.7%。
传统改进方式依赖人类专家标注新数据,但标注速度远赶不上场景更新速度——标注 100 条高质量折叠毛巾轨迹需资深工程师 20 小时,成本超万元,且无法覆盖所有异形物体与指令变体。
开放世界尚存在棘手问题,另一边,传统世界模型目前也还面临三大痛点——
为解决真实世界依赖,学界曾尝试用世界模型(即虚拟模拟器)让机器人在想象中训练。
但研究团队在论文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》中指出,现有世界模型多数方法聚焦于被动视频预测场景,无法与先进通用策略进行主动交互。
具体来说,存在三大关键局限,阻碍其支持策略在环(policy-in-the-loop)推演:
单视角导致幻觉
多数模型仅模拟单一第三人称视角,导致 " 部分可观测性问题 " ——例如机械臂抓取物体时,模型看不到腕部与物体的接触状态,可能出现 " 物体无物理接触却瞬移到夹爪中 " 的幻觉;
动作控制不精细
传统模型多依赖文本或初始图像条件,无法绑定高频、细微的动作信号,例如机械臂 "Z 轴移动 6 厘米 " 与 "Z 轴移动 4 厘米 " 的差异无法被准确反映,导致虚拟预演与真实动作脱节;
长时一致性差
随着预测时间延长,微小误差会不断累积,导致 " 时序漂移 " ——论文实验显示,传统模型在 10 秒预演后,物体位置与真实物理规律的偏差,失去参考价值。
为此,清华大学陈建宇与斯坦福大学 Chelsea Finn 两大团队联合提出 CTRL-WORLD,旨在构建一个 " 能精准模拟、可长期稳定、与真实对齐 " 的机器人虚拟训练空间,让机器人通过 " 想象 " 训练。
三大创新技术,让 CTRL-WORLD 突破传统世界模型局限
Ctrl-World 通过三项针对性设计,解决了传统世界模型的痛点,实现 " 高保真、可控制、长连贯 " 的虚拟预演。
论文强调,这三大创新共同将 " 被动视频生成模型 " 转化为 " 可与 VLA 策略闭环交互的模拟器 "。

Ctrl-World 基于预训练视频扩散模型初始化,并通过以下方式适配为一个可控且时间一致的世界模型:
多视角输入与联合预测
帧级动作条件控制
姿态条件记忆检索
第一,多视角联合预测:解决 " 视野盲区 ",降低幻觉率
一般来说,以往模型靠单视图预测,存在部分观测问题与幻觉。
而Ctrl-World 结合第三人称与腕部视图联合预测,生成的未来轨迹精准且贴合真实情况。

传统世界模型仅模拟单一第三方视角,本质是 " 信息不全 "。
而 CTRL-WORLD 创新性地联合生成第三方全局视角 + 腕部第一视角:
第三方视角提供环境全局信息(如物体在桌面的整体布局),腕部视角捕捉接触细节(如机械爪与毛巾的摩擦、与抽屉的碰撞位置);
模型通过空间 Transformer 将多视角图像 token 拼接(单帧含 3 个 192 × 320 图像,编码为 24 × 40latent 特征),实现跨视角空间关系对齐。

论文实验验证了这一设计的价值:
在涉及机械臂与物体接触的精细操作任务中(如抓取小型物体),腕部视角可精准捕捉夹爪与物体的接触状态(如捏合力度、接触位置),显著减少 " 无物理接触却完成抓取的幻觉 "。
定量数据显示,该设计使物体交互幻觉率降低;在多视角评估中,Ctrl-World 的峰值信噪比(PSNR)达 23.56,远超传统单视角模型 WPE(20.33)和 IRASim(21.36),结构相似性(SSIM)0.828 也显著高于基线(WPE0.772、IRASim0.774),证明虚拟画面与真实场景的高度契合。
第二,帧级动作控制:绑定动作与视觉因果,实现厘米级精准操控
要让虚拟预演 " 可控 ",必须建立 " 动作 - 视觉 " 的强因果关系。
Ctrl-World 的解决方案是 " 帧级动作绑定 ":
将机器人输出的动作序列(如关节速度)转化为笛卡尔空间中的机械臂姿态参数;
通过帧级交叉注意力模块,让每一帧的视觉预测都与对应的姿态参数严格对齐——就像 " 分镜脚本 " 对应每一幕剧情,确保 " 动作 A 必然导致视觉结果 B"。

注:上图展示的是 Ctrl-World 的可控性及其消融实验。不同的动作序列可以在 Ctrl-World 中以厘米级的精度产生不同的展开结果。移除记忆会导致预测模糊(蓝色),而移除帧级姿势条件会降低控制精度(紫色)。注意力可视化(左侧)在预测 ( t=4 ) 秒帧时,对具有相同姿势的 ( t=0 ) 秒帧显示出强烈的注意力,说明了记忆检索的有效性。为了清晰起见,每个动作块都用自然语言表达(例如,"Z 轴 -6 厘米 ")。由于空间限制,仅可视化了中间帧的腕部视角。

论文中给出了直观案例:
当机械臂执行不同的空间位移或姿态调整动作时(如沿特定轴的厘米级移动、夹爪开合),Ctrl-World 能生成与动作严格对应的预演轨迹,即使是细微的动作差异(如几厘米的位移变化),也能被准确区分和模拟。
定量 ablation 实验显示,若移除 " 帧级动作条件 ",模型的 PSNR 会从 23.56 降至 21.20,LPIPS(感知相似度,数值越低越好)从 0.091 升至 0.109,证明该设计是精准控制的核心。
第三,姿态条件记忆检索:给长时模拟 " 装稳定器 ",20 秒长时预演不漂移
长时预演的 " 时序漂移 ",本质是模型 " 忘记历史状态 "。
Ctrl-World 引入 " 姿态条件记忆检索机制 ",通过两个关键步骤解决:
稀疏记忆采样:从历史轨迹中以固定步长(如 1-2 秒)采样 k 帧(论文中 k=7),避免上下文过长导致的计算负担;
姿态锚定检索:将采样帧的机械臂姿态信息嵌入视觉 token,在预测新帧时,模型会自动检索 " 与当前姿态相似的历史帧 ",以历史状态校准当前预测,避免漂移。

注:上图展示的是 Ctrl-World 的一致性。由于腕部摄像头的视野在单一轨迹中会发生显著变化,利用多视角信息和记忆检索对于生成一致的腕部视角预测至关重要。绿色框中突出显示的预测是从其他摄像头视角推断出来的,而红色框中的预测则是从记忆中检索得到的。


论文实验显示,该机制能让 Ctrl-World 稳定生成 20 秒以上的连贯轨迹,时序一致性指标 FVD(视频帧距离,数值越低越好)仅 97.4,远低于 WPE(156.4)和 IRASim(138.1)。
ablation 实验证明,若移除记忆模块,模型的 FVD 会从 97.4 升至 105.5,PSNR 从 23.56 降至 23.06,验证了记忆机制对长时一致性的关键作用。
实验验证:从 " 虚拟评估 " 到 " 策略提升 " 的全流程实效
团队在 DROID 机器人平台(含 Panda 机械臂、1 个腕部相机 +2 个第三方相机)上开展三轮实验测试,从生成质量、评估准确性、策略优化三个维度全面验证 CTRL-WORLD 的性能:
生成质量:多指标碾压传统模型
在 10 秒长轨迹生成测试中(256 个随机剪辑,15 步 / 秒动作输入),CTRL-WORLD 在核心指标上全面领先基线模型(WPE、IRASim):
PSNR:23.56(WPE 为 20.33,IRASim 为 21.36),虚拟画面与真实场景的像素相似度提升 15%-16%;
SSIM:0.828(WPE 为 0.772,IRASim 为 0.774),物体形状、位置关系的结构一致性显著增强;
LPIPS:0.091(WPE 为 0.131,IRASim 为 0.117),从人类视觉感知看,虚拟与真实画面几乎难以区分;
FVD:97.4(WPE 为 156.4,IRASim 为 138.1),时序连贯性提升 29%-38%。
更关键的是,面对训练中未见过的相机布局(如新增顶部视角),CTRL-WORLD 能零样本适配,生成连贯多视角轨迹,证明其场景泛化能力。

策略评估:虚拟打分与真实表现高度对齐
论文结果显示:
虚拟预演的 " 指令跟随率 " 与真实世界的相关系数达 0.87(拟合公式 y=0.87x-0.04)。
虚拟 " 任务成功率 " 与真实世界的相关系数达 0.81(y=0.81x-0.11)。

这意味着,研究者无需启动真实机器人,仅通过 Ctrl-World 的虚拟预演,就能准确判断策略的真实性能,将策略评估周期从 " 周级 " 缩短至 " 小时级 "。
策略优化:400 条虚拟轨迹实现 44.7% 性能飞跃
Ctrl-World 的终极价值在于用虚拟数据改进真实策略。

团队以 π ₀ . ₅为基础策略,按以下步骤进行优化(对应论文 Algorithm1):
虚拟探索:在 Ctrl-World 中,通过 " 指令重述 "(如将 " 放手套进盒子 " 改为 " 拿起布料放入盒子 ")和 " 初始状态随机重置 ",生成 400 条陌生任务的预演轨迹;
筛选高质量数据:由人类标注员筛选出 25-50 条 " 成功轨迹 "(如准确折叠指定方向的毛巾、抓取异形物体);
监督微调:用这些虚拟成功轨迹微调 π ₀ . ₅策略。
论文给出的细分任务改进数据极具说服力:
空间理解任务:识别 " 左上角物体 "、" 右下角物体 " 等指令的成功率,从平均 28.75% 升至 87.5%;
形状理解任务:区分 " 大 / 小红块 "、" 大 / 小绿块 " 的成功率,从 43.74% 升至 91.25%;
毛巾折叠(指定方向):按 " 左右折叠 "、" 右左折叠 " 等指令执行的成功率,从 57.5% 升至 80%;
新物体任务:抓取 " 手套 "、" 订书机 " 等未见过物体的成功率,从 25% 升至 75%。
综合所有陌生场景,π ₀ . ₅的任务成功率从 38.7% 飙升至 83.4%,平均提升 44.7% ——更关键的是,整个过程未消耗任何真实物理资源,成本仅为传统专家数据方法的 1/20。
研究与未来:让 " 想象 " 更贴近真实物理规律
尽管成果显著,团队也坦言 CTRL-WORLD 仍有改进空间:
首先,复杂物理场景适配不足。
在 " 液体倾倒 "" 高速碰撞 " 等任务中,虚拟模拟与真实物理规律的偏差,主要因模型对重力、摩擦力的建模精度不足。
其次,初始观测敏感性高。
若第一帧画面模糊(如光照过暗),后续推演误差会快速累积。
未来,团队计划从两方面突破——
一方面将视频生成与强化学习结合,让机器人在虚拟世界自主探索最优策略;
另一方面扩大训练数据集(当前基于 DROID),加入 " 厨房油污环境 "、" 户外光照变化 " 等复杂场景数据,提升模型对极端环境的适配能力。
总的来说,此前机器人学习依赖 " 真实交互 - 数据收集 - 模型训练 " 的循环,本质是用物理资源换性能;而 CTRL-WORLD 构建了 " 虚拟预演 - 评估 - 优化 - 真实部署 " 的新闭环,让机器人能通过 " 想象 " 高效迭代。
该成果的价值不仅限于实验室。
对工业场景而言,它可降低机械臂调试成本(单条生产线调试周期从 1 周缩至 1 天)。
对家庭服务机器人而言,它能快速适配 " 操作异形水杯 "" 整理不规则衣物 " 等个性化任务。
随着视频扩散模型对物理规律建模的进一步精准,未来的 CTRL-WORLD 有望成为机器人 " 通用训练平台 ",推动人形机器人更快走向开放世界。
论文地址:
https://arxiv.org/pdf/2510.10125
GitHub 链接:
https://github.com/Robert-gyj/Ctrl-World
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦