学术头条 6小时前
北京交大团队发布「视觉世界模型」综述:当机器开始学会“预判未来”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

人类能够通过想象未来情境提前调整行为。当一个人看到玻璃杯即将坠落,会本能地伸手去接;看到孩子追着球冲向街道,司机会提前刹车。

让机器具备类似的预判能力,一直是人工智能(AI)发展的重要目标。

世界模型(World Model)关注的正是这种预判能力,它能让   Agent   在行动前先预测未来状态,并做出更安全、更高效的决策。视觉世界模型(Vision World Model,VWM)则更进一步,把这种能力建立在视觉信息之上,能够从图像或视频中理解并模拟世界如何随时间变化。

近年来,VWM 研究已拓展至生成式建模、表征学习和具身智能等方向。现有研究或聚焦机器人、自动驾驶等应用,将 VWM 视为辅助模块,或从宏观层面讨论世界模型,将视觉主要视作输入模态,很少分析其对表征、学习目标和评估方法的影响,仍缺少一条以视觉为中心的清晰路线图,用以梳理不同建模选择之间的关系,并评估领域进展。

围绕这个问题,北京交通大学团队及其合作者提出了理解和组织 VWM 的统一框架。他们指出,视觉已不再只是输入信息,还会深刻影响世界模型的构建方式。

论文链接:https://www.preprints.org/manuscript/202604.2072

基于统一框架,研究团队系统梳理了   VWM 的模型设计、评估方法与未来方向,为迈向更通用、更可靠的世界建模能力提供了研究路线图。

图|VWM   研究版图。

研究团队将   VWM   定义为:一种从视觉信息中学习世界知识,并在交互条件下生成未来状态的 AI 模型。

图|VWM   的统一框架。

为统一理解现有 VWM 方法,研究团队提出了一个框架,将 VWM 分解为三个核心组成部分:视觉编码、知识学习和可控仿真。

视觉编码,关注原始视觉数据如何被转换为适合建模世界变化的表示。原始视觉数据包含物体、运动和交互信息,但也混杂着相机抖动、背景干扰和传感器噪声。RGB 图像和视频来源广泛,常被用于训练 VWM。但它们并不显式地编码几何、运动和场景布局,VWM 相关研究通常也常引入深度图、点云、多视角几何、光流和鸟瞰图等视觉模态。

知识学习,关注模型如何从视觉数据中学习世界知识。研究团队认为,VWM 需要学习的世界知识至少包括三类:时空连贯性、物理动态和因果机制。时空连贯性要求模型在不同视角和不同时间中维持实体身份;物理动态关注实体如何在重力、接触、材料阻力等约束下变化;因果机制关注动作和事件与结果之间的关系,区别于只依赖统计相关性的预测。

可控仿真描述的是 VWM 如何在动作或指令等条件下生成可能的未来世界状态。它包含两个核心环节:一是模拟,即模型基于当前视觉上下文和已学习的世界知识生成未来状态;二是交互,即把机器人控制信号、键盘鼠标操作、语言或多模态提示等外部条件纳入生成过程,使模型的预测随输入变化。在同一个视觉场景中,输入的动作或指令不同,模型生成的未来状态也会不同。

在统一框架下,研究团队将现有 VWM 方法归纳为四类:序列生成、基于扩散的生成、嵌入预测和状态转移。

图|VWM 设计的分类体系被组织为四个架构。

1. 序列生成方法

序列生成方法将视觉世界建模看作 token 序列生成问题,通常先把视觉上下文和可选条件编码成 token 流,再在历史 token 的条件下逐步生成未来结果。其中,视觉自回归模型通过 next-token prediction   来预测未来视觉 token。

图|视觉自回归建模类 VWM 的总结。

MLLM 引导的多模态自回归模型则将视觉输入表示为与 LLM 兼容的 token,并生成交错式多模态推演,用于推理和规划。

图|基于 MLLM 的 VWM 工作总结。

这类方法的优势是扩展性强,能够支持较长推演和多种交互条件;局限是长程生成容易累积误差,离散 token 化也可能损失精细几何细节。

2. 基于扩散的生成方法

基于扩散的生成方法,需要通过在连续潜在空间中迭代去噪,生成未来世界状态。它不按序列预测 token,而是逐步细化带噪表示;研究团队将这类方法分为潜在扩散和自回归扩散。

潜在扩散在压缩潜在空间中执行去噪,通常联合生成一个时间窗口内的未来帧,支持高质量视觉生成,并有助于改善短期连贯性。

自回归扩散则将序列生成与潜在扩散结合起来,让每一步去噪都依赖此前生成的结果,从而延展到更长程。

图|基于扩散的 VWM 代表方法总结。

这类方法通常具有较高视觉保真度,但扩散推理需要反复采样,计算成本较高,可能限制实时交互。对于长程生成,自回归扩散还会受到训练与推理不匹配的影响:推理阶段依赖此前生成的状态,误差可能随时间累积,并在长程推演中造成漂移。

3. 嵌入预测方法

嵌入预测方法不从像素层面重建图像或视频,它在表示空间中建模世界变化,预测编码任务相关时空和语义信息的未来嵌入。研究团队总结,这类方法常使用 DINOv2、CLIP、SigLIP 等视觉基础模型提取上下文嵌入,再训练预测模块预测未来表示。由于不需要视觉解码,规划和动作评估可以直接在表示空间中完成,因此计算效率更高,适合长程规划。该框架也可扩展到 RGB 之外的输入模态,例如 LiDAR 点云和超声数据;紧凑、模态无关的嵌入表示还便于整合机器人本体感知和语言指令。

但这类方法也有局限,预测出的未来状态以特征表示存在,不能像图像一样直接检查,可解释性相对较弱;同时,由于依赖固定参数的基础模型,表示能力也可能受到预训练编码器能力的约束。

图|基于嵌入预测的   VWM   汇总

4. 状态转移方法

状态转移方法将世界表示为紧凑的潜在状态,并建模这一状态如何随时间演化。按潜在状态的结构看,状态转移方法可分为两类:状态空间建模维护一个单一全局循环状态;对象中心建模则将状态分解为一组实体槽位,用于建模个体对象之间的交互。

这类方法适合快速评估候选动作并支持规划控制,但紧凑的潜在状态可能会导致细粒度空间或几何细节丢失;在复杂的真实场景中,实体槽位也可能出现对象绑定不稳定的问题。

图|基于状态空间建模的 VWM 总结。

研究团队指出,VWM 的评估指标用于衡量模型能力,数据集和基准提供具体测试场景。

图|VWM   评估体系概览。

在评估指标层面,研究团队将评估分为视觉质量、物理可信性和任务表现。视觉质量衡量生成图像或视频的清晰度、自然度和真实感;物理可信性衡量预测的运动和空间结构是否符合物理约束,包括轨迹、姿态、相机运动、光流、深度和多视角几何等;任务表现则检验世界模型能否支持下游任务完成,如游戏得分、驾驶规划质量、碰撞风险、机器人操作成功率和多步任务完成情况。

图|VWM   代表性指标汇总,按核心维度及其对应子维度分类。

在数据集和基准方面,研究团队将现有资源分为基础世界建模和特定领域世界建模两类。

基础世界建模关注通用预测、仿真、物理和因果能力。SSV2、Ego4D 等大规模视频数据集常用于预训练视觉编码器和时间表征;WorldModelBench、WorldScore、WorldPrediction 等基准用于评估长程预测、可控生成和规划能力;CoPhy、Physion++、IntPhys 2 等基准更强调反事实推理、隐藏物理属性推断和违反预期判断。Sekai 使用   VBench 评估 4D 时空一致性,OmniWorld 则进一步引入基于相机参数的指标,测试生成结果的视角一致性。

图|基础世界建模数据集与基准。

特定领域世界建模主要覆盖具身 AI 与机器人、自动驾驶、交互式环境与游戏三类场景。具身 AI 与机器人评估模型是否能支持操作任务、长程任务和闭环控制;自动驾驶更关注感知、轨迹预测、规划质量和碰撞风险;交互式环境与游戏则检验控制表现、空间记忆、长程一致性和交互可控性。这些基准把评估重点放在具体任务中,关注模型能否支持行动、规划和交互。

图|特定领域的世界建模数据集和基准。

研究团队指出,当前 VWM 仍需要在知识基础、评估方式和规模化能力上继续推进。未来的 VWM 研究,需要强化物理与因果基础、改进跨任务评估协议,以及扩展训练和推理能力。

图|VWM   开放挑战与未来方向的结构化视图。

具体如下:

重新 " 奠基 ":强化世界知识

当前 VWM 已能生成视觉上合理的未来结果,但在复杂交互、罕见事件,或干预效果随环境变化时,其输出可能变得不可靠。研究团队认为,未来研究需要强化模型的世界知识,使其更准确地刻画状态在物理约束和外部干预下如何变化。

VWM 需要学习的世界知识,不能只停留在简化的物理场景中。真实环境中的密集接触、可变形材料、依赖表面的运动,都会影响未来状态。人类环境还包含社会规范和上下文规则,例如临时交通指挥会改变通常的通行方式,这些因素也会影响模型对未来的预测。

此外,模型架构也需要更强的 grounding 能力。几何感知建模可以帮助模型保留 3D 结构和场景布局,维持物体身份、遮挡关系和空间一致性;神经网络负责处理复杂视觉输入和场景变化,符号模块负责提供明确的物理规则或因果约束。

重新评估:迈向多样化且可靠的评估

目前,VWM 的评估仍是一个瓶颈。现有评估常借用视频生成等相邻领域的指标,容易强调外观质量,却难以判断模型是否真正捕捉了物理和因果原则。

研究团队指出,未来评估需要结合评判模型和执行结果。模型不应只看生成结果得分,还要放进执行循环中,让   Agent   用模拟推演规划和行动,再用任务表现检验世界知识是否可靠;未来基准也需要覆盖更复杂的动态和因果干预,例如密集接触、可变形材料、摩擦相关运动;同时也要考察在同一起始状态下,改变动作或环境条件后,模型预测的结果是否随之合理变化。

重新   scaling:面向泛化与推理的   scaling law

研究团队认为,单纯扩大模型规模主要提升视觉保真度,对物理规律和因果关系的学习帮助有限。因此,未来研究重点不是把模型做大,而是让扩展策略更直接服务于世界建模。

预训练扩展的目标,是在统一接口下训练更通用的 VWM,使单一模型能够支持不同任务和交互场景,并提升跨领域泛化、长程推理和新交互条件下的鲁棒性。这不仅需要更大模型,也需要覆盖更多交互模式、环境变化和长程过程的数据,同时让训练目标引导模型学习基础物理和因果关系。

推理时扩展强调在生成结果前投入更多计算。模型可以先推演多种未来状态,再检查其是否符合物理或因果约束,并根据干预条件反复修正。罕见物理事件、复杂接触动态和反事实推理,往往需要这类更充分的推演过程。

更多技术细节,详见原论文。

作者:夏千斯

如需转载或投稿,请直接在本文章评论区内留言。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

自动驾驶 机器人 人工智能 ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论