北京交大团队发布「视觉世界模型」综述：当机器开始学会“预判未来”

人类能够通过想象未来情境提前调整行为。当一个人看到玻璃杯即将坠落，会本能地伸手去接；看到孩子追着球冲向街道，司机会提前刹车。

让机器具备类似的预判能力，一直是人工智能（AI）发展的重要目标。

世界模型（World Model）关注的正是这种预判能力，它能让 Agent 在行动前先预测未来状态，并做出更安全、更高效的决策。视觉世界模型（Vision World Model，VWM）则更进一步，把这种能力建立在视觉信息之上，能够从图像或视频中理解并模拟世界如何随时间变化。

近年来，VWM 研究已拓展至生成式建模、表征学习和具身智能等方向。现有研究或聚焦机器人、自动驾驶等应用，将 VWM 视为辅助模块，或从宏观层面讨论世界模型，将视觉主要视作输入模态，很少分析其对表征、学习目标和评估方法的影响，仍缺少一条以视觉为中心的清晰路线图，用以梳理不同建模选择之间的关系，并评估领域进展。

围绕这个问题，北京交通大学团队及其合作者提出了理解和组织 VWM 的统一框架。他们指出，视觉已不再只是输入信息，还会深刻影响世界模型的构建方式。

论文链接：https://www.preprints.org/manuscript/202604.2072

基于统一框架，研究团队系统梳理了 VWM 的模型设计、评估方法与未来方向，为迈向更通用、更可靠的世界建模能力提供了研究路线图。

图｜VWM 研究版图。

研究团队将 VWM 定义为：一种从视觉信息中学习世界知识，并在交互条件下生成未来状态的 AI 模型。

图｜VWM 的统一框架。

为统一理解现有 VWM 方法，研究团队提出了一个框架，将 VWM 分解为三个核心组成部分：视觉编码、知识学习和可控仿真。

视觉编码，关注原始视觉数据如何被转换为适合建模世界变化的表示。原始视觉数据包含物体、运动和交互信息，但也混杂着相机抖动、背景干扰和传感器噪声。RGB 图像和视频来源广泛，常被用于训练 VWM。但它们并不显式地编码几何、运动和场景布局，VWM 相关研究通常也常引入深度图、点云、多视角几何、光流和鸟瞰图等视觉模态。

知识学习，关注模型如何从视觉数据中学习世界知识。研究团队认为，VWM 需要学习的世界知识至少包括三类：时空连贯性、物理动态和因果机制。时空连贯性要求模型在不同视角和不同时间中维持实体身份；物理动态关注实体如何在重力、接触、材料阻力等约束下变化；因果机制关注动作和事件与结果之间的关系，区别于只依赖统计相关性的预测。

可控仿真描述的是 VWM 如何在动作或指令等条件下生成可能的未来世界状态。它包含两个核心环节：一是模拟，即模型基于当前视觉上下文和已学习的世界知识生成未来状态；二是交互，即把机器人控制信号、键盘鼠标操作、语言或多模态提示等外部条件纳入生成过程，使模型的预测随输入变化。在同一个视觉场景中，输入的动作或指令不同，模型生成的未来状态也会不同。

在统一框架下，研究团队将现有 VWM 方法归纳为四类：序列生成、基于扩散的生成、嵌入预测和状态转移。

图｜VWM 设计的分类体系被组织为四个架构。

1. 序列生成方法

序列生成方法将视觉世界建模看作 token 序列生成问题，通常先把视觉上下文和可选条件编码成 token 流，再在历史 token 的条件下逐步生成未来结果。其中，视觉自回归模型通过 next-token prediction 来预测未来视觉 token。

图｜视觉自回归建模类 VWM 的总结。

MLLM 引导的多模态自回归模型则将视觉输入表示为与 LLM 兼容的 token，并生成交错式多模态推演，用于推理和规划。

图｜基于 MLLM 的 VWM 工作总结。

这类方法的优势是扩展性强，能够支持较长推演和多种交互条件；局限是长程生成容易累积误差，离散 token 化也可能损失精细几何细节。

2. 基于扩散的生成方法

基于扩散的生成方法，需要通过在连续潜在空间中迭代去噪，生成未来世界状态。它不按序列预测 token，而是逐步细化带噪表示；研究团队将这类方法分为潜在扩散和自回归扩散。

潜在扩散在压缩潜在空间中执行去噪，通常联合生成一个时间窗口内的未来帧，支持高质量视觉生成，并有助于改善短期连贯性。

自回归扩散则将序列生成与潜在扩散结合起来，让每一步去噪都依赖此前生成的结果，从而延展到更长程。

图｜基于扩散的 VWM 代表方法总结。

这类方法通常具有较高视觉保真度，但扩散推理需要反复采样，计算成本较高，可能限制实时交互。对于长程生成，自回归扩散还会受到训练与推理不匹配的影响：推理阶段依赖此前生成的状态，误差可能随时间累积，并在长程推演中造成漂移。

3. 嵌入预测方法

嵌入预测方法不从像素层面重建图像或视频，它在表示空间中建模世界变化，预测编码任务相关时空和语义信息的未来嵌入。研究团队总结，这类方法常使用 DINOv2、CLIP、SigLIP 等视觉基础模型提取上下文嵌入，再训练预测模块预测未来表示。由于不需要视觉解码，规划和动作评估可以直接在表示空间中完成，因此计算效率更高，适合长程规划。该框架也可扩展到 RGB 之外的输入模态，例如 LiDAR 点云和超声数据；紧凑、模态无关的嵌入表示还便于整合机器人本体感知和语言指令。

但这类方法也有局限，预测出的未来状态以特征表示存在，不能像图像一样直接检查，可解释性相对较弱；同时，由于依赖固定参数的基础模型，表示能力也可能受到预训练编码器能力的约束。

图｜基于嵌入预测的 VWM 汇总

4. 状态转移方法

状态转移方法将世界表示为紧凑的潜在状态，并建模这一状态如何随时间演化。按潜在状态的结构看，状态转移方法可分为两类：状态空间建模维护一个单一全局循环状态；对象中心建模则将状态分解为一组实体槽位，用于建模个体对象之间的交互。

这类方法适合快速评估候选动作并支持规划控制，但紧凑的潜在状态可能会导致细粒度空间或几何细节丢失；在复杂的真实场景中，实体槽位也可能出现对象绑定不稳定的问题。

图｜基于状态空间建模的 VWM 总结。

研究团队指出，VWM 的评估指标用于衡量模型能力，数据集和基准提供具体测试场景。

图｜VWM 评估体系概览。

在评估指标层面，研究团队将评估分为视觉质量、物理可信性和任务表现。视觉质量衡量生成图像或视频的清晰度、自然度和真实感；物理可信性衡量预测的运动和空间结构是否符合物理约束，包括轨迹、姿态、相机运动、光流、深度和多视角几何等；任务表现则检验世界模型能否支持下游任务完成，如游戏得分、驾驶规划质量、碰撞风险、机器人操作成功率和多步任务完成情况。

图｜VWM 代表性指标汇总，按核心维度及其对应子维度分类。

在数据集和基准方面，研究团队将现有资源分为基础世界建模和特定领域世界建模两类。

基础世界建模关注通用预测、仿真、物理和因果能力。SSV2、Ego4D 等大规模视频数据集常用于预训练视觉编码器和时间表征；WorldModelBench、WorldScore、WorldPrediction 等基准用于评估长程预测、可控生成和规划能力；CoPhy、Physion++、IntPhys 2 等基准更强调反事实推理、隐藏物理属性推断和违反预期判断。Sekai 使用 VBench 评估 4D 时空一致性，OmniWorld 则进一步引入基于相机参数的指标，测试生成结果的视角一致性。

图｜基础世界建模数据集与基准。

特定领域世界建模主要覆盖具身 AI 与机器人、自动驾驶、交互式环境与游戏三类场景。具身 AI 与机器人评估模型是否能支持操作任务、长程任务和闭环控制；自动驾驶更关注感知、轨迹预测、规划质量和碰撞风险；交互式环境与游戏则检验控制表现、空间记忆、长程一致性和交互可控性。这些基准把评估重点放在具体任务中，关注模型能否支持行动、规划和交互。

图｜特定领域的世界建模数据集和基准。

研究团队指出，当前 VWM 仍需要在知识基础、评估方式和规模化能力上继续推进。未来的 VWM 研究，需要强化物理与因果基础、改进跨任务评估协议，以及扩展训练和推理能力。

图｜VWM 开放挑战与未来方向的结构化视图。

具体如下：

重新 " 奠基 "：强化世界知识

当前 VWM 已能生成视觉上合理的未来结果，但在复杂交互、罕见事件，或干预效果随环境变化时，其输出可能变得不可靠。研究团队认为，未来研究需要强化模型的世界知识，使其更准确地刻画状态在物理约束和外部干预下如何变化。

VWM 需要学习的世界知识，不能只停留在简化的物理场景中。真实环境中的密集接触、可变形材料、依赖表面的运动，都会影响未来状态。人类环境还包含社会规范和上下文规则，例如临时交通指挥会改变通常的通行方式，这些因素也会影响模型对未来的预测。

此外，模型架构也需要更强的 grounding 能力。几何感知建模可以帮助模型保留 3D 结构和场景布局，维持物体身份、遮挡关系和空间一致性；神经网络负责处理复杂视觉输入和场景变化，符号模块负责提供明确的物理规则或因果约束。

重新评估：迈向多样化且可靠的评估

目前，VWM 的评估仍是一个瓶颈。现有评估常借用视频生成等相邻领域的指标，容易强调外观质量，却难以判断模型是否真正捕捉了物理和因果原则。

研究团队指出，未来评估需要结合评判模型和执行结果。模型不应只看生成结果得分，还要放进执行循环中，让 Agent 用模拟推演规划和行动，再用任务表现检验世界知识是否可靠；未来基准也需要覆盖更复杂的动态和因果干预，例如密集接触、可变形材料、摩擦相关运动；同时也要考察在同一起始状态下，改变动作或环境条件后，模型预测的结果是否随之合理变化。

重新 scaling：面向泛化与推理的 scaling law

研究团队认为，单纯扩大模型规模主要提升视觉保真度，对物理规律和因果关系的学习帮助有限。因此，未来研究重点不是把模型做大，而是让扩展策略更直接服务于世界建模。

预训练扩展的目标，是在统一接口下训练更通用的 VWM，使单一模型能够支持不同任务和交互场景，并提升跨领域泛化、长程推理和新交互条件下的鲁棒性。这不仅需要更大模型，也需要覆盖更多交互模式、环境变化和长程过程的数据，同时让训练目标引导模型学习基础物理和因果关系。

推理时扩展强调在生成结果前投入更多计算。模型可以先推演多种未来状态，再检查其是否符合物理或因果约束，并根据干预条件反复修正。罕见物理事件、复杂接触动态和反事实推理，往往需要这类更充分的推演过程。

更多技术细节，详见原论文。

作者：夏千斯

如需转载或投稿，请直接在本文章评论区内留言。

宙世代

一起剪

相关标签