学术头条 02-14
清华、北大等团队联合推出WorldArena,重塑具身世界模型评测的全新格局
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

投稿作者:商宇(清华大学博士生)

当下,具身智能正逐步成为智能体理解世界、与物理世界交互的核心能力。

而世界模型(World Models, WMs),则被视为这一方向的关键技术基础——它们帮助机器人理解环境动态、预测未来状态,并为行动规划提供内部模拟机制。通过生成高质量视觉表征并进行结构化推理,世界模型正在推动机器人从 " 被动感知 " 走向 " 主动决策 ",为复杂任务执行提供重要支撑。

2025 年,李飞飞团队提出全球首个面向世界生成模型的统一评测基准 WorldScore,将评测对象扩展至多样化生成模型范式,包括 3D、4D、图像到视频以及文本到视频等方向,标志着世界生成评测进入体系化阶段。

然而,当前行业内的评测体系仍普遍以 " 视觉逼真度 " 为核心指标,更多关注生成内容是否真实自然,却较少系统评估模型在具身任务与长期决策场景中的功能能力。

这也引出了一个关键问题:当世界模型走向真实应用,仅有视觉真实,是否足够?

正是在这一背景下,WorldArena 应运而生。作为一套面向具身世界模型的全新评测体系,WorldArena 不再局限于视觉层面的单点评价,而是打通了生成质量与功能能力之间的评测链路,构建起一个更完整、更系统的评估框架。它不仅弥补了视觉质量与具身任务功能性之间的评测空白,也为世界模型的能力刻画提供了更加结构化与可对比的标准。

WorldArena 的提出,标志着具身世界模型评测从 " 看起来是否真实 " 迈向 " 是否真正可用 " 的关键转变,推动评测体系与技术发展进入一个更具深度与应用导向的新阶段。

论文地址:http://arxiv.org/abs/2602.08971

项目主页:http://world-arena.ai

评测榜单:https://huggingface.co/spaces/WorldArena/WorldArena

代码仓库:https://github.com/tsinghua-fib-lab/WorldArena

打破单一维度局限,构建多维度视觉质量评估体系

长期以来,世界模型的评测被 " 视觉质量 " 牢牢主导,行业内的研究竞争也多围绕视觉生成效果展开,这种单一维度的评测模式,让世界模型的研发逐渐偏离了具身智能的实际需求。WorldArena 的首要突破,就是构建了一套系统化、多维度的视频质量评估体系,让视觉质量的评测不再是模糊的 " 好看与否 ",而是从感知、运动、内容、物理、空间、指令六个维度展开的量化评估,既保证了视觉评测的全面性,也让评测结果更具客观性和参考性。

WorldArena 将视频感知质量拆解为六大核心子维度,包含 16 项具体量化指标,从静态到动态,从表面到深层,全面刻画模型的视觉生成能力。

图|WorldArena 在六个关键维度对世界模型生成质量进行全面评估

在视觉质量维度,通过图像质量、美学质量、JEPA 相似性三个指标,评估生成视频的基础感知效果,衡量画面清晰度、色彩搭配的合理性、像素分布与真实数据的相似性,这是对模型最基础的视觉要求。

动作质量维度则聚焦动态表现,针对部分模型 " 画面清晰但运动僵硬 " 的问题,通过动态程度、光流连续性、动作平滑性指标,分析视频中运动的强度、时序连续性和流畅度,让生成的运动更贴合真实世界的物体运动规律。

内容一致性维度关注生成视频的逻辑合理性,真实世界中,物体的形态、身份,场景的背景都不会无规律变化,这一维度通过主体一致性、背景一致性、光度一致性指标,严格排查生成内容中的结构漂移、物体变形、背景不连贯等问题,让视频内容在时间和空间维度上保持稳定,符合现实世界的基本逻辑。

物理遵循性是连接视觉与功能的关键维度,也是具身世界模型与普通视觉生成模型的核心区别之一,该维度通过交互质量、轨迹准确性指标,评估模型生成的机器人与物体的交互行为是否符合物理规律,动作轨迹是否精准合理,避免视觉生成脱离现实物理规则,为模型的功能落地奠定基础。

3D 准确性维度则针对具身智能的空间需求,评估模型的三维空间理解能力,通过深度准确性、透视一致性指标,判断生成视频的空间结构是否符合几何与透视规律,是否具备真实的空间深度,避免出现 2D 平面化的视觉缺陷,这一能力直接关系到模型对真实物理空间的理解,是智能体实现空间定位、物体交互的基础。

可控性维度则直接指向模型的实际应用价值,通过指令跟随、语义一致性、行动跟随指标,评估模型对外部文本、动作指令的响应能力,以及不同指令下生成结果的区分能力,核心回答了 " 模型是否听得懂、跟得上指令 " 这一关键问题,一个无法被有效控制的模型,即便视觉效果再好,也难以在具身场景中发挥作用。

这六大维度相互关联、层层递进,从基础的视觉感知到深层的物理与指令理解,构建了一套完整的视觉质量评估体系,让世界模型的视觉评测真正贴合具身智能的应用需求,而非单纯的视觉生成竞赛。

直击核心需求,首创三大具身任务功能性评测框架

如果说多维度的视觉质量评估是 WorldArena 的基础,那么具身任务功能性评估就是其最具革命性的创新。这一设计首次将世界模型的评测从视觉生成层面延伸至实际具身任务执行层面,将 " 生成得好不好 " 的问题,升级为 " 用得行不行 " 的问题,真正围绕具身智能的实际应用需求,评估世界模型的核心功能能力。

在具身智能场景中,世界模型主要承担三大核心角色,WorldArena 的功能性评测也围绕这三大角色展开,全面评估模型在下游具身任务中的实际表现:作为合成数据引擎,补充真实数据缺口;作为策略评估器,模拟真实环境进行策略评测;作为行动规划器,为智能体提供闭环行动策略。这三大评测方向,精准覆盖了世界模型在具身智能中的核心应用场景,让评测结果真正成为模型技术落地的重要参考。

图|具身下游任务评测体系(数据合成引擎、策略评估器、动作规划器)

在具身数据引擎评测中,核心关注世界模型的合成数据生成能力。具身智能的研究往往面临真实训练数据稀缺、采集成本高的问题,世界模型的一大核心价值,就是能够基于少量真实数据,生成符合指令的合成视频 - 动作序列,为下游策略模型的训练补充数据。WorldArena 通过两阶段训练流程,先让世界模型在 RoboTwin 2.0 数据集上微调,生成基于首帧和外部指令的合成视频,再结合逆动力学模型提取动作序列,生成配对的视频 - 动作数据,最后通过训练下游策略模型,衡量合成数据为模型带来的性能增益,性能增益越高,说明世界模型的合成数据质量越好,数据引擎的功能能力越强。实验结果显示,当前多数世界模型的合成数据质量仍显著落后于真实数据,仅部分模型能带来有限的性能提升,这也指出了该方向的未来研究重点。

表|以世界模型作为数据合成引擎,训练得到的 VLA 模型性能对比

在具身策略评估器评测中,重点评估世界模型作为真实环境代理的能力。在具身智能研究中,直接让策略模型与真实物理环境交互评测,不仅成本高、效率低,还存在一定的安全风险,世界模型若能准确刻画真实环境的状态转移规律,就能成为真实环境的有效代理,实现策略模型的高效评测。WorldArena 通过训练一系列不同能力的 Pi 0.5 策略模型,让其分别与世界模型模拟环境和 RoboTwin 真实仿真环境交互,通过计算两组评测结果的成功速率相关性,判断世界模型的环境模拟能力。相关性越高,说明世界模型越能准确捕捉真实环境的动态演化机制,作为策略评估器的价值也就越大。实验中,CtrlWorld 的相关系数高达 0.986,展现出优异的环境模拟能力,而部分模型则表现不佳,与其实视觉生成中的短板形成呼应。

图|基于世界模型和物理仿真环境的策略评估结果相关性

在具身行动规划器评测中,核心评估世界模型的闭环决策与执行能力,这也是世界模型作为具身智能基础设施的核心能力。WorldArena 将世界模型与逆动力学模型结合,让世界模型以文本指令和初始帧为输入,输出后续的动作序列,再将该序列在模拟器中执行,通过任务成功速率衡量模型的行动规划能力。实验发现,尽管部分模型能生成视觉合理的未来预测,但在长时序、复杂交互的闭环控制任务中,其性能仍显著落后于成熟的策略模型,这表明当前世界模型的决策规划能力仍有较大提升空间,难以支撑智能体的自主、稳定执行。

表|基于世界模型进行动作规划的任务性能对比

EWMScore:统一量化指标,让评测结果更具可比性

面对不同维度的多项评测结果,如何让零散的评测数据形成一个清晰、可对比的综合结论,是评测体系需要解决的关键问题。为此,WorldArena 提出了统一的综合评估指标——EWMScore,将六大视频质量维度的评测结果整合为一个单一的、可解释的综合分数,让不同模型的综合能力能够实现直观的横向对比。这一指标的核心价值,不仅在于将零散的指标整合为一个综合分数,更在于其与人类主观评估结果的高度正相关,这意味着 EWMScore 并非一个脱离实际的抽象数值,而是能够真实反映人类对模型综合能力的主观判断,实现了机器自动量化评测与人类主观感知的高度对齐。

图|14 个世界模型 EWMScore 及不同维度指标对比

但值得注意的是,EWMScore 与具身任务性能的相关性却并不理想:与数据引擎任务的相关性为 0.600,与动作规划任务的相关性仅为 0.360。这一数据直接揭示了当前世界模型发展的核心问题——视觉真实不等于功能真实,即便模型在视觉层面获得了较高的分数,其在实际具身任务中的表现也未必出色,视觉表现与功能能力之间尚未建立强关联。这一结论也为行业敲响了警钟:脱离功能需求的视觉生成优化难以帮助世界模型真正在具身智能落地,世界模型的研发必须围绕功能落地展开。

图|EWMScore 与人类评估、具身下游任务性能相关性分析

人工评估与社区共建:构建具身世界模型的开放生态

一个成熟的评测体系,不仅需要客观量化指标,更需要与人类真实感知对齐的主观判断,以及社区持续参与带来的迭代动力。只有自动评估、人类评价与开放协作形成闭环,评测结果才能真正反映模型在现实场景中的价值。

WorldArena 在设计中引入了大规模社区人工评估机制,邀请全球研究者与开发者参与模型对比,从整体质量、物理遵循性、指令跟随能力以及模型相对优劣等关键维度进行主观评价。这不仅增强了指标与人类直觉之间的对齐,也为模型优化提供了更具现实意义的反馈。

同时,WorldArena 构建了开放透明的共建生态,通过公开排行榜推动研究者在同一标准下持续迭代。我们相信,具身世界模型将逐步从单一的视觉生成竞争,迈向强调物理一致性与决策可靠性的功能化发展。WorldArena 希望成为这一转变的基础设施,推动具身智能从实验探索走向真实应用。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 清华大学 物理 李飞飞
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论