
斯坦福大学 AI 科学家、World Labs 创始人李飞飞。图片经由 AI 处理
文丨谢瑞瑞
编辑丨徐青阳
" 世界模型 " 是过去两年 AI 领域最常被提及的概念之一,但它的含义正在变得越来越模糊。
视频生成模型、语言模型,甚至连物理引擎都能自称是世界模型。
斯坦福大学 AI 科学家、World Labs 创始人李飞飞于 6 月 4 日撰文,专门回应这种混乱。她开篇便给出判断:世界模型是当今 AI 领域最重要、也最被滥用的术语之一。
她在文中写道,连古希腊人都没给 " 世界 " 下过一个统一、公认的定义。" 世界 " 从来不是一个具体的事物,今天,AI 也继承了同样的问题——世界模型的边界在哪里?
李飞飞的解决思路很明确:先分清世界模型的三个核心功能——渲染、模拟、规划。
在展开论述之前,李飞飞先回顾了一张在强化学习领域使用了几十年的框架图:部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)。这个框架的名称很复杂,但逻辑却简明。

李飞飞将目前的世界模型系统分为三类,分别是渲染器、模拟器以及规划器
它描述的是一个循环:智能体采取行动,行动改变世界的状态,智能体从环境中获得观测值,再依据观测采取下一步行动。循环持续进行。
文中的 " 状态 ",指的是物理学和机器人学中的概念:在某个时刻对世界状况的完整描述,涵盖每一个物体、每一个位置、每一组速度和每一项属性,对身处其中的任何智能体而言,永远无法被完全直接感知。我们能得到的,只是对现实的部分观测。
李飞飞进一步指出,这个由 " 智能体—行动—状态—观测—回到智能体 " 构成的闭环,赋予了现代世界模型真正的技术内核。
" 世界模型 " 概念,最早可以追溯到 1943 年,由心理学家肯尼斯 · 克雷克(Kenneth Craik)在 1943 年提出,即大脑通过运行现实的 " 小规模模型 " 来进行推理。到了 20 世纪 80 年代末、90 年代初,这个概念被引入神经网络研究。而今天,所有被称为世界模型的事物,本质上都是同一个循环在不同方向上的投影,每一类只输出循环中的一个片段。
李飞飞认为,当前所有自称世界模型的系统可分为三类:渲染器、模拟器和规划器。
第一类世界模型是渲染器。它的输出是供人眼观看的像素,核心评估指标是视觉逼真度。

渲染器主要负责生成视觉画面,最主要的考核标准是逼真度
能将文本提示转化为电影级航拍镜头的视频生成模型属于这一类,谷歌的 Genie 3、World Labs 自研的 RTFM 等交互式生成系统也在此列。这类模型对三维结构没有显式理解,它们生成的是观众 " 会看到什么 ",而不是 " 现实本身是什么 "。
李飞飞在文中举了一个例子:航拍镜头中的建筑从上方看可能完美无缺,但如果试图驱车穿过下方的城市,画面就会分崩离析。原因很简单,渲染器的契约纯粹是视觉上的,它并不对画面背后的物理结构承担任何责任。
渲染器是当前商业落地最成熟的一类世界模型。谷歌的 Nano Banana 已经将渲染级别的图像生成能力交付到数亿用户手中。
但它的天花板同样清晰——渲染器优化的是视觉合理性,而非物理准确性。它的输出令人赞叹,但不能被信赖去设计建筑或训练机器人。李飞飞对此总结道:渲染器的输出固然美丽,但你无法信任它们去承担那些与现实世界紧密结合的任务。
第二类世界模型是模拟器。它输出的不是像素,而是状态,是一种在几何、物理和动力学层面高度保真的世界表征。

模拟器的职责是构建符合物理规则的三维结构
模拟器的契约是结构性的:几何必须经得起审视,物理必须尊重客观规律,动力学表现必须符合现实约束。
它同时服务于两类受众:一类是人类专业人士,包括建筑师、设计师、电影制作人和游戏开发者;另一类是计算机程序,包括强化学习智能体、机器人控制器和自动驾驶汽车,它们将模拟器作为训练场,测试那些在现实中过于危险或昂贵的场景。
李飞飞在文中有这样一段论述:如果说语言是对世界的一种抽象描述,像素是对世界的一种视觉投影,那么几何、物理和动力学才是世界的本来面目。模拟器必须建立在这个层面之上。
她举例说,模拟器生成的几何结构和物理规则就像一副骨骼——渲染器所需要的视觉外观、规划器所依赖的行动后果,都是从这副骨骼上生长出来的。
这意味着,一个精通模拟的模型,可以将其理解转化为供人观看的像素,也可以转化为供具身智能体使用的行动预测。而一个仅仅精通渲染或仅仅精通规划的模型,则做不到这一点。这是模拟器与其他两类在能力上的本质差异。
第三类世界模型是规划器,输出是行动。给定一个观测值和一个目标,规划器需要回答的核心问题是:智能体下一步应该做什么。

规划器的职责是给智能体下达行动指令
在许多方面,这恰好是渲染器的逆向过程。渲染器以行动为输入并产生观测值,规划器则以观测值为输入并产生行动,从而完成 " 感知—行动 " 的闭环。
视觉 - 语言 - 动作模型、基于模型的系统,以及新近兴起的世界动作模型,本质上都属于规划器的尝试。这些系统旨在让机器人在非结构化世界中自主决定下一步动作,直接输出一个可执行的决策。
这是最受关注的新兴方向,与机器人学习领域紧密相连。过去两年,各类机器人演示视频频频引发关注:机械臂灵活抓取物体,双足机器人在复杂地形上行走,机器人在桌面上完成精细操作等。
但李飞飞在文中指出,这些演示几乎全部局限在严格受控的实验室环境内,物体种类有限,任务周期很短。没有任何一个系统在真实世界部署所需的复杂性、多变性或持久性方面得到过验证。
尽管技术尚未成熟,商业层面的押注却已开始。一批资金雄厚的新玩家正竞相推出通用规划系统。另一边,大型基础设施巨头则已搭建起庞大的模拟平台,能处理从物理计算到环境生成的各种任务,现在正把规划能力作为新功能加进去。
在渲染、模拟、规划这三个类别中,模拟器获得的大众关注最少,但它却是三者中影响最深远的一个。她的这篇文章,正是为了解决模拟器在关注度上的不对称。
商业层面的想象空间同样可观。李飞飞在文章中直接提及英伟达的 Omniverse 平台,它所瞄准的工厂、仓库、供应链和数字孪生领域,潜在市场规模超过一万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程设计和药物研发等等,都依赖于模拟形态的技术能力。
但模拟器面临的挑战也最为严峻。
首先是数据问题:包含显式几何、材料属性和物理标注的三维数据,远比渲染器训练所依赖的互联网视频稀缺得多,相差以数量级计。互联网上有取之不尽的视频素材可以用来训练渲染器,但带有精确物理属性的 3D 资产却极其有限。
其次是长期存在的 " 模拟与现实差距 "。无论模拟做得多么精细,虚拟环境中的测试结果迁移到真实世界时,总会产生偏差。这个问题在机器人学和自动驾驶领域已经被反复讨论,至今没有完全解决。
此外,生成式模拟器还引入了新的风险。AI 生成的几何体看起来可能正确,但可能包含自相交或错误比例,一旦跑起物理模拟,就会产生荒谬的结果。
最后是计算成本的问题。在大规模多物理场景模拟中,刚体、可变形物体、流体和布料相互交织,其计算成本比单一领域的模拟高出太多。这意味着,即使有了足够的数据和模型,运行这些模拟本身也是一项昂贵的工程。
李飞飞创办的 World Labs 推出了 Marble 系统,这是朝 " 统一模拟 " 迈出的第一步。它接收文本、图像、视频或空间草图等输入,生成可交互的 3D 环境,同时输出两种结果:用于视觉呈现的高斯泼溅(Gaussian Splats),决定场景的视觉外观;用于物理计算的碰撞网格(Collision Meshes),决定物体的空间边界与碰撞响应。过去,视觉渲染和物理模拟是两套独立的系统,Marble 把它们整合进了同一个模型。
Marble 的出现让模拟器第一次同时兼顾视觉呈现与物理结构。但正如李飞飞所说,这只是一个开始。
李飞飞的另一项核心判断是:渲染、模拟、规划这三个类别,正在开始相互融合。
推动这种融合的是一个共识——渲染一个世界、模拟一个世界以及在那个世界中采取行动所需要的知识,在很大程度上是通用的。

渲染、模拟和规划三种能力的边界正在消失,最终指向一个统一的世界模型:既能生成画面,又能进行物理计算,还能自主决策
李飞飞用一个杯子的例子来说明这个观点。一个模型如果真正理解杯子如何放在桌面上,就能同时做到三件事:从任意角度渲染这个杯子,模拟它被推倒的过程,并规划一只手去将它捡起。
而这三类能力,是同一种底层理解的三个不同投影,也是一个完整的理解在不同场景下的不同输出。
实际进展已经出现。李飞飞在文中提到了来自不同机器人实验室的研究,研究表明,预训练的视频渲染器可以作为联合世界预测与行动预测的骨干网络,意味着同一个模型既能 " 想象 " 接下来发生什么,又能 " 决定 " 接下来做什么,从而在渲染器与规划器之间架起了一座桥梁。
她进一步指出,每一层都在从被动输出走向交互系统。渲染器正在变得可由行动调节,不再是单向的 " 输入文字、输出画面 ",而是可以根据用户的交互实时调整生成内容。模拟器生成的世界正在变得更可控和可编辑,用户不再只是被动地观看模拟场景,还可以介入和修改。 规划器则从单纯的 " 做出反应 " 走向 " 深思熟虑 ",能够进行更长链条的推演和规划。
这些趋势的逻辑终点是一个统一的世界模型:一个既能渲染照片级真实视图、又能产生物理精确结构、还能规划行动序列的通用大模型,并可根据下游用户的需求自由切换输出模态。届时," 渲染器 "" 模拟器 "" 规划器 " 这些分类标签本身将变得不再重要,因为它们只是同一个模型的不同用法。
当然,这个目标还远未实现。数据图谱仍然严重失衡,过度追求视觉美感,可能牺牲掉机器人或高保真模拟所需的物理精准度。如何在单一架构中调和这些冲突,是当今世界模型研究最核心的开放问题。
文章结尾,李飞飞回到了一个从上世纪末延续至今的判断:
也是整个 AI 领域一直在押注同一个判断:一个足够丰富的世界模型,就是一个智能体去观察世界、建造世界并置身其中采取行动所需要的一切。
而今天,这个判断已经出现融合的趋势。
渲染、模拟、规划,三条原本各自独立的研究路线呈现出另外一面。随着三者边界的彻底坍缩,它们将共同重塑一个更宏大的命题:机器智能与它所栖息的物理世界之间的关系。
" 语言赋予了机器谈论这个世界的能力," 李飞飞在文末写道," 而世界模型,将是机器最终用来理解、想象、推理并与这个世界进行交互的方式。"
金鹿特约编译对本文亦有贡献


登录后才可以发布评论哦
打开小程序可以发布评论哦