李飞飞造了个「永不消逝的世界」！单张GPU就能跑

智东西

编译 | 王涵

编辑 | 漠影

智东西 10 月 17 日报道，昨晚，李飞飞团队发布全新实时生成式世界模型 RTFM（Real-Time Frame Model），只需单张 H100 GPU 就能运行！

该模型支持单图像生成 3D 场景，能处理多样化的场景类型、视觉风格及光影效果，包括镜面反射、光泽表面、动态阴影和镜头光晕。

李飞飞推文截图（来源：X）

RTFM 能在用户交互时实时生成视频，可用于探索生成的 3D 世界和真实场景定位，现已开放研究预览版。

DEMO 体验地址：

https://rtfm.worldlabs.ai/

除了前后左右移动以外，RTFM 还可以进行推拉变焦、重现鱼眼失真等镜头效果，能够像在一间真正的房间中漫步一样，真实感拉满。

李飞飞团队在博客中透露，RTFM 围绕三大核心原则设计：

1、高效性：仅需单张 H100 GPU 即可实现交互级帧率的推理运算；

2、可扩展性：采用不依赖显式 3D 表征的建模方式，通过通用端到端架构从大规模视频数据中学习，随算力数据增长持续进化；

3、持久性：支持无限时长交互，构建的 3D 世界具有永久记忆——即使转身离开，场景依然存在。

在李飞飞的推文下，很多网友都觉得这个模型的 DEMO 效果非常惊艳。

网友评论截图（来源：X）

也有比较专业的网友解释称，这个模型并不是直接生成 3D 世界，而是通过一张 2D 图片，补充这张图片场景下其他角度的 2D 图片。

网友评论截图（来源：X）

AI 数据平台公司 Manifolds AI 联合创始人 Ziyang Xie 体验后称，RTFM 的空间一致性令人印象深刻，但速度过快时仍然会崩溃。

Ziyang Xie 评论截图（来源：X）

有网友体验完感叹道：" 或许我们身处的世界也是运行在‘单张’ H100 GPU 上的。"

网友评论截图（来源：X）

一、单张 H100 GPU 就能运行，还能保持交互帧率和持久性

李飞飞团队发现，在技术发展过程中，生成式世界模型对算力的需求将远超当前大语言模型。

若直接套用现有视频架构，实现 60 帧 4K 交互视频流需每秒生成超 10 万 token（相当于首部《哈利 · 波特》的文本量），维持一小时以上持久交互更需处理超 1 亿 token 的上下文。以当前算力基础，这既不可行也不经济。

他们从中吸取了 " 教训 "：随着算力成本指数级下降，那些能适应算力增长的简洁方法终将主导 AI 发展，而生成式世界模型正处在享受未来算力红利的最佳位置。

这就带了一个关键的问题：生成式世界模型是否会被当前硬件条件束缚？是否存在技术路径让我们现在就能预览未来？

为此，李飞飞团队设定了一个简单目标，即设计一个足够高效、当下即可部署的生成式世界模型，并能随算力提升持续扩展。

他们的具体目标是构建可在单张 H100 GPU 上运行的模型，既保持交互级帧率，又能实现无限持久的世界交互。

这一目标贯穿了他们从任务设定到模型架构的整个系统设计。通过精心优化推理栈的每个环节，融合架构设计、模型蒸馏和推理优化的最新突破，李飞飞团队在当今硬件上实现了对下一代模型最高保真度的前瞻。

三、能自主掌握反射阴影的渲染，RTFM 是 " 学习型渲染器 "

传统 3D 图形管线通过显式 3D 表征（如三角网格、高斯泼溅）构建世界并渲染为 2D 图像。它们采用手工设计的数据结构与算法来建模 3D 几何、材质、光照、阴影和反射等。这些方法数十年来一直是计算机图形学的支柱，但难以随算力数据自然扩展。

RTFM 另辟蹊径，他们基于生成式视频建模的最新进展，训练单一神经网络来输入场景的一张或多张 2D 图像，无需构建任何显式 3D 表征即可生成新视角的 2D 画面。该模型采用自回归扩散 Transformer 架构处理帧序列，通过大规模视频数据端到端训练实现帧间预测。

RTFM 还可以被认为是 " 学习型渲染器 "，输入帧可以被转化为隐含世界信息的神经网络激活值（KV 缓存），生成新帧时，网络通过注意力机制读取该表征，创建与输入视角一致的新视图。

从输入视图到世界表征的转换机制，再到基于表征的新帧渲染，全程通过数据端到端学习获得，无需人工设计，RTFM 仅需在训练中观察即可自主掌握反射、阴影等复杂效果的建模。

重建（在已有视角间插值）与生成（创造输入视角未可见内容）在计算机视觉领域向来被视为两个独立的课题，但 RTFM 模糊了这二者之间的界限。当输入多视角图像时，模型更倾向于重建；当输入视角稀缺时，模型则被迫进行外推生成。

四、以位姿帧作为空间记忆，RTFM 拥有持久记忆

现实世界的核心特性在于其持久性，当你移开视线时，世界不会消失或彻底改变。无论相隔多久，你总能重返曾经到过的地方。

这对自回归帧模型来说可不太容易。由于世界仅通过 2D 图像帧隐式表征，要实现持久性，模型必须在用户探索过程中对持续增长的帧序列进行推理。这意味着生成每一帧的成本会递增，模型对世界的记忆实际上被算力预算所束缚。

为突破这一桎梏，RTFM 为每帧画面都赋予三维空间中的位姿（位置与朝向）。通过输入目标帧的位姿生成新画面，模型对世界的记忆就会具备空间结构，因为这些带位姿的帧构成了空间记忆系统。

这为模型注入了弱先验，即其所建模的世界是三维欧几里得空间，同时无需强制模型显式预测该空间中物体的三维几何。

生成新帧时，系统会从位姿帧构成的空间记忆中检索邻近帧，构建定制化上下文。这种 " 上下文调度 " 技术使模型能在空间不同区域生成时调用不同的上下文帧，从而无需对持续增长的帧序列进行推理，即可在长期交互中维持世界的持久性。

结语：世界模型突破算力限制，可在多行业中落地

李飞飞团队认为，RTFM 的推出实现了在当今硬件上部署世界模型的愿景，并确立了将世界模型视为端到端数据驱动渲染器的技术路径。

RTFM 的架构具备天然可扩展性，未来将会有更多的发展空间，比如它可以扩展为动态世界建模，允许用户与生成世界实时交互。

世界模型能实时重建、生成并模拟具有物理精确性的持久交互世界，这类模型或许将彻底改变从媒体到机器人等众多行业。

宙世代

一起剪

相关标签