智东西 前天
李飞飞造了个「永不消逝的世界」!单张GPU就能跑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

编译 | 王涵

编辑 | 漠影

智东西 10 月 17 日报道,昨晚,李飞飞团队发布全新实时生成式世界模型 RTFM(Real-Time Frame Model),只需单张 H100 GPU 就能运行!

该模型支持单图像生成 3D 场景,能处理多样化的场景类型、视觉风格及光影效果,包括镜面反射、光泽表面、动态阴影和镜头光晕。

李飞飞推文截图(来源:X)

RTFM 能在用户交互时实时生成视频,可用于探索生成的 3D 世界和真实场景定位,现已开放研究预览版。

DEMO 体验地址:

https://rtfm.worldlabs.ai/

除了前后左右移动以外,RTFM 还可以进行推拉变焦、重现鱼眼失真等镜头效果,能够像在一间真正的房间中漫步一样,真实感拉满。

李飞飞团队在博客中透露,RTFM 围绕三大核心原则设计:

1、高效性:仅需单张 H100 GPU 即可实现交互级帧率的推理运算;

2、可扩展性:采用不依赖显式 3D 表征的建模方式,通过通用端到端架构从大规模视频数据中学习,随算力数据增长持续进化;

3、持久性:支持无限时长交互,构建的 3D 世界具有永久记忆——即使转身离开,场景依然存在。

在李飞飞的推文下,很多网友都觉得这个模型的 DEMO 效果非常惊艳。

网友评论截图(来源:X)

也有比较专业的网友解释称,这个模型并不是直接生成 3D 世界,而是通过一张 2D 图片,补充这张图片场景下其他角度的 2D 图片。

网友评论截图(来源:X)

AI 数据平台公司 Manifolds AI 联合创始人 Ziyang Xie 体验后称,RTFM 的空间一致性令人印象深刻,但速度过快时仍然会崩溃。

Ziyang Xie 评论截图(来源:X)

有网友体验完感叹道:" 或许我们身处的世界也是运行在‘单张’ H100 GPU 上的。"

网友评论截图(来源:X)

一、单张 H100 GPU 就能运行,还能保持交互帧率和持久性

李飞飞团队发现,在技术发展过程中,生成式世界模型对算力的需求将远超当前大语言模型。

若直接套用现有视频架构,实现 60 帧 4K 交互视频流需每秒生成超 10 万 token(相当于首部《哈利 · 波特》的文本量),维持一小时以上持久交互更需处理超 1 亿 token 的上下文。以当前算力基础,这既不可行也不经济。

他们从中吸取了 " 教训 ":随着算力成本指数级下降,那些能适应算力增长的简洁方法终将主导 AI 发展,而生成式世界模型正处在享受未来算力红利的最佳位置。

这就带了一个关键的问题:生成式世界模型是否会被当前硬件条件束缚?是否存在技术路径让我们现在就能预览未来?

为此,李飞飞团队设定了一个简单目标,即设计一个足够高效、当下即可部署的生成式世界模型,并能随算力提升持续扩展。

他们的具体目标是构建可在单张 H100 GPU 上运行的模型,既保持交互级帧率,又能实现无限持久的世界交互。

这一目标贯穿了他们从任务设定到模型架构的整个系统设计。通过精心优化推理栈的每个环节,融合架构设计、模型蒸馏和推理优化的最新突破,李飞飞团队在当今硬件上实现了对下一代模型最高保真度的前瞻。

三、能自主掌握反射阴影的渲染,RTFM 是 " 学习型渲染器 "

传统 3D 图形管线通过显式 3D 表征(如三角网格、高斯泼溅)构建世界并渲染为 2D 图像。它们采用手工设计的数据结构与算法来建模 3D 几何、材质、光照、阴影和反射等。这些方法数十年来一直是计算机图形学的支柱,但难以随算力数据自然扩展。

RTFM 另辟蹊径,他们基于生成式视频建模的最新进展,训练单一神经网络来输入场景的一张或多张 2D 图像,无需构建任何显式 3D 表征即可生成新视角的 2D 画面。该模型采用自回归扩散 Transformer 架构处理帧序列,通过大规模视频数据端到端训练实现帧间预测。

RTFM 还可以被认为是 " 学习型渲染器 ",输入帧可以被转化为隐含世界信息的神经网络激活值(KV 缓存),生成新帧时,网络通过注意力机制读取该表征,创建与输入视角一致的新视图。

从输入视图到世界表征的转换机制,再到基于表征的新帧渲染,全程通过数据端到端学习获得,无需人工设计,RTFM 仅需在训练中观察即可自主掌握反射、阴影等复杂效果的建模。

重建(在已有视角间插值)与生成(创造输入视角未可见内容)在计算机视觉领域向来被视为两个独立的课题,但 RTFM 模糊了这二者之间的界限。当输入多视角图像时,模型更倾向于重建;当输入视角稀缺时,模型则被迫进行外推生成。

四、以位姿帧作为空间记忆,RTFM 拥有持久记忆

现实世界的核心特性在于其持久性,当你移开视线时,世界不会消失或彻底改变。无论相隔多久,你总能重返曾经到过的地方。

这对自回归帧模型来说可不太容易。由于世界仅通过 2D 图像帧隐式表征,要实现持久性,模型必须在用户探索过程中对持续增长的帧序列进行推理。这意味着生成每一帧的成本会递增,模型对世界的记忆实际上被算力预算所束缚。

为突破这一桎梏,RTFM 为每帧画面都赋予三维空间中的位姿(位置与朝向)。通过输入目标帧的位姿生成新画面,模型对世界的记忆就会具备空间结构,因为这些带位姿的帧构成了空间记忆系统。

这为模型注入了弱先验,即其所建模的世界是三维欧几里得空间,同时无需强制模型显式预测该空间中物体的三维几何。

生成新帧时,系统会从位姿帧构成的空间记忆中检索邻近帧,构建定制化上下文。这种 " 上下文调度 " 技术使模型能在空间不同区域生成时调用不同的上下文帧,从而无需对持续增长的帧序列进行推理,即可在长期交互中维持世界的持久性。

结语:世界模型突破算力限制,可在多行业中落地

李飞飞团队认为,RTFM 的推出实现了在当今硬件上部署世界模型的愿景,并确立了将世界模型视为端到端数据驱动渲染器的技术路径。

RTFM 的架构具备天然可扩展性,未来将会有更多的发展空间,比如它可以扩展为动态世界建模,允许用户与生成世界实时交互。

世界模型能实时重建、生成并模拟具有物理精确性的持久交互世界,这类模型或许将彻底改变从媒体到机器人等众多行业。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 李飞飞 gpu 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论