单卡H100实现实时3D渲染李飞飞团队打破世界模型算力瓶颈

快科技 10 月 19 日消息，据媒体报道，曾被誉为 "AI 教母 " 的李飞飞所创办的 World Labs 公司，近日在社交平台 X 上正式发布实时帧模型 RTFM（Real-Time Frame Model），实现在单块英伟达 H100 GPU 上同步完成高保真 3D 世界渲染与用户实时交互，引发业界广泛关注。

传统世界模型的发展长期受限于庞大的算力需求。World Labs 指出，当前生成式世界模型的计算复杂度远超大型语言模型。

以生成 60 帧 / 秒的 4K 交互视频为例，每秒需处理超过 10 万个 token，若持续运行一小时，上下文管理规模将突破 1 亿 token。

作为对比，OpenAI 的 Sora 虽具备一定世界建模能力，但据 Factorial 基金会的估算，其峰值运行需依托 72 万块 H 伟达 H100 GPU 组成的集群。

RTFM 的突破在于将硬件需求压缩至单块 GPU 级别。该模型通过四项核心技术实现效率跃升：优化的神经网络架构与推理技术，在资源受限条件下保持输出质量；引入自回归扩散 Transformer 架构，高效预测视频帧序列；部署空间记忆技术，借助三维姿态建模维持大场景几何一致性；创新上下文切换机制，复用历史帧数据以规避重复计算。

技术团队强调，RTFM 的核心优势在于其持久化建模能力。系统所构建的 3D 世界具备时间连续性，场景元素不因视角切换而消失，并能精准呈现反射、光滑表面与阴影等复杂视觉效果。更值得关注的是，该架构采用端到端学习方式，无需依赖显式 3D 建模，可直接从视频数据中自主学习空间规律。

相较于传统仿真系统与视频生成模型，RTFM 展现出本质差异。仿真系统依赖人工预设规则，缺乏自适应能力；传统视频生成模型仅能单向输出内容，无法理解环境动态。而世界模型通过与环境的持续交互学习物理规律，既能生成逼真场景，也为智能体决策提供支持。这一特性使其在媒体制作、机器人训练等领域具备变革潜力。

宙世代

一起剪

相关标签