从一张午餐桌到无限宇宙，李飞飞押注AI的下一个维度

500 万年，这是人类语言在进化史上的年龄。5.4 亿年，这是视觉和空间感知催生寒武纪生命大爆发的起点。

在硅谷几乎所有顶级实验室都在卷语言模型的 2025 和 2026 年，斯坦福大学教授、World Labs 创始人李飞飞反复抛出一个让行业不得不抬头的问题：如果 AI 只会说话和看图片，它永远不会真正 " 理解 " 这个世界。

她在三次关键访谈中，包括 2025 年 6 月的 a16z Podcast、2026 年 2 月的思科 AI 峰会（Cisco AI Summit），以及 2026 年 5 月 22 日发布、长达 1 小时 19 分钟的 Lenny's Podcast 深度对话，系统阐述了一个正在被加速验证的判断：空间智能（Spatial Intelligence），才是 AI 的下一个前沿。

其中 a16z 对话中 " 创造无限的宇宙 "" 生活在多元宇宙中 " 的表述，以及 Lenny's Podcast 中 " 世界模型才是下一个前沿 ""AGI 更像营销术语 " 等观点，最近在 X 平台上再度被大量转发。

" 我们缺一个世界模型 "

据 a16z 合伙人 Martin Casado 回忆，在硅谷的一次午餐会上，满桌 AI 从业者在兴奋地谈论大语言模型。李飞飞坐在餐桌另一头，突然转头问他：

" 你知道我们缺什么吗？我们缺一个世界模型。"

Casado 是 World Labs 的早期投资人，也是李飞飞在斯坦福时期就结识的老友。他回忆那一刻时说，" 一切都对上了 "。他当时刚从大量图像领域的投资中独立得出类似结论：语言不是故事的终点。

但李飞飞对这个问题的思考远比大多数人更久远。

2024 年 4 月，她在 TED 大会上发表了一场 15 分钟的演讲，用进化论做了破题：5.4 亿年前三叶虫的出现，第一次让生命 " 看见 " 了世界。视觉的诞生引爆了智能的演化竞赛，神经系统开始发育，动物变得活跃，智能由此萌芽。而语言，不过是这场漫长竞赛中非常晚近的产物。

这个判断在三次访谈中被反复强化。在思科 AI 峰会上，她的表述更加直接：

" 语言的历史大概只有 50 万年。但在 15 亿年前，动物就开始感知光线并触摸环境。在真实的 3D、4D 物理世界中进行理解、推理、交互和导航的能力是基础性的，与语言智能同样重要。"

李飞飞并非否定语言智能的价值。她的核心论点是：语言在本质上是一种 " 有信息损失的 " 对世界的编码方式。

在 a16z 访谈中，Casado 做了一个思维实验：蒙上你的眼睛，用语言描述一个房间，然后让你完成一项任务，你成功的概率极低。因为语言对现实的描述永远是粗糙的。拿掉眼罩，你的大脑瞬间重建 3D 空间，你就能操作、触摸、移动。

李飞飞补充了一个更极端的例子，即科学史上最著名的一次空间推理：罗莎琳德 · 富兰克林拍摄的 DNA X 射线衍射照片是一张平面的二维影像，上面的结构看起来像一个带有衍射的十字。但沃森和克里克通过那张二维照片，在三维空间中推理出了 DNA 的双螺旋结构。" 那个结构不可能是二维的。你不能用二维的思维来推导出那个结构。"

" 如果你观察人类智能，很多都超出了语言的范畴。语言是一种有信息损失的捕捉世界的方式。纯粹的生成式‘语言’在自然界中并不存在；我们环顾四周，没有现成的句子或单词，而整个物理、感知、视觉世界却真实存在。"

这是一个容易被忽视的视角：当前大模型的大部分能力，建立在一种天然有损的信息压缩格式之上。而在 Lenny's Podcast 中，她用一个更日常的测试戳穿了这个幻象：

" 今天，你拿一个模型，让它运行一段包含几个办公室房间的视频，然后要求模型数一下椅子的数量。这是幼儿就能做到的事情，而人工智能却做不到。"

更不用说从天体运动中推导出物理定律：" 让我们把所有的数据都给人工智能，包括牛顿没有的现代仪器数据，让它创建一套 17 世纪关于物体运动规律的方程。今天的人工智能做不到。"

Marble：比 GPT-5 小几个数量级

将这个判断推向产品的是 World Labs 的第一代模型 Marble，2024 年底发布。

李飞飞在思科 AI 峰会上详细拆解了 Marble 的技术定位：接收文本、图片、视频或简单 3D 输入，生成一个 " 完全可导航、可交互且具有永久一致性的 3D 世界 "。她特别强调，这与 Sora 等视频生成模型有本质区别，Marble 生成的环境拥有几何结构，不是一段 " 看起来像 " 视频的像素动画。

在 Lenny's Podcast 中，她用柏拉图的洞穴寓言做了更深的阐释：囚犯被绑在椅子上，只能看到墙上投射的二维影子，但真正的戏剧在背后三维空间中上演。视频模型就是那些影子，而空间智能要做的，是创造和推理那个影子背后的真实世界。

一组对比：GPT-5 的训练算力大约在 10 的 26 次方 FLOPS 量级，而 Marble 在规模上小几个数量级。原因有两层：数据获取难度完全不同（高质量 3D 物理数据极其稀缺），且这个领域还处于 "Scaling Law 的上升曲线 " 的早期阶段。

在 Lenny's Podcast 中，她进一步解释了为什么机器人学习无法简单复制语言模型的 " 苦涩的教训 "。AI 领域有一个著名的论断：拥有海量数据的简单模型最终总能胜过复杂模型。但 " 语言模型拥有一个完美的设置：训练数据是单词，输出也是文字。" 而机器人技术中，" 你希望获得行动，训练数据却缺乏在 3D 世界中的行动。" 这种训练目标与数据形态之间的根本错位，才是机器人学习的核心难题。

World Labs 采取混合数据策略：互联网规模的文本、图像和视频，加上仿真模拟数据，再加上真实世界采集数据。李飞飞坦承，" 我们仍在探索模型架构的相对早期阶段 "，但她预计 " 接下来的几年将会非常令人兴奋 "。

话音刚落，World Labs 就在 2026 年 2 月完成 10 亿美元融资，英伟达、AMD、a16z 参投，估值从一年前的 10 亿美元飙升至约 50 亿美元。4 月，团队开源了 3D 高斯溅射渲染引擎 Spark 2.0，可在网页端实现亿级 3D 场景实时渲染，从闭源产品转向 " 产品 + 开源生态 " 的双轨策略，空间智能的技术门槛正在被快速拉低。

在 Lenny's Podcast 中，李飞飞也罕见地坦露了创业的艰辛：" 如果我能对 18 个月前的自己耳语一句话：" 这个领域的竞争强度，无论是技术还是人才，远超你的想象。"

无限宇宙与多元宇宙

真正让 a16z 那次访谈在 X 上反复出圈的，是李飞飞关于 " 无限宇宙 " 的表述：

" 在整个人类文明历史中，我们所有人都共同生活在一个 3D 世界里。只有少数人去过月球，但人数非常少。而这项技术让数字虚拟世界变得无比精彩。突然间，我们实际上可以创造无限的宇宙，有些是为机器人创造的，有些是为创造力创造的，有些是为社交创造的，有些是为旅行创造的，有些是为讲故事创造的。突然之间，我们能够生活在一个多元宇宙中，想象的空间是无限的。"

Casado 则从技术层面做了更具体的阐释：通过一张二维照片，模型就能生成包括桌子背面在内的完整 360 度 3D 表示。你可以操作、测量、堆叠，空间中能做的任何事都可以实现。

这不是科幻。在两次访谈中，李飞飞列举了 Marble 已经落地的应用：

• 游戏开发者用早期版本开发游戏

• 与索尼合作的虚拟制作团队将电影制作周期缩短了40 倍

• 英伟达及多家学术实验室利用 Marble 训练机器人

• 建筑师和设计师用它做室内设计

• 临床研究人员为强迫症、恐高症患者定制个性化的沉浸式触发环境

• 有人用它生成个性化的瑜伽训练空间

最后一个应用尤其出人意料。李飞飞在峰会上提到，OCD 患者会被非常具体的场景触发，" 比如我个人会被堆积的脏衣服困扰，但每个人的触发点各不相同 "。在 Lenny's Podcast 中她补充道，发布后一位朋友连夜打电话问她是否可以用 Marble 治疗恐高症。实体环境的搭建成本极高，而 Marble 只需输入提示词，几分钟就能生成各种环境。

柏拉图的洞穴寓言，恰好也是理解 2D 与 3D 分歧的最佳入口。

李飞飞用这个寓言解释：被绑在椅子上的囚犯，只能看到墙上投射的二维影子。当前的语言模型和视频模型，本质上都是那些影子，从二维中猜测三维。空间智能的野心，是创造、推理和交互那个影子背后的真实世界。

在技术路线上，她用一个简洁的对比划清了边界：

" 汽车可以被视作一个在二维平面上移动的方块机器人，它的目标是不要碰到任何东西。而机器人是一个三维实体，在三维世界中运行，通用机器人的目标是必须接触物体而不破坏它们。这是一个更高维度的问题。"

她还给出了一个来自亲身经历的时间刻度：2006 年，她参与创造了第一辆在沙漠行驶 138 英里的自动驾驶汽车，当时预言 20 年后会有自动驾驶汽车。直到 2025 年，Waymo 才开始在城市街道大规模运行。

" 看清北极星并不意味着旅程会很短。"

Casado 在 a16z 对话中补充了更具商业直觉的观察：仅自动驾驶一个赛道，行业就投入了大约 1000 亿美元，20 年才走到今天。" 我们原本的路线是先解决世界导航问题，但结果极其困难。"

李飞飞甚至在 a16z 访谈中分享了一段个人经历来强化论点：大约五年前，她因眼角膜受伤失去了几个月的立体视觉。" 即使我非常清楚我的车有多大，也大概知道邻居家停的车有多大，而且我在这条路上开了很多年，但我无法很好地判断车和路边停着的车之间的距离。我只能开到时速十英里，以免刮到其他车。"

一个终身研究视觉智能的科学家，用自己失去深度感知后的切身困境，回答了 " 为什么 3D 不可替代 " 这个问题。

技术双刃剑与文明标尺

在技术乐观主义和末日论之间，李飞飞选择了一个更克制也更具操作性的站位。她在思科 AI 峰会上明确表达了对两极化言论的担忧：

" 网络上的讨论往往是非黑即白的：要么是完全的技术乌托邦主义，忽略了技术是一把双刃剑；要么就是末日论调，仿佛人类时刻面临生存危机。对于一项对人类文明如此深远的技术，这种讨论方式是不负责任的。"

她没有停留在批评层面，而是给出了一个可量化的价值锚点：电力。

" 如果回拨一百多年，想象当时人们如何定义电力的成功。我希望那时的愿景是：学校灯火通明，家园温暖如春，机器被赋予力量实现工业化，进而延长人类寿命，让更多孩子接受教育。"

然后将这个锚点平移到 AI：" 成功的定义应该是文明变得更加美好，而文明是由每一个追求幸福、繁荣且拥有尊严的个体组成的。这就是 AI 以及每一项技术成功的定义。"

在 Lenny's Podcast 的结尾，她把这份关切落到了具体的人身上。她说自己每到一处都会被问到同一个问题：如果我是农民、护士、音乐家，AI 会取代我吗？她的回答是：" 归根结底，AI 是关于人的。任何技术都不应该剥夺人的尊严。人类的尊严和自主性应该成为每项技术的开发、部署以及治理的核心。"

回顾三次访谈，一条清晰的脉络浮出水面。

李飞飞对空间智能的思考，不是对大模型浪潮的反叛，而是在其基础上的延伸。她比大多数人更早地看到了语言模型的极限，一种有损的信息压缩格式能做的终究有限。而空间智能要解决的问题是：让 AI 从 " 谈论世界 " 进化到 " 理解世界 "，最终到 " 在世界中行动 "。

World Labs 团队约 30 人，已融资超 10 亿美元。Marble 是第一代产品，规模远不及顶级语言模型。3D 数据的稀缺和模型架构的早期状态，决定了这不会是一条一蹴而就的路线。但李飞飞在 Lenny's Podcast 中说了另一句话，或许是对这份耐心最好的注解：

" 我们的大脑只消耗约 20 瓦，比房间里任何灯泡都暗，却能做这么多事。我在 AI 领域工作得越多，越尊重人类。"

5.4 亿年的进化，才让碳基生命获得了这份 20 瓦的空间智能。AI 的这场进化，正在被压缩到几年内完成。

李飞飞在三次访谈中都没有给出时间表。她只是反复回到那个从进化论中提取的判断：感知先于语言，空间先于符号。这场正在硅谷、斯坦福实验室和 World Labs 办公室里发生的，不是一次技术迭代，而是一次进化论的加速重演。 ( 本文首发钛媒体 APP，作者 | 硅谷 tech news，编辑 | 赵虹宇 )

附：上述三场访谈文字实录收录地址【ima 知识库】李飞飞访谈 https://ima.qq.com/wiki/?shareId=3f1d4b4c0d6cb2aeca250e2c5d068390e2d45895816ad607309820e25cb2e9c5

宙世代

一起剪

相关标签