动点科技 13小时前
AI能否从虚拟空间走进现实生活?李飞飞想用空间智能告诉我们答案
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Landing AI 本期论点:空间智能,是 AI 走向通用化过程中的下一个关键前沿。

语言模型让我们对话世界,图像模型让我们感知世界,而空间模型将决定我们能否在世界中行动。李飞飞与 World Labs 的新冒险,或许将决定下一个 AI 平台级变革的起点。

当大语言模型风靡全球、生成式 AI 深度嵌入日常生活,从搜索、写作到编程,无一不在改变人类的思维与表达方式。然而,在 AI 社区的一场炉边对谈中,李飞飞却抛出了一个更具挑战性的问题:" 我们有没有忘了,AI 其实生活在世界里?"

近期,在 YC 举办的一场线下活动,作为到场嘉宾,斯坦福大学教授、前 Google Cloud 首席科学家李飞飞分享了她的最新判断:真正的通用人工智能(AGI),不仅要能处理语言和图像,还必须具备理解和模拟物理世界的能力。她将这个能力称为 " 空间智能 "(spatial intelligence),并将其定义为未来 AI 最关键、也是最艰难的一道关卡。

注:本文由 ChatGPT 4o 整理

从 ImageNet 到 World Labs:她始终走在数据前面

李飞飞的技术理想从未脱离现实世界的结构。早在 2007 年,她便在普林斯顿大学发起 ImageNet 项目,几乎 " 下载了整座互联网 " 的图像,用于构建一个千万级规模的图像识别数据库。她在对谈中回忆:" 那时候所有人都在研究算法,我选择去研究数据,因为我们需要世界的样本。"

ImageNet 成功激活了深度学习的潜力,也让 " 数据即燃料 " 的范式成为主流。AlexNet 在 2012 年 ILSVRC 比赛中的惊艳表现,证明了大规模有标签数据与神经网络结合的威力。

如今,十五年过去,李飞飞再次投身 " 数据建模 " 的一线,但这次瞄准的是一个维度更高、结构更复杂的对象——三维世界。她创立的创业公司 World Labs,正致力于构建新一代 " 世界模型 "(world models),目标是在虚拟空间中重建、模拟甚至生成一个可供 AI 感知、理解与操作的三维环境。" 我称它为第三代基础模型:语言是第一代,图像是第二代,世界才是终极场景。" 她说。

空间智能为何如此艰难?

在对谈中,李飞飞以极简的方式解释了空间智能的根本难题:" 语言是一维的序列,图像是二维的像素网格,而世界,是 3D + 时间的连续体。"

她将挑战总结为三个层级。首先是 " 维度爆炸 ",语言模型处理的是 token 序列,而空间建模需要理解三维结构及其随时间变化的动态属性,数据维度与计算复杂度指数上升。

第二个挑战是 " 感知病态性 "。我们的视觉系统只能获取二维投影,例如摄像头拍下的是一幅图像,但 AI 却要基于这个图像还原出完整场景的三维结构,包括被遮挡的部分、物体之间的相对位置与大小。这在数学上就是一个 " 病态问题 " ——小误差会被无限放大。

第三个层级是 " 生成与重建的统一 "。李飞飞指出,空间智能模型既要能重建已知场景,也要像生成模型那样 " 幻想 " 未知结构,从扫描现实到虚拟合成,两端之间是一个连续谱。语言模型可以靠大规模爬虫数据做训练,但世界数据 " 藏在人类大脑里 ",难以抓取、组织与标注。

因此,World Labs 选择采用 " 混合式数据策略 " ——人工采集现实场景数据、合成训练数据,并引入物理与语义先验,用小而精、结构性强的数据替代纯粹的规模驱动。

World Labs 要解决什么问题?

在对谈中,李飞飞强调,World Labs 的目标是构建一种 " 既能看见世界、又能想象世界 " 的 AI 能力。她将这种能力称为 " 生成 - 感知一体化 "(generative-perceptual symmetry),区别于过去那种将计算机视觉与生成模型分离对待的做法。

她举例说,在一个真实的厨房里,AI 不仅要识别出 " 锅 "" 勺子 "" 灶台 ",还要理解空间结构,比如 " 锅在灶台上,勺子在锅里 ",并推理 " 如果移动锅的位置,勺子也会被带动 "。这些空间逻辑不仅依赖图像识别,更需要物理模拟能力和空间推理能力。

World Labs 因此不是在做 " 图像模型的升级版 ",而是在打造一个真正用于智能体(agents)运行的世界模型底座——无论是机器人、自动驾驶系统,还是沉浸式 XR 环境,通通需要它。

她也明确提到,World Labs 的第一代产品可能会聚焦 " 场景级 3D 模型生成 " 与 " 任务导向式世界模拟平台 ",服务方向包括家庭机器人、工业制造、空间教学与虚拟现实等多个垂直领域。

为什么 AGI 离不开空间智能?

在当前 AI 技术热点依然集中在语言模型的背景下,李飞飞的判断显得尤为清醒:"LLM 只解决了智能的一部分,那是抽象层。真正的智能,还要落地。" 她指出,几乎所有的通用智能应用——无论是自动驾驶、送餐机器人,还是未来的 AI 助理——都涉及对空间环境的理解与应对。

她分析称,通用语言模型解决的是知识表达问题,而空间智能解决的是生存与行动问题。后者才是构建 Agent 的关键基底。如果没有空间建模,所有的 " 行动建议 " 都只是纸上谈兵。

她进一步援引当前几项趋势作为佐证:OpenAI 与 Jony Ive 合作开发的新一代 AI Agent 产品,正在探索具备感知能力的硬件形态;DeepMind 推出的 DreamerV3 模型强调从感知到想象到行动的闭环学习;而 GNN(图神经网络)与 RLHF(人类反馈强化学习)正在强化 AI 对 " 物理世界中关系 " 的理解力。

"AGI 的下一步,不在于更聪明的语言模型,而在于更可靠的世界模型。" 她总结道。

从科研到创业:她为何总走 " 最难的那条路 "?

对李飞飞来说,World Labs 并非她第一次站在未知前沿。她在分享中坦言,从读博时期在几乎没有导师支持的环境中坚持计算机视觉,到 ImageNet 建设初期几乎没人相信数据驱动方法,她早已习惯了 " 没有人铺路的地方自己开一条路 "。

" 我尊重知识,也尊重勇气。" 她说。在 World Labs,她坚持的唯一标准是:" 找那种不怕困难、不怕没人认同的人。" 她称之为 "intellectual fearlessness",一种在没有路线图的情况下也能长期投身于构建工作中的精神。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 李飞飞 深度学习 google 神经网络
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论