量子位 06-09
李飞飞自曝详细创业经历:五年前因眼睛受伤,坚定要做世界模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

因为眼睛受伤暂时失去立体视觉,李飞飞更加坚定了做世界模型的决心。

在 a16z 的最新播客节目中,"AI 教母 " 李飞飞讲述了五年前因为一次角膜损伤暂时失去立体视觉的经历:

尽管凭借多年经验能想象出三维世界,但一只眼睛看东西时,我开始害怕开车。

但作为一名科学家,她也把这次经历当成一次宝贵的 " 实验 " 机会。

这次生病让她明白了立体视觉对空间交互具有决定性作用," 就像语言模型处理文本时需要理解上下文,物理世界的交互也必须建立在三维空间表征基础上 "。

整体而言,李飞飞在节目中解释了为什么空间智能是当今 AI 系统关键且缺失的部分,以及她的新公司如何应对这一挑战。

同时,另一位嘉宾 Martin Casado( a16z 合伙人、李飞飞公司早期投资者)也分享了二人在世界模型上达成共识的故事,并从投资者的角度分析了世界模型的潜力和价值。

省流版如下:

" 数据驱动范式 " 所爆发的能量,至今远超李飞飞当初创建 ImageNet 时的想象;

创办 World Labs 并非跟风基础模型创业潮,而是源于对智能本质的持续探索;

要实现世界模型这一愿景,需要集结产业级的算力、数据和人才密度;

动物通过 5 亿年进化出的三维认知系统,远比人类晚近出现的语言系统更精妙;

当前的技术突破点在于,如何让 AI 像人类一样,从单目视觉输入中重建完整三维场景理解。

值得一提的是,嘉宾们深入浅出的讲解方式也获得了网友一致好评:

下面具体来看。

构建能真正理解物理世界的 AI 模型

李飞飞自述,其实早在大语言模型(LLM)兴起之前,她就深刻意识到了构建世界模型(LWM)的重要性。

这不仅和她之前生病的经历有关,更主要的是和她一直以来的学术经历相符。

回顾博士和教授生涯,若以今日认知审视过去十年 AI 的发展轨迹,最令李飞飞震撼的恰恰是她曾倡导的" 数据驱动范式 "所爆发的能量。

当年她带领团队开发了一个名为 ImageNet 的视觉识别系统,这个系统收录了超过 1000 万张经过精确标注的图片,迅速成为全球规模最大的图像资料库之一,以此彻底改变了计算机视觉和深度学习的研究格局。

不过在她看来,如今由大规模数据驱动的模型所展现出的 " 类思维机器涌现行为 ",仍远超其最初的想象

这种矛盾感促使她不断追问:当业界都在追逐语言模型时,我们是否忽略了更本质的维度?

选择创办 World Labs,李飞飞自述并非跟风基础模型创业潮,而是源于对智能本质的持续探索。

在她眼里,语言固然是思想和信息的高效编码载体,但它对三维物理世界的表征存在天然缺陷——

我们生存的实体空间充满动物演化史沉淀的感知智能,而语言只是人类文明后期产生的有损压缩符号。

环顾自然,没有漂浮的词汇表,只有具象的物质世界。

这种认知让她确信:真正的通用智能必须建立在对物理空间结构、物体组合关系的理解之上。

这也是 World Labs 的使命,即构建能真正理解物理世界的 AI 模型,用集中攻坚的方式,让 AI 真正理解我们生活的三维世界。

创立 World Labs 的契机

当李飞飞构思 World Labs 时,她需要的不仅是资金支持,更渴望找到思想共鸣的伙伴。

而这个人就是 a16z 合伙人、李飞飞公司早期投资者Martin Casado

作为斯坦福大学 2009 年入职的年轻助理教授,李飞飞与当时即将获得博士学位的 Martin 早有交集。不过后来 Martin 转型成为企业家和投资人,而她则深耕人工智能领域,被誉为 "AI 教母 "。

在一次关于 LLM 的学术聚会上,当众人热议语言模型时,李飞飞向 Martin 提出:

我们缺失的是世界模型(world model)。

就是这样一句话,瞬间点燃了二人的合作火花。与其他投资人礼貌性点头不同,他们后来又在斯坦福校园展开深谈,而 Martin 对三维世界的理解令李飞飞印象深刻。

Martin 在节目中解释道,蒙眼状态下仅靠语言描述在房间执行任务几乎不可能成功,因为语言对物理空间的转译是低效且失真的。但摘下眼罩后,大脑瞬间重构三维空间的能力让我们能精准抓取杯子、避开障碍,这种对物理世界的即时建模才是智能的根基。

换句话说,语言适合传递抽象概念,但应对实体世界必须依赖空间智能,这正是当前 AI 最欠缺的能力。

同时他也提到,自动驾驶行业投入上千亿美元仍未能完美解决二维导航问题,而语言模型却突然以惊人效率处理了文本任务。这种反差让他意识到,生成式 AI 已经提供了去做其他事情的契机。

这些想法也得到了李飞飞的认同,她表示," 这与我多年的思考完全契合 "

尽管 ChatGPT 等语言模型的成功令人振奋,但我始终坚信世界模型才是智能的下一里程碑。

李飞飞再次表示,这并非否定语言的价值,而是指出其局限性——

当我们需要建造机器人、设计新材料或探索虚拟宇宙时,必须让 AI 获得类似生物的空间认知能力。从远古动物到现代人类,所有改变物理世界的创造行为,本质上都是三维智能的体现。

一旦世界模型取得突破,我们可以创造无限虚拟宇宙:有些为机器人训练设计,有些用于社交体验,还有些专属于叙事艺术或旅行探索。

这种能力将人类带入真正的多元宇宙时代。想象一下,建筑师能在数字世界瞬间构建城市原型,科学家可以在分子级 3D 空间模拟新材料的合成。

关键在于突破 " 视野之外 "

在想法上达成一致后,投身创业的李飞飞意识到:

要实现世界模型这一愿景,需要集结产业级的算力、数据和人才密度。

具体到技术层面,世界模型能通过单张 2D 图像重建完整三维场景,包括视野之外的物体背面。

这种能力带来根本性变革:计算机首次能像人类一样对空间进行测量、堆叠和操纵。无论是从单帧视频生成 360 度环境,还是让机器人理解深度信息执行抓取任务,三维表征都成为智能交互的基础。

这解释了为何游戏开发、艺术创作和工业设计等领域都在急切等待这项技术突破。

并且,与六岁孩子讨论 " 树木为何不长眼睛 " 的经历让李飞飞深刻领悟:进化需求催生了空间感知能力

动物通过 5 亿年进化出的三维认知系统,远比人类晚近出现的语言系统更精妙。

在她看来,当前 AI 发展恰似在重演进化历程——我们先攻克了语言处理这类 " 新技能 ",现在才真正挑战空间智能这个古老而核心的命题。

而在尝试发起挑战的人当中,World Labs 拥有自己的优势。

据李飞飞介绍,虽然三维 AI 研究相比语言模型是较新领域,但在计算机视觉领域早有积累。

其联合创始人 Ben Mildenhal 在伯克利期间开创的神经辐射场(NeRF)技术,四年前就革新了深度学习的三维重建方法;另一位创始人 Christoph Lassner 在高斯泼溅表示法(Gaussian Splatting)上的先驱工作,也为三维表征提供了新范式。

更早时期,团队成员在 GAN 图像生成、风格迁移等方向的基础研究,都为当前突破埋下伏笔。

这些分散在学界和工业界的探索,如今在 World Labs 汇聚成系统化攻关。

李飞飞表示,破解三维智能需要特殊的人才组合:既要 AI 专家处理数据与模型架构,又需要计算机图形学专家解决内存与渲染问题。

因此,他们组建了可能是全球最顶尖的跨学科团队——涵盖计算机视觉、扩散模型、图形学、优化算法等领域的开拓者。

这种集中火力的方式,与当年 LLM 发展初期各大公司 " 各自为战 " 形成鲜明对比。

李飞飞坚信,唯有将最聪明的大脑聚集在 " 世界模型 " 这个北极星问题下,才能实现从实验室技术到产品化的跨越。

p.s. 北极星问题一说出自李飞飞自传《我看见的世界》,指科研中的一些关键问题。

而当前的技术突破点在于:如何让 AI 像人类一样,从单目视觉输入中重建完整三维场景理解。

这不仅是机器人精准抓取的基础,更是打开无限虚拟宇宙的钥匙。

当计算机能自主补全视野之外的物体结构时,建筑设计将变成空间组合游戏,分子模拟可视作三维拼图,甚至数字孪生世界也能实时生成演化。

这场革命正在发生——而 World Labs 要做的,就是加速这个进程。

参考链接:

[ 1 ] https://www.youtube.com/watch?v=fQGu016AlVo

[ 2 ] https://x.com/vitrupo/status/1931519869058756968

—    —

 量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向

也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

李飞飞 ai 数据驱动 物理 计算机视觉
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论