Meta人事巨震、AI教母站台通往AGI之路遇上分岔路口

《科创板日报》11 月 15 日讯 Meta 一场人事巨震，让业界目光再次聚焦向世界模型。

Meta 首席 AI 科学家、图灵奖得主 Yann LeCun（杨立昆）在被曝准备离职创业。LeCun 在 Meta 任职 12 年，技术发展愿景却一直与押注 AI 大语言模型的扎克伯格相悖，而他创业公司的核心使命，正是推进他多年来心心念念的世界模型架构。

在这一场 " 看似简单 " 的人事变动背后，AI 发展已来到岔路口。世界模型还是大语言模型？这是一场关于智能本质的辩论，或将决定下一个十年谁将引领通往 AGI 的征途。

无独有偶，AI 教母李飞飞的创业公司 WorldLabs 在 11 月 13 日推出了首款产品 Marble，由多模态世界模型驱动，这个被其称为 " 构建空间智能未来的基础 " 的产品，能从一张图片、一段视频或一句话中构建持久的 3D 世界。

大洋彼岸的这一边，王兴兴与华为哈勃近日也对世界模型表现出高度关注：

极佳视界日前完成新一轮亿元级 A1 轮融资，将持续推进世界模型为中心的物理 AI 智能模型研发迭代，加速通用具身人形本体研发，同时将继续打造标杆场景商业化应用落地。根据工商变更信息显示，极佳视界新增投资方为哈勃投资、华控基金。

宇树科技创始人、董事长王兴兴则在第八届虹桥国际经济论坛上表示，目前具身智能两种主流模型，一是 VLA+RL 模型，可以用仿真环境做训练，或者用真实场景做训练，但也面临很多挑战，泛化能力相对不是特别够。 " 而基于视频生成的世界模型，个人还是非常喜欢。但这个模型面临比较大的挑战，中小型机器人公司这个模型跑不太动，因为视频生成模型对算力的需求非常大，需要的算力卡比较多，反而是一些大的 AI 公司、互联网公司对视频模型的资源更加丰富，可以做出来的概率更大一点。"

▌读万卷书，还要行万里路

尽管具体技术和产品形态各异，但 " 世界模型派 " 的核心共识是：当前主导 AI 领域的大语言模型存在根本局限。

语言哲学奠基人维特根斯坦曾《逻辑哲学论》中提出：" 我的语言极限，就是我世界的极限。" 但这对 AI 而言或许并不适用，李飞飞表示，" 我不是哲学家，但我深知，至少对 AI 而言，世界远不止于文字。"

在最新万字长文中她直言，语言终究是人类为了交流而创造出来的一种抽象信号，自然界中本没有文字，物理世界遵循的是它自身的规律。AI 如果想要真正地理解世界、与世界互动，就不能只停留在文本的符号游戏里，做一个 " 黑暗中的文字大师 "。

LeCun 也多次批评大语言模型，认为它们充其量只是一个强大的文本数据库，记住了海量文本，却完全不理解文本背后的物理世界。

所谓的世界模型到底是什么？

世界模型的本质，是通过对真实世界的高维认知建模，赋予智能体理解、预测和规划能力。其通过绕开语言转化环节，直接将空间感知数据输入模型，在模型潜空间内完成物理规律推演，并直接输出指令，实现对现实世界的 " 内在理解 " 与 " 主动推理 "。

用李飞飞的话来说，它能让 " 看见 " 晋升为 " 推理 "，让 " 感知 " 转化为 " 行动 "，让 " 想象 " 落地为 " 创造 "。

它要求 AI 不仅会读万卷书，更能行万里路——理解一个杯子为何会碎，预测一辆汽车如何转弯，从而为真正的具身智能、自动驾驶和能与人类无缝协作的机器人奠定基石。

值得一提的是，硅谷中声援世界模型的并非只有李飞飞和 LeCun 这些技术大牛，科技巨头中谷歌同样也已跑在前列。

短短一年半时间里，其旗下的 DeepMind 就将世界模型 Genie 从 2D 一路升级至能实时生成交互式 3D 环境的 Genie 3。只需一句话，Genie 3 就能在 720p 分辨率下创造一个用户可以边走边看的动态世界，场景细节能在长达一分钟的记忆中保持连贯。除了游戏外，Genie 3 还能为机器人或自动驾驶系统提供多元化训练场景，可以为 AI 智能体研究提供更长、更稳定的交互回合。

必须承认，目前世界模型的研究仍处于早期阶段。相较于适合快速迭代、短期内易于落地的 VLA 路线，世界模型代表了更底层的认知方式，强调物理规律和空间理解力，适合长期演进。但在这条平行赛道上，一场定义 AI 下一个十年的角逐已经鸣枪起跑，AI 正在努力超越文本，尝试理解并重塑我们所在的物理世界。