超越文本生成：李飞飞等巨头竞逐AI“世界模型”新前沿

在深耕大语言模型（LLM）研究八年后，计算机科学家路易斯 · 卡斯特里卡托（Louis Castricato）感到行业已触及天花板。" 我们已基本越过基础 LLM 研究的阶段，如今更多是应用层面的修修补补。" 他说。

随后，卡斯特里卡托辞去布朗大学的研究职务，创办了初创公司 Overworld。其野心直指下一个 AI 前沿：构建不仅能处理文字，更能理解并导航现实世界的 " 世界模型 "（World Models）。

尽管 Anthropic 和 OpenAI 等聊天机器人开发商仍吸纳着数万亿美元的投资，但越来越多的 AI 先驱正将目光转向这一新领域。其中包括 "AI 之母 " 李飞飞和图灵奖得主杨立昆，他们试图教会 AI 系统——尤其是机器人——如何在物理环境中做出反应。

从统计文本到理解时空

世界模型的核心理念在于：仅靠阅读书籍无法赋予 AI 真正的智能，它必须学会感知环境。

李飞飞在本月发表的文章中指出，语言模型学习的是文本的统计结构，而世界模型学习的是时空的统计结构：" 光线如何落在表面、从未被拍摄的花园视角、物体如何受力并遵循物理定律。"

杨立昆去年辞去 Meta 首席 AI 科学家职务，在巴黎创立高级机器智能实验室。他认为，世界模型能让 AI 代理 " 预测其行为的后果 "，尽管他也承认这正迅速成为一个被过度使用的流行词。

破解 " 物理 AI" 的落地难题

基于全人类文本和视觉媒体训练生成的 AI 助手，虽已改变办公与创意工作，但在物理交互上存在先天缺陷。卡内基梅隆大学计算机科学院长马丁 · 赫伯特（Mart í n H é bert）指出，聊天机器人无法拿起咖啡杯，因为这涉及几何结构、动态过程及物理交互，远比预测下一个单词复杂。

赫伯特认为，世界模型是通往 " 物理 AI" 或 " 具身 AI" 的更快路径。正如人类神经系统拥有平衡和行走的通用模型，能即时适应膝盖疼痛等变化，未来的机器人也需要这种无需思考即可适应环境变化的底层模型。

资本涌入与概念厘清

除了更聪明的机器人，世界模型在游戏等领域的应用也吸引了资本关注。卡斯特里卡托的 Overworld 正在构建高交互性的视频游戏世界，场景会随角色移动和互动实时变化。" 我们将交互性置于一切之上。" 他说。

Kindred Ventures 联合创始人史蒂夫 · 张（Steve Zhang）表示，风投界正密切关注该领域，其投资组合包括 Overworld、天气预测模型公司 Causal Labs 以及专用芯片制造商 Extropic。" 未来将是多种模型、哲学和架构并存，而非单一巨型模型统治一切。"

面对概念的混淆，李飞飞试图建立一套 " 世界模型分类法 " 以厘清竞争格局。她将现有技术分为三类：

渲染器：优先视觉保真度，商业可行性最高，但难以指导机器人行动；

模拟器：创建忠实反映物理结构的虚拟训练场；

规划器：预测 AI 代理在非结构化世界中的行动。

" 能够规划的机器人就是能工作的机器人，" 李飞飞写道，" 整个行业都在竞相成为第一个实现这一目标的团队。"

【星途科讯图文丨 Patrick 首发于 ZAKER 科技，转载请注明出处】