星途科讯 3小时前
超越文本生成:李飞飞等巨头竞逐AI“世界模型”新前沿
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在深耕大语言模型(LLM)研究八年后,计算机科学家路易斯 · 卡斯特里卡托(Louis Castricato)感到行业已触及天花板。" 我们已基本越过基础 LLM 研究的阶段,如今更多是应用层面的修修补补。" 他说。

随后,卡斯特里卡托辞去布朗大学的研究职务,创办了初创公司 Overworld。其野心直指下一个 AI 前沿:构建不仅能处理文字,更能理解并导航现实世界的 " 世界模型 "(World Models)。

尽管 Anthropic 和 OpenAI 等聊天机器人开发商仍吸纳着数万亿美元的投资,但越来越多的 AI 先驱正将目光转向这一新领域。其中包括 "AI 之母 " 李飞飞和图灵奖得主杨立昆,他们试图教会 AI 系统——尤其是机器人——如何在物理环境中做出反应。

从统计文本到理解时空

世界模型的核心理念在于:仅靠阅读书籍无法赋予 AI 真正的智能,它必须学会感知环境。

李飞飞在本月发表的文章中指出,语言模型学习的是文本的统计结构,而世界模型学习的是时空的统计结构:" 光线如何落在表面、从未被拍摄的花园视角、物体如何受力并遵循物理定律。"

杨立昆去年辞去 Meta 首席 AI 科学家职务,在巴黎创立高级机器智能实验室。他认为,世界模型能让 AI 代理 " 预测其行为的后果 ",尽管他也承认这正迅速成为一个被过度使用的流行词。

破解 " 物理 AI" 的落地难题

基于全人类文本和视觉媒体训练生成的 AI 助手,虽已改变办公与创意工作,但在物理交互上存在先天缺陷。卡内基梅隆大学计算机科学院长马丁 · 赫伯特(Mart í n H é bert)指出,聊天机器人无法拿起咖啡杯,因为这涉及几何结构、动态过程及物理交互,远比预测下一个单词复杂。

赫伯特认为,世界模型是通往 " 物理 AI" 或 " 具身 AI" 的更快路径。正如人类神经系统拥有平衡和行走的通用模型,能即时适应膝盖疼痛等变化,未来的机器人也需要这种无需思考即可适应环境变化的底层模型。

资本涌入与概念厘清

除了更聪明的机器人,世界模型在游戏等领域的应用也吸引了资本关注。卡斯特里卡托的 Overworld 正在构建高交互性的视频游戏世界,场景会随角色移动和互动实时变化。" 我们将交互性置于一切之上。" 他说。

Kindred Ventures 联合创始人史蒂夫 · 张(Steve Zhang)表示,风投界正密切关注该领域,其投资组合包括 Overworld、天气预测模型公司 Causal Labs 以及专用芯片制造商 Extropic。" 未来将是多种模型、哲学和架构并存,而非单一巨型模型统治一切。"

面对概念的混淆,李飞飞试图建立一套 " 世界模型分类法 " 以厘清竞争格局。她将现有技术分为三类:

渲染器:优先视觉保真度,商业可行性最高,但难以指导机器人行动;

模拟器:创建忠实反映物理结构的虚拟训练场;

规划器:预测 AI 代理在非结构化世界中的行动。

" 能够规划的机器人就是能工作的机器人," 李飞飞写道," 整个行业都在竞相成为第一个实现这一目标的团队。"

【星途科讯 图文丨 Patrick 首发于 ZAKER 科技,转载请注明出处】

评论
大家都在看