AI新风口:巨头为何“逃离”文本,集体押注世界模型

" 现有的 LLM 路线彻底错了，单纯靠预测文本，AI 永远无法触及人类级别的智能。我们需要能理解物理现实的模型。" 图灵奖得主 Yann LeCun 在 2026 年 3 月说出这番话时，他已经离开 Meta AI，自立门户创立了专注于世界模型的 AMI Labs，并一举拿下 10.3 亿美元的种子轮融资，创下了该轮次的行业纪录。

这是一个强烈的信号。2026 年开年，北京智源研究院发布《2026 十大 AI 技术趋势》，将世界模型列为通向 AGI 的重要共识方向，并提出从 Next Token Prediction 向 Next State Prediction 的范式迁移。随后的几个月里，资本、技术、企业的一系列动作密集得几乎令人目不暇接，仿佛整个 AI 行业都在集体调转航向。

3 月份，原本涌向具身智能的大额资金开始集中对准带有 " 世界模型 " 标签的企业。极佳视界完成了约 15 亿元融资，其 GigaWorld-1 模型在 WorldArena 评测中登顶，成为全球唯一综合得分突破 60 分的具身世界模型，成绩超过谷歌、英伟达和阿里。从 3 月到如今，这家公司吸金 35 亿元，被市场称为 " 国内首个世界模型独角兽 "。与此同时，智平方 B 轮系列融资超 10 亿元，估值过百亿；千寻智能在 2026 年开年三个月内完成四轮融资，吸金 45 亿元；星海图继 2 月近 10 亿元 B 轮后，4 月再拿下近 20 亿元 B+ 轮。一级市场的热钱正以惊人的密度砸向这个新赛道。

二级市场的反应同样热烈。4 月 17 日，" 物理 AI" 新股群核科技作为全球首家以空间智能为核心技术底座的上市公司，上市首日大涨 144%。生数科技两个月累计融资 26 亿元，投后估值超过 120 亿元，并传出最快于 2026 年启动港股 IPO 的消息。值得注意的是，这两家企业的技术路线恰是通往世界模型的路径之一。资本正在用真金白银为这个方向投票。

大厂和跨界玩家的入局则让这场竞赛更加白热化。4 月 16 日，腾讯和阿里在同一天各自发布了一款世界模型产品——腾讯拿出的是开源的混元 3D 世界模型 2.0，阿里端出的是主打实时交互的 HappyOyster。车企的动作更为激进：吉利发布 WAM 世界行为模型，试图统一智驾、智能座舱和底盘控制；华为乾崑公开拒绝 VLA，坚持其 WA 路线，车 BU 负责人直言 "VLA 看着聪明，但不是自动驾驶的真正解 "；Momenta 则把宝押在世界模型上。机器人领域，英伟达 Cosmos、DreamGen、DreamZero 相继推出，智元发布 GE-2，星海图也开始布局世界模型基础设施。海外的热度同步升温：李飞飞创立的 World Labs 于 2 月完成 10 亿美元融资，累计融资额达到 12.3 亿美元，估值约 50 亿美元，首款商业产品 Marble 正式上线；OpenAI 也正式宣布进入机器人赛道。

为什么世界模型突然成了所有人的必争之地？底层原因藏在 Scaling Law 的放缓里。过去几年，大语言模型遵循 " 预测下一个词 " 的简单逻辑，带来了惊人的能力跃迁。但 2026 年，一个难以回避的问题浮现了：Scaling Law 开始失灵。OpenAI 在 GPT-4.5 系统卡中称其为 "largest and most knowledgeable model yet"，但在 SWE-bench Verified 上，GPT-4.5 post-mitigation 只有 38%，仅比 GPT-4o 高 2% 到 7%，且比 Deep Research 低 30%。" 更大预训练 " 仍有提升，但已不是最有效的能力来源。与此同时，数据墙开始出现—— Epoch AI 估计，可用于 AI 训练的高质量人类公共文本约 300 万亿 token，若趋势继续，语言模型将在 2026 至 2032 年间完全用尽这部分存量。

更根本的问题在于，即使读遍互联网上所有关于 " 重力 " 的文字，AI 仍可能不知道一个球为什么不能凭空消失、为什么物体不能穿墙、为什么运动必须连续。BLINK 基准测试显示，GPT-4V 在深度、空间对应、多视角推理任务上平均只有 51.26%，Gemini 只有 45.72%。PhysBench 的测试则进一步扩展到摩擦、密度、张力、弹性等真实物理维度，研究者发现物理理解并不会随着模型大小或训练数据量稳定提升。语料库记录的是人类如何描述世界，而不是物体如何在世界中运动，物理常识在文本中天然稀缺。这使得 AI 在金融、医疗、工业等高容错成本场景中依然无法建立稳定可靠的物理因果推理能力，这也是企业级应用长期停留在辅助层、无法进入核心决策系统的根本原因。

而直接触因则是具身智能发展到了瓶颈期。这个被视为 AI 进入真实世界、通往 AGI 载体的领域，在近两年涌入大量资金和玩家后，市场和资本不会给它喘息的机会，急需新的技术突破口。世界模型恰好给出了全新的解法——本质上是一个 " 可学习的物理模拟器和渲染引擎 "，AI 不需要依靠文字，而是通过视觉、3D 运动甚至触觉的 " 视觉思维链 "，去预测采取行动 A 后物理环境会发生什么改变 B。如果说 LLM 赋予了 AI 人类积攒几千年的语言、逻辑与文明成果，那么世界模型则让 AI 拥有了一双能看懂时空、感受重力、理解现实的眼睛。从 " 语义理解 " 到 " 物理推理 " 的这道鸿沟，正在成为 AI 落地产业的第一拦路虎，而跨越它的钥匙，或许正在这群 "AI 新贵 " 手中。

宙世代

一起剪

相关标签