随着大语言模型技术进步放缓,一场围绕 " 世界模型 " 的全新 AI 竞赛正在科技巨头之间悄然展开。这一趋势标志着 AI 领域竞争焦点可能正从语言领域转向对物理世界的理解和模拟。
据英国《金融时报》9 月 29 日报道,谷歌 DeepMind、Meta 和英伟达等公司正试图通过开发一种新型系统来取得领先。这些系统不再仅仅依赖语言文字,而是通过学习视频和机器人数据来理解并驾驭物理世界。
" 世界模型 " 的潜在市场被认为极其庞大。英伟达 Omniverse 与仿真技术副总裁 Rev Lebaredian 表示," 世界模型 " 将技术带入制造、医疗等实体领域,其潜在市场规模可能 " 高达 100 万亿美元 "。
" 世界模型 " 被视为推动自动驾驶、机器人和所谓 "AI 代理 " 取得进展的关键一步,但其训练同时也面临巨大的数据和算力挑战。
模拟物理世界:最新技术突破
近几个月,多家 AI 公司相继发布了在 " 世界模型 " 领域的进展,凸显了这一赛道的升温。
谷歌 DeepMind上月发布了 Genie 3,该模型能逐帧生成视频并考虑过去的交互,改变了传统模型一次性生成整个视频的方式。Genie 3 项目联席负责人 Shlomi Fruchter 表示,通过构建模拟真实世界的环境,可以用更具扩展性的方式训练 AI,且 " 无需承担在现实世界中犯错的后果 "。
Meta则试图模仿儿童通过观察世界进行被动学习的方式,用原始视频内容训练其 V-JEPA 模型。由 Meta 首席 AI 科学家 Yann LeCun 领导的 Facebook 人工智能研究实验室(FAIR)已在 6 月发布了该模型的第二版,并开始在机器人上进行测试。
与此同时,芯片巨头英伟达的首席执行官黄仁勋断言,公司的下一个主要增长阶段将来自 " 物理 AI",这些新模型将彻底改变机器人领域。英伟达正利用其 Omniverse 平台创建和运行此类仿真,以支持其向机器人领域的扩张。
" 世界模型 " 的近期应用之一是在娱乐行业。由 AI 先驱 Fei-Fei Li 创立的初创公司World Labs正在开发一种模型,可以从单张图片生成类似视频游戏的 3D 环境。
视频生成初创公司Runway也于上月推出了一款利用 " 世界模型 " 创建游戏场景的产品。其首席执行官 Crist ó bal Valenzuela 指出,与以往模型相比," 世界模型 " 系统能更好地理解和推理场景中的物理规律。
巨头为何押注新赛道?
科技巨头之所以将目光投向 " 世界模型 ",一个核心驱动力在于业界普遍认为大语言模型正触及其能力天花板。
尽管各大公司投入巨资,但 OpenAI、谷歌和马斯克的 xAI 等机构发布的新一代 LLM 在性能上的飞跃已开始放缓。
Meta 首席 AI 科学家、被誉为现代 AI" 教父 " 之一的 Yann LeCun 一直警告称,LLM 永远无法实现人类那样的推理和规划能力。
然而,构建这些模型需要收集海量的物理世界数据和算力,这目前仍是一项未被攻克的重大技术挑战。不过,英伟达和 Niantic 等公司在尝试通过模型生成或预测环境来填补数据空白。
尽管前景广阔,但通往成熟的 " 世界模型 " 之路依然漫长。Meta 的 LeCun 等人认为,实现由新一代 AI 系统驱动、具备人类水平智能的机器可能还需要十年时间。