科创板日报 4小时前
Meta人事巨震、AI教母站台 通往AGI之路遇上分岔路口
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

《科创板日报》11 月 15 日讯 Meta 一场人事巨震,让业界目光再次聚焦向世界模型。

Meta 首席 AI 科学家、图灵奖得主 Yann LeCun(杨立昆)在被曝准备离职创业。LeCun 在 Meta 任职 12 年,技术发展愿景却一直与押注 AI 大语言模型的扎克伯格相悖,而他创业公司的核心使命,正是推进他多年来心心念念的世界模型架构。

在这一场 " 看似简单 " 的人事变动背后,AI 发展已来到岔路口。世界模型还是大语言模型?这是一场关于智能本质的辩论,或将决定下一个十年谁将引领通往 AGI 的征途。

无独有偶,AI 教母李飞飞的创业公司 WorldLabs 在 11 月 13 日推出了首款产品 Marble,由多模态世界模型驱动,这个被其称为 " 构建空间智能未来的基础 " 的产品,能从一张图片、一段视频或一句话中构建持久的 3D 世界。

大洋彼岸的这一边,王兴兴与华为哈勃近日也对世界模型表现出高度关注:

极佳视界日前完成新一轮亿元级 A1 轮融资,将持续推进世界模型为中心的物理 AI 智能模型研发迭代,加速通用具身人形本体研发,同时将继续打造标杆场景商业化应用落地。根据工商变更信息显示,极佳视界新增投资方为哈勃投资、华控基金。

宇树科技创始人、董事长王兴兴则在第八届虹桥国际经济论坛上表示,目前具身智能两种主流模型,一是 VLA+RL 模型,可以用仿真环境做训练,或者用真实场景做训练,但也面临很多挑战,泛化能力相对不是特别够。 " 而基于视频生成的世界模型,个人还是非常喜欢。但这个模型面临比较大的挑战,中小型机器人公司这个模型跑不太动,因为视频生成模型对算力的需求非常大,需要的算力卡比较多,反而是一些大的 AI 公司、互联网公司对视频模型的资源更加丰富,可以做出来的概率更大一点。"

▌读万卷书,还要行万里路

尽管具体技术和产品形态各异,但 " 世界模型派 " 的核心共识是:当前主导 AI 领域的大语言模型存在根本局限。

语言哲学奠基人维特根斯坦曾《逻辑哲学论》中提出:" 我的语言极限,就是我世界的极限。" 但这对 AI 而言或许并不适用,李飞飞表示," 我不是哲学家,但我深知,至少对 AI 而言,世界远不止于文字。"

在最新万字长文中她直言,语言终究是人类为了交流而创造出来的一种抽象信号,自然界中本没有文字,物理世界遵循的是它自身的规律。AI 如果想要真正地理解世界、与世界互动,就不能只停留在文本的符号游戏里,做一个 " 黑暗中的文字大师 "。

LeCun 也多次批评大语言模型,认为它们充其量只是一个强大的文本数据库,记住了海量文本,却完全不理解文本背后的物理世界。

所谓的世界模型到底是什么?

世界模型的本质,是通过对真实世界的高维认知建模,赋予智能体理解、预测和规划能力。其通过绕开语言转化环节,直接将空间感知数据输入模型,在模型潜空间内完成物理规律推演,并直接输出指令,实现对现实世界的 " 内在理解 " 与 " 主动推理 "。

用李飞飞的话来说,它能让 " 看见 " 晋升为 " 推理 ",让 " 感知 " 转化为 " 行动 ",让 " 想象 " 落地为 " 创造 "。

它要求 AI 不仅会读万卷书,更能行万里路——理解一个杯子为何会碎,预测一辆汽车如何转弯,从而为真正的具身智能、自动驾驶和能与人类无缝协作的机器人奠定基石。

值得一提的是,硅谷中声援世界模型的并非只有李飞飞和 LeCun 这些技术大牛,科技巨头中谷歌同样也已跑在前列。

短短一年半时间里,其旗下的 DeepMind 就将世界模型 Genie 从 2D 一路升级至能实时生成交互式 3D 环境的 Genie 3。只需一句话,Genie 3 就能在 720p 分辨率下创造一个用户可以边走边看的动态世界,场景细节能在长达一分钟的记忆中保持连贯。除了游戏外,Genie 3 还能为机器人或自动驾驶系统提供多元化训练场景,可以为 AI 智能体研究提供更长、更稳定的交互回合。

必须承认,目前世界模型的研究仍处于早期阶段。相较于适合快速迭代、短期内易于落地的 VLA 路线,世界模型代表了更底层的认知方式,强调物理规律和空间理解力,适合长期演进。但在这条平行赛道上,一场定义 AI 下一个十年的角逐已经鸣枪起跑,AI 正在努力超越文本,尝试理解并重塑我们所在的物理世界。

评论
大家都在看