经济观察报 前天
智源研究院王仲远:世界模型的关键是真正预测下一个状态
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

经济观察报 记者 周悦

2025 年," 世界模型 "(World Model)成为 AI 领域最受关注的词汇之一。它指的是让 AI 理解世界运作规律,不再停留在识别或生成层面,而是能想象并预测世界的变化。

随着大模型红利逐渐减弱,各家公司都在寻找新的增长点。DeepMind 推出可生成交互式 3D 世界的 Genie 3,OpenAI 继续强化 Sora 的物理一致性;英伟达、华为、百度等也正从机器人与自动驾驶场景切入,让 AI 从看懂迈向参与。

10 月 30 日,智源研究院发布悟界 · Emu3.5 多模态世界大模型。智源研究院院长王仲远在接受经济观察报等媒体采访时表示,随着互联网文本数据被充分利用,大语言模型的增长进入相对缓慢阶段,行业正在寻找新的突破口,而多模态与世界模型正是被寄予厚望的方向。

王仲远认为,Emu3.5 很可能开启第三个规模定律范式(Scaling)。在语言预训练和推理优化之后,Emu3.5 进一步证明,多模态模型同样具备可规模化成长的潜力。" 它的最大贡献,是用自回归架构统一了图像、文本与视频的生成和理解。它能够预测下一个状态(Next-State),这一点非常接近人类大脑对世界进行理解的方式 "。

与主流的 Diffusion Transformer(DiT)架构不同,智源从 " 第一性原理 " 出发,构建原生多模态大模型。在 Emu 架构下,模型能在同一系统中完成感知、理解、推理与生成,形成一个可持续进化的世界模型。

智源研究院多模态大模型负责人王鑫龙介绍,Emu3.5 基于超过 10 万亿 token 的多模态数据训练,其中视频数据累计时长达 790 年,参数规模为 340 亿。智源团队提出的 " 离散扩散自适应(DiDA)" 推理方法,使图像生成速度提升近 20 倍,同时保持高质量输出。模型在三个维度上实现突破:一是从意图到规划,能够理解更高层级人类意图,例如,如何制作一艘宇宙飞船,并生成连贯的多步骤行动路径;二是动态世界模拟,能在统一框架内预测物理动态、时空演化与因果关系;三是泛化交互能力,为 AI 与人类及物理环境之间的协作提供认知基础。

针对外界将世界模型等同于视频生成的看法,王仲远不认同。他认为,世界模型的核心并非视频生成,而是对因果与物理规律的理解。比如机器人要抓起一杯靠近桌边的咖啡,它必须预测哪种动作会让杯子掉下去,哪种才安全——这才是真正的理解。

他认为,人类学习世界时不会区分语言或动作,Emu3.5 也不限定用途。它既可支撑具身智能,也能生成多模态训练数据。在他看来,这不仅是一次架构创新,也展示了中国科研团队的原创路线,在世界模型这一尚未收敛的领域中,尝试提出自己的答案。

2024 年 10 月,智源研究院发布了全球首个原生多模态世界模型悟界 · Emu3。该模型仅基于 " 下一个 token 预测 " 机制。Emu3.5 则在此基础上进一步完善,使 AI 具备更强的物理直觉与跨场景规划能力。

王仲远认为,未来的 AI,不只是理解指令,而要理解世界本身,并在其中行动。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

物理 ai 机器人 规律 自动驾驶
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论