文 / 陈永伟
8 月 5 日,谷歌 DeepMind 发布了其新模型—— Genie 3。
该模型能够根据用户的文本或图像提示,实时生成可供用户与 AI 智能体(AIAgent)互动的 3D 虚拟环境。例如,用户只需输入 " 月球上的火山边 ",Genie 3 便能即时生成一片浮动的火山、黄色的大地与远处的宇宙背景,并允许用户进入探索。
相比此前的 AI 模型,Genie 3 展现出更强的实时交互能力,并在互动时长和记忆连贯性上表现尤为出色。例如,如果用户在生成的房间墙壁上涂鸦,然后转身探索别处,那么当他稍后返回时,墙上的涂鸦依旧保留。
不仅如此,Genie 3 还引入了 " 可提示的世界事件 "(PromptableWorldEvents)功能。这允许用户在交互过程中,通过新的文本指令动态改变世界。无论用户要求 " 加入一只奔跑的小狗 "" 把天气从晴天变成大雨 ",还是 " 将环境从海边变成山上 ",Ge-nie 3 都能瞬间响应。
Genie 3 的出色表现不仅刷新了 AI 生成世界的边界,也让人们看到了另一条通向通用人工智能(AGI)的路径—— " 世界模型 "(WorldModel)的希望。一时间,关于 " 世界模型 " 的讨论频频见诸媒体。
那么,什么是 " 世界模型 "?它如何实现?又能为我们带来什么?且让我们一一道来。
世界模型简史
在人工智能领域,许多重要的模型都是模仿人类的某种能力或大脑的某种机能建立的。例如,卷积神经网络(CNN)的灵感来自生物视觉皮层感受域(receptivefield)的工作方式,Transformer 模型则借鉴了人类注意力的聚焦机制。同样,世界模型的灵感源自对人脑一种重要机制的模仿——在大脑中构建并运用 " 内部世界 "(innerworld)的能力。
设想一下,你正走在大街上,突然看见一辆汽车急速驶来。这时,你会迅速在脑中进行计算,模拟它在接下来几秒的运行方向和速度,并判断是否需要避让以及向哪个方向避让。随后,你的身体会根据大脑的判断采取行动。需要注意的是,此时你脑中的工作机制与传统机器学习有显著不同——机器学习的判断依赖于对大量数据的学习,这意味着只有在多次遭遇汽车迎面驶来并积累了统计经验后,才可能得出预测。然而,现实中这种突发情境极为罕见,人类几乎不可能仅靠经验学习来应对。事实上,面对突然驶来的汽车,人们依靠的往往不是经验,而是一种预测能力。换言之,你会在脑中提前 " 看到 " 那辆车未来的位置。这种 " 在心中演练未来 " 的能力,是人类智能最基本、也最奇妙的组成部分。
很早以前,就有人注意到人类构建 " 内部世界 " 的能力。18 世纪,德国古典哲学家康德指出,人类的感知从来不是对现实的直接复制,而是在心灵内部通过某种 " 先验框架 " 加以组织和解释的。从这个意义上讲,我们所见的世界,其实是自己建构的一个版本。20 世纪,心理学家皮亚杰进一步指出,儿童并非被动接收信息来理解世界,而是通过不断尝试、失败与重建,在脑中建立起一套关于世界运行规则的 " 心理模型 "。这些模型使他们能够预判事件的后果并指导决策。正因如此,人类才能成长为拥有计划与想象力的存在。
随着现代认知科学兴起," 人类可以不依赖真实世界输入而进行‘心智模拟’(MentalSimulation)" 这一事实得到进一步证实。研究还发现,人脑会不断用感官输入来验证和修正自己的预测,使构建的 " 内部世界 " 愈加接近真实世界,并用更新的模型持续模拟现实、指导行动。
人工智能学科创立之初,专家们便开始尝试模仿人脑的这种能力。例如,维纳等人的反馈控制理论强调,智能体要与环境交互,必须对环境状态有内部表示。同一时期," 符号主义 " 学者尝试用逻辑规则和知识图谱构建 " 世界描述 ",并通过推理机进行决策,在棋类、路径规划等领域取得不少进展。20 世纪 70 年代的 Shakey 机器人,就已能在 " 内部地图 " 上模拟移动与避障。
进入 20 世纪 80 年代,随着统计学习方法的发展,研究者开始用概率模型刻画环境动态,并将隐马尔可夫模型(HMM)、卡尔曼滤波等先进统计方法应用于内部世界构建。这类模型的优势在于能够从数据中估计转移概率,减少对人工规则的依赖,但缺点同样明显——一旦状态空间维度上升,模型规模与计算量便呈爆炸式增长,难以适用于图像、视频等高维感知输入。
1989 年,理查德 · 萨顿将强化学习与 " 内部世界 " 思想结合,提出 Dyna 架构。利用该架构,智能体既可以直接从环境中学习策略,也可利用学到的环境模型在内部进行计划(plan-ning)。显然,这一思路正是对人脑 " 心智模拟 " 功能的模仿。
1990 年,时任博士生的人工智能专家于尔根 · 施密德胡伯(J ü rgenSchmidhuber)提出,理想的 AI 模型应像人类一样,对真实世界有全面而准确的认知,并能模拟可能发生的情况。这样的模型不仅要理解 " 现在 ",还要想象 " 未来 ";不仅要描述 " 是什么 ",还要推测 " 会变成什么 "。它不是传统的分类器或生成器,而是一种具备 " 时间意识 " 的智能体。施密德胡伯将这种理想模型命名为 " 世界模型 ",并在博士论文中用循环神经网络(RNN)构建了一个简单版本," 世界模型 " 一词由此诞生。
遗憾的是,当时神经网络并非人工智能的主流方向,加之技术条件限制,该模型表现并不突出," 世界模型 " 这一名词在此后多年传播有限。直到 2018 年,施密德胡伯及其合作者发表题为《世界模型》(WorldModels)的论文,这一概念才被更多人熟知。
这篇论文之所以在多年后引发关注,原因多方面:其一," 深度学习革命 " 已经发生,基于神经网络的模型更易获得认可;其二,论文中的世界模型在性能上显著优于 20 世纪 90 年代的版本。但或许更重要的,是文中那幅漫画:一个人正在骑车,而他脑海中也浮现着一个骑车的人。虽无一字,却生动呈现了 " 世界模型 " 的核心——人在行动的同时," 内部世界 " 正模拟行动的可能结果,并据此指导行为。所谓 " 一图胜千言 ",在人工智能领域同样适用。
随着 " 世界模型 " 思想被接受,众多研究团队投入到相关模型的开发之中。其中,谷歌 DeepMind 团队无疑最引人注目。早在 2019 年,他们推出了基于模型的智能体 PlaNet,能够直接从图像学习内容,构建世界模型,并预测后续图像走向。测试显示,它只需观察前 5 帧,就能在给定动作序列的条件下提前准确预测接下来 50 步的发展。
2020 年,DeepMind 在 PlaNet 的基础上推出改进版 Dreamer 模型,引入递归状态空间模型(RSSM)等新技术,使其在预测与模拟性能上有显著提升。进入 " 生成式 AI 革命 " 阶段,尤其是在 OpenAI 发布 Sora 之后,DeepMind 开始将世界模型思路应用于高质量视频生成,而 Genie 正是这一工作的产物。与 Sora 相比,Genie 系列在视频精细度与流畅性上略有不足,但因其基于世界模型构建,交互性远优于 Sora。这一特点,使其应用潜力大大超出视频生成范畴。
世界模型的技术实现
从本质上讲,所谓世界模型,其实就是 AI 的 " 理解引擎 "。它的核心原理,用一句通俗的话概括,就是让机器先在 " 心里 " 排练一遍,再付诸行动。那么,如何实现世界模型呢?虽然技术细节十分复杂,但总体上可以分为几个主要环节。
首先是表征学习(RepresentationLearning)。在模拟现实阶段,世界模型并不需要额外的数据输入,但在构建阶段,相关数据是必不可少的。这就好比我们在大脑中想象世界之前,必须先对世界的基本结构有所了解——而要做到这一点,就必须先用眼睛看、用耳朵听,再将这些信息转化为大脑可处理的电信号。同样地,在构建世界模型时,AI 需要通过传感器从外界获取各种数据输入,这些输入可以是文本、图像,也可能是声音或视频。接着,AI 通过 " 表征学习 " 过程,将这些输入压缩成机器能够理解的 " 内部语言 "。在不同应用需求下," 表征学习 " 会使用不同技术。例如,在学习连续潜在空间时常用变分自编码器(VAE);在从未标注数据中提取有意义的视觉特征时,则会用到自监督视觉模型。
接下来是动态建模(DynamicModelling),这一阶段要回答的问题是:" 如果我现在采取某个动作,比如前进一步,世界的状态会发生什么变化?"AI 需要基于已有数据和先验知识,不断对可能的未来场景进行模拟。难点在于准确刻画现实世界中的物理规律。众所周知,传统机器学习多半学到的是相关性,而非因果关系,这在模拟中容易出错。例如,按照万有引力定律,物体被抛出后会在重力作用下下落。但如果 AI 的训练数据只包含抛掷羽毛的情景,它可能会错误地 " 学习 " 到物体不会下落,而是漂浮空中,从而在模拟中产生荒谬的结果。解决方法之一,是在模型结构中直接嵌入物理规律,例如依据万有引力定律和空气阻力公式设计损失函数,将其作为训练约束。另一种方法是从数据入手,确保训练样本涵盖多样化场景——既包括抛掷羽毛,也包括抛掷铅球。AI 在多样化的样本中便可归纳出更普适的规律,实现更准确的建模。只有当 AI" 学会 " 并内化了物理定律,构建出的模型才具有真正价值。
第三个环节是控制与规划(ControlandPlanning)。在这一阶段,AI 基于世界模型对现实进行模拟,并在众多可能方案中寻找最优策略。以躲避汽车为例,这一步就是在成千上万种闪避方式中找到最优解。不同场景下,控制与规划的方法各不相同。例如,在早期模型中,蒙特卡洛树搜索常被用于寻找最优策略;而在 PlaNet、Dreamer 等知名世界模型中,则通过基于模型的强化学习(Model-basedRL)在潜变量空间中进行多步规划。有些模型还会在策略优化的同时,反向优化 " 内部世界 " 本身,实现模型与策略的双向提升。
最后是结果输出。顾名思义,这一环节的任务是将模型 " 想象 " 的结果以可见、可听或可感的形式呈现出来。对于许多世界模型(如本文开头提到的 Genie)而言,这一步至关重要。最常见的输出形式是视频或图像序列。实现这一目标,需要将 " 表征学习 " 过程反向执行——将 AI 内部的表征还原为像素。早期常用基于像素的生成模型,如卷积神经网络(CNN)解码器或自回归模型。较新的方法多采用基于潜在空间的渲染:先在低维潜在空间生成内容,再解码为像素,其效率远高于直接像素生成。如果目标不仅是 " 看得见 ",还包括 " 听得到 " 甚至 " 可触摸 ",则需引入更多模态的生成与渲染技术,这里不再展开。
世界模型能做什么
世界模型的出现,究竟能为我们带来什么?如果说过去的 AI 擅长的是 " 计算 "" 识别 " 或 " 对话 ",那么世界模型则为 AI 打开了一扇新大门——它不仅能够 " 看懂世界 ",还能够主动 " 在世界中行动 "。这种能力,使它可以被应用于多个不同场景。
首先,是与 " 具身智能 " 相关的领域。这里所说的 " 具身智能 " 范围更广,既包括拥有真实机械结构的机器人,也包括虚拟游戏角色等任何具备 " 身体 " 的智能体。一旦智能体有了身体,它就可以主动移动、操作和试探。理论上,我们可以让它通过这些行动不断学习,像婴儿通过抓、摔、跳、爬来探索世界规律一样。然而在现实中,这种探索往往成本高昂,甚至存在破坏性风险,因此在实践中并不可行。比如,虽然理论上可以让机器人通过试错学习躲避汽车,但在真实环境中,只要出现一次错误,就可能导致严重损坏,学习自然无法继续。
在这种情况下,世界模型为智能体提供了一个安全的训练场。AI 可以在其中反复尝试各种策略,直到找到最佳路径,再回到现实世界时,它已经是 " 经验丰富 " 的行动者。显然,这种训练方式相比传统方法不仅能显著降低成本,还能避免大量不必要的事故。施密德胡伯曾将这种在世界模型中进行训练的方式形象地称为 " 做梦 "(dreaming),这个比喻恰当地刻画了它的特点。
其次,是 " 数字孪生 " 领域。数字孪生是指为现实世界中的实体(如工厂、城市、港口)等创建高度还原的数字副本,以此实时同步数据、预测变化。过去,即便数字孪生做得再逼真,它也只是一个被动的模型。而有了世界模型的介入,这个孪生体就能主动模拟未来、预测问题并实时响应。它不仅可以预警设备故障、识别仓储流程可能的拥堵,还能提前给出优化建议。将世界模型应用于数字孪生,不仅能显著提升自动化水平,还能实现 " 感知—预测—决策 " 的一体化跃迁。
第三,是教育与科研领域。科学家可以利用世界模型构建虚拟物理实验室,更精确地预测液体流动、粒子运动或电路反应;教育者则可以打造交互式虚拟课堂,让学生在模拟环境中亲手实验、探索知识。随着世界模型的加入,知识生产与传播的效率都将得到显著提升,整个知识产业链有望实现优化升级。
第四,是游戏和娱乐领域。在这里,世界模型就像一台自动生成可玩世界的引擎。玩家不再受限于预设场景,而是可以根据自己的行为、兴趣和指令,让 AI 实时生成全新世界。同时,虚拟世界中的 NPC 将具备更高的智能水平,与玩家进行更丰富、自然的互动,从而大幅提升游戏的沉浸感与可玩性。
如果我们把视野放得更远,世界模型甚至可能成为 " 虚拟社会 " 的基础设施。一个高度发达的世界模型,或许能够支撑数十亿人同时生活、交流和建造的数字世界。在那里,每一个人的动作与决策,都会被模型合理接收、反馈并推动演化。那时,世界模型带来的将不仅仅是游戏或模拟,而是一种全新的存在方式。
世界模型背后的隐忧
科技的每一次突破,都是一把双刃剑,世界模型也不例外。当它让 AI 不再只是识别现实,而是能够 " 创造 " 现实时,随之而来的伦理与治理问题正逐渐浮出水面。
第一,世界模型可能进一步模糊真实与虚拟的边界,引发 " 后真相 " 危机。它生成的内容不仅符合物理规律,还能与用户深度交互,带来的 " 真实感 " 远超当前的 AI 生成物。在这种情况下," 有图有真相 " 甚至 " 有视频有真相 " 的时代将一去不返。一旦被用于诈骗、造谣或政治操纵,其社会危害将极为严重。
第二,世界模型可能成为行为操控的工具。它不仅能建构环境,还可以通过环境反向影响用户行为。由于虚拟世界足够逼真,构建者完全可以借助物理布局、奖励机制、剧情走向等方式,潜移默化地引导用户做出特定选择。在这种情况下,人们在 AI 世界中的 " 自由选择 " 可能并不真正自由。如何抵御商业诱导、政治宣传和极端意识形态的渗透,在虚拟幻象中守住自我,将成为一大挑战。
第三,世界模型可能加剧人们对虚拟世界的沉迷与对现实的疏离。它能够构建一个巨大的 " 智能乌托邦 " ——既与真实世界一样真实可交互,又比现实更美好、更有回报感。在那里,人们可以轻易获得完美的社交关系、理想的职业和永恒的胜利感。然而,当沉浸其中的快感不断累积,人们面对现实的意愿和能力可能逐渐削弱,甚至丧失在现实世界生存的必要技能,最终被困于虚拟世界。
第四,世界模型可能放大偏见、歧视与社会固化。为了构建逼真的虚拟世界,它会大量参考现实世界的数据,从而吸收并重现其中根深蒂固的偏见。在 AI 的放大效应下,这些偏见不仅会被复制,还可能通过互动灌输给用户,使错误观念在潜移默化中得以强化。
第五,世界模型的责任归属与治理缺口亟待关注。当模型变得足够复杂时,其生成的内容与交互效果往往超出单一开发者的直接控制。这带来一个棘手问题:一旦虚拟世界出现伤害性后果,责任应由谁承担?例如,用户在虚拟世界中受到心理伤害,或被诱导做出危险行为,责任在模型构建者、平台运营方,还是用户自身?又如,当 AI 在虚拟训练中学会不良策略并在现实中重现,应追责于模型设计者、应用方,还是数据提供者?这些问题目前尚无明确答案,但随着世界模型的普及,迟早必须直面。
综上,世界模型虽具有巨大的应用潜力,但其伴生风险同样不容忽视。唯有提前建立伦理、法律与技术的多重防护,才能确保这项技术真正造福人类。
世界模型是通往 AGI 的必由之路吗
世界模型之所以在近期引发高度关注,除了其潜在应用广泛外,还有一个重要原因:不少人工智能专家认为,它才是通向 " 通用人工智能 "(AGI)的正确道路。Meta 首席 AI 科学家、2018 年图灵奖得主杨立坤(YannLeCun)多次公开表示,世界模型不仅重要,而且几乎不可或缺。他指出,当今的大语言模型(LLM)虽能在语言空间中生成连贯文本,但从本质上看,它们缺乏对现实世界的连续表征和物理一致性推理能力。人类之所以能在复杂环境中高效学习与适应,关键在于能在大脑中构建对真实世界的模拟,并在内部模型中进行 " 离线思考 "。这种能力不仅显著降低了试错成本,还能帮助我们更好地应对未知情境,实现知识的跨领域迁移。从目前来看,只有世界模型能够模拟人类的这一能力。因此,如果希望 AI 的能力接近甚至超越人类,世界模型或许是必经之路。
杨立坤的观点在 AI 界收获了不少支持,但也遭到同样多的质疑。一部分强调 " 端到端学习 " 和 " 规模驱动 " 的研究者,对这一观点持谨慎甚至怀疑态度。在他们看来,尽管世界模型有其价值,但 AGI 未必需要显式的世界模型,更谈不上是 " 必由之路 "。例如,Deep-Mind 创始人、2024 年诺贝尔化学奖得主德米斯 · 哈萨比斯(DemisHassabis)就指出,大规模无模型(Model-free)方法在一些复杂任务中已取得令人瞩目的成绩—— AlphaGoZero、AlphaStar 等系统并没有显式的物理世界建模,却在多个领域表现超越人类。因此,通过类似方法模仿、逼近甚至超越人类能力,实现 AGI 并非不可能。
与此同时,还有学者质疑世界模型本身的发展潜力。他们认为,首先,显式的物理世界建模容易受到建模误差的限制,多步预测中的累积偏差可能严重影响规划质量,从而削弱模型性能,甚至不如普通神经网络。其次,如果目标环境过于复杂,在潜在空间中构建准确、稳定的世界模型所需成本将极为高昂,此时直接依赖强大的策略网络拟合最优行为,反而可能更具性价比。
除 " 世界模型派 " 和 " 反世界模型派 " 外,还有学者主张中间路线。他们认为,AGI 未必依赖单一、统一的世界模型,而可以通过 " 隐式建模 " 获得类似能力。许多现代大语言模型和多模态模型在训练过程中,实际上已经学会了某种世界知识的结构化表示——这种表示并非工程师显式构建的物理引擎,而是以海量数据训练结果隐含在参数空间中。这种 " 参数即世界 " 的方式虽然可解释性较差,但在推理、预测、规划等任务中依然能展现出一定的世界理解。例如,GPT 类模型可以通过多轮对话推演事件逻辑,甚至在虚拟物理场景中给出连贯结果。换言之,即使在模型设计时未预先植入物理规律,它们依然可能通过学习自行抽取这些规律。因此,中间路线派认为,显式物理建模并非实现世界模型的唯一途径。
那么,哪一种观点更有道理?这在很大程度上取决于我们如何定义 AGI,以及如何理解 " 必由之路 "。在 AI 圈内,对于 AI 的目标本就存在分歧:有学者认为,AI 的目标是让机器像人一样思考和行动;也有人认为,目标是让机器像人类一样完成任务,而不必在机制上与人类相同。基于不同的理解,AGI 的定义也有所不同:如果目标是让机器像人类一样行动,那么模拟人类构建 " 内部世界 " 的能力就必不可少;如果目标只是让机器在任务表现上不逊于人类,那么是否使用世界模型就不是必须。相比一刀切地依赖世界模型,根据任务性质选择最适合的技术路径,或许才是更为务实的通向 AGI 之路。
结语
几千年来,人类一直在追问一个问题:世界是如何运作的?从古代神话中的创世之神,到近代物理学的牛顿与爱因斯坦;从文学中的乌托邦,到哲学中的 " 物自体 " 与 " 现象界 ",我们始终渴望理解世界的规律、命运与可能性。而今天,当人工智能开始尝试 " 创造 " 一个世界,它实际上也在加入这场古老的对话。
世界模型不仅是一种 AI 工具,更是一次对 " 认知本身 " 的挑战。它不仅试图再现世界的外观,更力图理解其机制、因果的流动,以及行动与反馈之间的微妙关系。从这个意义上看,无论它最终能否引领我们走向 AGI,也无论它能带来多少直接应用,其探索价值都不可低估。
登录后才可以发布评论哦
打开小程序可以发布评论哦