量子位 08-13
DeepMind哈萨比斯:智能体可以在Genie实时生成的世界里运行
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

世界模型已经开始用于训练 AI,想一下,一个 AI 在另一个 AI 的 " 大脑 " 里玩游戏,这真的很疯狂。

诺贝尔化学奖得主、DeepMind 创始人哈萨比斯最新访谈来了。

他分享了 Genie 3 的惊艳表现——智能体可以在 Genie 实时生成的世界里运行。

我们的目标是打造一个世界模型,一个真正理解世界物理规律的模型

这也正是 Genie 3 的方向——不仅能生成虚拟世界,还能让这些世界真实运转起来。

值得一提的是,此次访谈主持人为谷歌 AI Studio 产品负责人 Logan Kilpatrick,同时也是 DeepMind 团队成员。

除此之外,他还聊了 DeepMind 发展速度,聊了评测基准,还聊了 AGI。

对于 AI 的发展速度,哈萨比斯谈到 DeepMind 几乎每天都在推出新东西,速度之快甚至让内部人员也难以跟上。

他还表示,AGI 的关键是让模型具备思考、规划和推理能力,以并行分析和不断优化应对数学、编程、科学等复杂任务。

但是这些模型参差不齐,在部分任务上能力很强,但在一些简单问题上又会犯低级错误。

看完访谈,有的网友为哈萨比斯欢呼:

有的网友关注点则跑偏了:

话不多说,量子位为大家翻译整理了这次访谈,祝各位阅读愉快~

模型迫切需要新的、更难且更广泛的评测基准。

判断一个工具是否应整合进主模型,关键在于它是否能够提升模型的整体能力。

模型表现参差不齐,主要原因是在推理、规划和记忆等关键能力方面仍存在不足。

AGI 需自主转化人类意图为动态奖励函数,解决多目标优化难题。

……

DeepMind 发展势头

Kilpatrick:我感觉我们发布了很多成果—— DeepThink、IMO 金牌、Genie 3 ——而且反响非常热烈,我想了解一下你对这种进展和势头的整体感受。

哈萨比斯:看到这些进展真的非常令人振奋。过去几年里,我们一直在逐步加快发布和进步的速度,我觉得现在你们看到的正是这些努力的成果。

这是整个行业非常激动人心的时刻。我可以说,几乎每天都有新东西发布。连我们内部都很难跟上步伐,整个领域也是如此

所以这一切非常令人兴奋,我也为我们最近推出的一些成果感到非常自豪和满意。

DeepThink 与智能体系统

Kilpatrick:关于 DeepThink,你怎么看?显然让我最兴奋的一点是,IMO 金牌模型的一个版本已经向 Gemini 应用的订阅用户开放了。

人们真的可以亲自使用这个模型,这在过去我们谈论 Gemini 相关内容时是很少见的。我觉得把技术研发出来,再真正交到用户手中,这种结合非常美妙。那么,从 DeepThink 的角度来看,你是怎么考虑这个问题的?

哈萨比斯:我觉得 DeepThink 的出现,让人有点回想起我们最初在 AlphaGo 和 AlphaZero 等游戏项目上的工作。

实际上,从 DeepMind 成立之初,我们的工作历来都是基于智能体系统的。这里说的智能体系统,就是指能够完成整个任务的系统。

早期我们主要关注的是在游戏中表现出色的智能体,因为游戏有明确的目标。现在是多模态模型,非常强大,能够理解语言和我们周围的一切,而当年,我们主要是游戏模型。

然后,你需要在此基础上加入思考、规划和推理的能力,这显然是实现 AGI 的关键步骤。一旦具备了思考能力,就能进行深度甚至极深度的思考,并实现并行规划——同时进行多条思路的分析,再选出最优方案做出决策,随后推进到下一步。

虽然这里仍需大量创新,但看到思考能力的快速进展令人振奋。尤其是在数学、编程、科学问题以及游戏等领域,必须进行有效的处理和规划,而不仅仅是输出模型最初想到的结果,因为那个答案往往不足够好。你需要反复完善自己的思路,这正是思考系统的核心所在。

参差不齐的 AI

Kilpatrick:我之前没看过思维游戏,大概是一周半前才看。当时我一边看一边记笔记,感觉 DeepMind 团队在这方面确实领先很多,而且有很多有趣的相似点,比如你们之前尝试用强化学习去解决问题,跟现在很像。

AlphaFold 的数据瓶颈就是个很好的例子,这和我们今天在某些特定领域任务(比如编码,或者科学领域之外的任务)上遇到的人类专家数据问题非常相似。你觉得这种感觉是否 " 似曾相识 "?

哈萨比斯:是的,我觉得我们一直都走在正确的道路上,这一点现在已经比较清楚了。

我们是最早认真使用强化学习的人之一。实际上,这也是我们在 2010 年做出的最早几个重要赌注之一,和深度学习同时期的。

当然,还有我们的 Atari 工作,那是我们的第一个标志性成果——第一个真正的深度强化学习系统,能够仅凭屏幕上的像素玩 70 年代的 Atari 游戏,而且表现超过任何人类玩家。

更重要的是,这个系统开箱即用,具备一定的泛化能力。这其实向整个领域证明了,这些新技术确实可以被放大应用,并且能真正产生用处。

至于思考,如果你像我一样从小就下棋,你会发现,你脑子里一直在想的就是如何提升自己的思维过程,你的思维到底是怎么工作的?这当然也促使我思考神经科学——大脑是怎么运作的,然后把人工智能当成一个神奇的工具,尝试把思维提炼成一个数字化的产物

我们现有的系统在某些方面表现非常出色,但在其他一些相对简单的事情上仍然存在不少缺陷。它们确实令人印象深刻,比如能够在国际数学奥林匹克(IMO)中获得金牌——如果你从自然语言描述的角度去想,这真是难以置信。

顺便说一下,这其实只是搭载了 DeepThink 和一些额外思考能力的 Gemini 模型,它们并不是专门针对这些测试设计的,但表现却非常非常出色。

另一方面,如果问题以某种特定的方式提出,它们仍然会在高中数学、简单逻辑题或者简单游戏中犯一些低级错误。所以这说明它们仍然缺少某些东西。可以说,这些模型的智能表现参差不齐——在某些方面它们非常强,而在其他方面,它们的弱点却很容易被暴露出来

Genie 3 与世界模型

Kilpatrick:我们能不能先深入聊聊 Genie 3?我觉得这里有个有趣的切入点,就是模型在玩游戏方面其实并不算特别出色,但我看到很多人对 Genie 3 的反应简直是震惊和敬畏,有些评论甚至非常极端,觉得 " 我们生活在模拟世界里 ",觉得这证明了任何事情都是可能的,因为 Genie 的演示实在太精彩了。那么这是怎么做到的呢?

这显然也和用游戏来解决强化学习(RL)的问题有关。如果回头看、再结合现在对 Genie 3 的感受,你觉得它的发展结果是否符合你的预期?我个人觉得,单纯让模型擅长玩游戏,并不一定会直接带来我们今天所看到的 " 世界模型 " 这些成果,这点对我来说并不那么显而易见。

哈萨比斯:关于 Genie,实际上它融合了多条研究路径和各种想法。我们一直把棋类游戏作为一个具有挑战性的领域,用来推动 AI 算法的改进。

同时,我们也大量使用电脑游戏,不仅作为挑战环境,还用来生成合成数据。事实上,我们过去一直在用,也仍然在使用大量非常逼真的模拟环境,尤其是基于 3D 游戏引擎构建的传统模拟环境,用来为系统提供更多训练数据,帮助它们更好地理解物理世界。

我们之所以这么做,是因为我们想构建所谓的 " 世界模型 ",也就是能够真正理解物理世界的模型。这个模型需要理解物理结构、事物的运行方式、各种材料和液体,甚至是活体生物的行为,比如动物和人类的行为——这些显然都是我们世界中至关重要的部分。

我们不仅生活在语言和数学的世界里,还有一个真实存在的物理世界。因此,如果想要实现 AGI,它必须理解物理世界,才能在其中进行操作。

实际上,机器人发展的瓶颈就在于缺乏世界模型。还有像我们的 Gemini Live 项目 Astra,致力于打造一个通用助手,能够在你的手机或眼镜上帮助你处理日常生活中的各种事务。显然,这样的助手也需要理解你所处的时空环境。

所以,想要真正理解世界及其运行方式,就必须有一个世界模型。而证明你拥有良好世界模型的方法之一,就是能够生成这个世界

测试世界模型有效性和深度的方法有很多,其中一个很好的方式就是让它反向生成关于世界的内容。比如你打开水龙头,会有液体流出;或者面前有一面镜子,你能看到自己的倒影。所有这些细节。

Genie 正是朝着这个方向努力,构建世界模型,然后通过它来表达,并且真正能够生成一个自洽的世界。

Genie 的未来应用

Kilpatrick:你觉得大家会如何使用 Genie?它的初衷是用来帮助提升 Gemini 以及我们其他机器人项目的效果并实现规模化,还是说人们也会直接拿它来玩?你觉得它还有什么其他潜在的用途吗?

哈萨比斯:Genie 在多个方面都非常令人兴奋,其中之一就是我们已经开始将它用于自身的训练。

我们有一个叫 Sima 的游戏代理,它能开箱即用地接管操作,玩现有的电脑游戏。虽然有时候表现不错,但有时候也不尽如人意。

不过有趣的是,你可以把这个 Sima 智能体放进 Genie 3 里,基本上就是一个 AI 在另一个 AI 的 " 大脑 " 里玩游戏。想想都挺疯狂的。Sima 会决定采取什么行动,你可以给它设定目标,比如 " 去房间里找到钥匙 ",它就会像玩普通电脑游戏一样发出指令去完成任务。

实际上,另一端是 Genie 3 实时生成世界。也就是说,有一个 AI 在生成世界,另一个 AI 则在这个世界里运行。这对于创造无限的训练数据非常有用,我能想象这对机器人技术以及我们通用人工智能系统的训练都会大有帮助。

当然,它在应用层面也有巨大的潜力,特别是在未来的互动娱乐领域。我有很多想法,你一定不会惊讶于下一代令人难以置信的游戏会是什么样子,甚至可能出现我们以前从未想过的新型娱乐形式,介于电影和游戏之间,开创一种全新的娱乐类别。

当你深夜工作,生成这些完整的世界,思考这项技术是如何运作的时候,你也不得不去思考现实世界到底是怎样的?我在整个职业生涯中一直在思考这个问题:现实的本质是什么?

实际上,正是这个问题驱使我一直致力于把人工智能打造成为科学研究的强大工具。我认为,像 Video 3、AI Studio 以及 Genie 3,如果用不同的视角去看,真的能告诉我们一些关于现实本质的重要信息。

对更好评测基准的需求与 Kaggle Game Arena

Kilpatrick:一方面,我们有这样一个令人震撼的系统,可以生成完整的世界;但另一方面,你拿出 Gemini 让它下棋,它棋艺很差。虽然知道规则,但其实下得不好。我觉得我们的模型在下棋方面也差不多有这种情况,有时候甚至连规则都没法完全遵守。

因此,我们还宣布了与 Kaggle 的合作,推出了 Game Arena,让模型们有一个可以去玩各种游戏、测试能力的平台。我很想听听你对这件事的看法。

哈萨比斯:这确实很有意思。这其实反映了一个更广泛的情况:我们的系统,包括 Gemini,以及竞争对手的系统,都在不断进步。

我们的系统能够做很多令人惊叹的事情,比如根据文本提示生成模拟世界,理解视频内容,解决数学问题,处理科学相关任务等等。但我想我们直觉上都能感觉到,当我们和这些聊天机器人互动时,很容易发现它们能力的边界。

在我看来,系统尚未成为真正 AGI 的一个重要原因,就是它们缺乏一致性

比如以前系统会数错草莓的数量,这个问题我们现在基本解决了,但仍有一些非常简单的事情,比如小学生能轻松做的题目,这些系统却做不到。那么为什么会这样呢?

这是一个很好的问题,很可能是在推理、规划和记忆方面还缺少某些关键能力,除了简单地扩大规模,我们或许还需要在这些领域实现一两项新的突破。但这也可能是因为我们需要更完善、更有效的评测基准来更准确地评估系统的能力。

这些系统的优势和不足是什么呢?它们非常通用,包括 Gemini 在内,但我们使用的许多评测基准已经逐渐达到饱和。比如一些标准的数学评测,如 MATH 测试,DeepThink 最新成绩已经达到 99.2%

因此,我们迫切需要新的、更难且更广泛的评测基准。我认为,这些新的基准应该涵盖对世界物理和直觉物理的理解,以及其他我们作为人类理所当然但系统尚未掌握的能力,比如物理智能。

实际上,我们目前还没有很好的这方面评测标准。此外,也需要一些安全性相关的评测,比如测试系统中不希望出现的特质,如欺骗等行为。

我认为,设计真正有意义的评测基准还有很大的发展空间,这些基准能够考察比现在那些纯粹依靠蛮力的学校考试类型测试更复杂、更微妙的能力。这也是我对 Game Arena 感到如此兴奋的原因。

当然,这也回归了我们的初心,也是我们为什么会提出这个平台的原因。而且,当初我们选择以游戏作为起点的许多理由,至今依然适用。

首先,游戏是非常干净的测试场地。你可以很容易获得分数,评判标准非常客观,没有主观因素,比如人类评分或者 A/B 测试那样的干扰。从这个角度来看,它非常科学。

其次,游戏的测试难度会随着系统能力自动调整。因为系统之间会通过锦标赛相互对战,实际上观看这些比赛也非常有趣。正如 Game Arena 这个名字所示,最强的模型会彼此对决。我们希望这能推动技术的快速进步。

现在的 AI 系统普遍不擅长玩游戏,比如象棋,甚至比象棋更简单的游戏也是如此。为什么会这样是一个有趣的问题。

我相信有了 Game Arena 这个评测平台,它们会迅速进步。而且,随着系统变得更强,测试难度也会自动增加。

这与 MATH 或者 GPQA 不同,后者需要不断设计更难的科学问题,而且谁来设计这些问题,或者这些问题是否已经在网上泄露,都是个难题。

每场游戏都是独一无二的,因为它是由双方玩家共同 " 创造 " 出来的。这种独特性也使得游戏非常适合作为测试手段。

最后一点,就像我们早期在游戏领域的工作一样,随着系统变得越来越强大,我们可以不断向 Game Arena 引入越来越复杂的游戏。

起初我们选择了象棋,原因显而易见——它是测试 AI 的经典项目,也让我个人非常有感情。但我们的目标是将游戏数量扩展到可能达到数千款,然后给出一个综合评分。

我们并不只是想要系统能够在某一款游戏中表现出色,而是希望它们能够在所有游戏中都达到较高的水平,这包括电脑游戏和棋盘游戏。

更有趣的是,未来 AI 系统甚至可能自己发明新的游戏,然后教给其他 AI 系统去学习。这就像是学习一款全新的、以前从未存在过的游戏,这样就不可能在训练数据上产生过拟合。

我有很多关于这种多智能体环境的想法,最终 Game Arena 可能会支持这些场景。我认为它将成为一个非常重要且持久的评测基准。

与此同时,我也相信,随着我们越来越接近 AGI,还会出现许多新的评测基准,确保我们能够全面覆盖认知能力的各个方面。

超越游戏的评测

Kilpatrick:你说得很有意思。过去几年我也一直在思考评测的问题,越来越清楚的是,实际上生活中的大多数问题本质上都是评测问题,无论是工作表现,还是我们日常遇到的各种事情,本质上都是评测问题。

游戏领域有 Game Arena 这样的平台,能通过实证的方式来衡量系统表现,那里有明确的 " 真相 " 和一系列约束条件,这点非常宝贵。但当我们把视角扩展到游戏之外的领域,就会发现难度大大增加。

比如说,如何为人类执行的各种复杂任务设计强化学习(RL)环境?这就涉及 " 真相 " 的来源问题——我们如何定义和衡量这些任务的标准?这确实是一个难题。

所以我很好奇,在非游戏环境下,你怎么看待开始捕捉和评估这些复杂能力的方法?你觉得有哪些可行的路径?

哈萨比斯:强化学习一直面临的最大挑战之一就是,在那些更复杂、更真实的领域里,如何明确指定奖励函数或目标函数,也就是你要优化的具体内容。

而在人类世界中,我们其实并没有单一的目标函数,情况非常复杂。实际上,如果我问你每天的目标是什么,你很可能会给出不同的答案。

这说明我们是多目标驱动的存在,而且会根据各种因素不断调整不同目标之间的权重,比如情绪状态、所处的物理环境,甚至你职业生涯所处的阶段,所有这些都会影响你的决策。

不过,我们人脑总能以某种方式摸索出大致的 " 北极星 " ——也就是那个指导我们行动的核心目标。我认为,我们的通用系统未来也必须做到这一点,它们需要学会去理解人类用户真正想要实现的目标,然后把这些目标转化成一组可优化的奖励函数

利用工具提升 AI 功能

Kilpatrick:历史上,我们见证了模型规模的不断扩大、预训练和后训练数据的增长、计算能力的提升,然后是推理能力的扩展。

现在,工具似乎成为了一个全新的 " 扩展维度 "。当你赋予模型更强大、多样化的工具时,它们就能完成更多任务。

我很好奇,这种新的扩展维度如何和我们在游戏及模拟强化学习环境中所做的工作结合起来。比如,是否存在一种可能,让模型能够使用物理模拟器作为它的一个工具,从而更好地理解和操作物理世界?

哈萨比斯我认为工具使用将成为这些 AI 系统最重要的能力之一。思考能力之所以在系统中扮演关键角色,很大程度上是因为你可以在思考过程中调用各种工具。

比如说,你可以调用搜索引擎,使用数学软件,写代码,然后再回过头来更新你的计划和决策。

目前这方面的能力其实还处于比较初期的阶段,但我相信这一旦变得足够可靠,并且系统能够稳定地使用相当复杂的工具,整个能力将会变得非常强大。

有趣的问题是,哪些功能应该作为工具保留,哪些又应该直接内置在主系统,也就是 " 主大脑 " 里。对于人类来说,这很简单,因为我们的身体有限制,凡是不在身体里的东西都算是外部工具,所以 " 什么是我们的脑子 " 这个界限很清楚。

但对于数字系统来说,这个界限就变得模糊了。比如,下棋的能力到底应该是主模型自带的,还是直接调用像 Stockfish 或 AlphaZero 这样的工具?而且,这个工具也可以是另一个 AI 系统,不一定是传统软件,比如 AlphaFold 这样的模型也可以作为工具。

关键问题在于,这种能力是否能提升其他能力

举个例子,数学和编程我们会直接放进主模型——比如主 Gemini 模型——因为这似乎能 " 全面提升 ",也就是说,编程能力好了,数学也会跟着提升,整体的推理能力也会更强。我猜象棋等能力可能也有类似的效果。

但另一方面,你又不想把过多的专门领域数据直接塞进通用模型,因为那可能会影响模型在其他方面的表现。所以这其实是一个非常需要通过实证研究来判断的问题。

如果把这项能力加入主模型能促进其他能力的发展,那就应该直接整合进去;反之,如果会影响其他通用能力,那么就可以考虑把它作为一个独立的工具来使用

从模型到系统的转变

Kilpatrick:有意思的是,模型在推理时实际上会调用各种工具,做很多事情。过去的模型更像是一堆权重——你输入一个 token,输出一个 token。现在感觉模型本身正在演变成一个完整的系统,人们在它之上构建应用的方式也在发生变化,模型 " 开箱即用 " 地帮你完成了更多工作。

我很好奇,这种从单纯的权重模型向完整系统转变的趋势,是否与你对整体进展的看法相契合?你觉得这种趋势会继续发展吗?

另外,对于正在构建产品的人来说,你有没有什么建议?比如在思考 " 我应该做成一个工具,还是把功能直接整合进模型 " 时,有没有什么经验或者原则可以参考?

哈萨比斯:模型确实在快速进步。随着它们获得了工具使用的能力,加上规划和思考能力,系统能做的事情呈指数级增长。因为它们能够以全新的方式组合和运用各种工具。

你可以考虑的一个方向是:哪些工具对 AI 来说最有用?先着手去开发和提供这些工具。这里面潜力巨大。

不过,即便有了工具使用能力,智能体本身也不一定能成为一个完整的产品。所以我觉得在这之上,还有很多产品化的工作需要去做。

现在的难点,也是我们之前谈过的,是在这个新世界里,产品经理或者产品设计师需要具备非常有趣且独特的技能

因为你要设计的产品可能要一年后才能发布,你必须非常贴近技术发展,准确预测一年后技术会达到什么水平,然后围绕那个未来状态来设计产品。

而且,无论你给产品加上多少精致的包装,都必须允许底层引擎随时可以被换成更先进的系统。毕竟,这样的系统大约每三到六个月,甚至更快就会更新一次,现在感觉几乎是每两周一次更新。所以你必须把这种高速迭代的节奏考虑进设计里。

同时,我也觉得,随着智能体能够有效调用这些系统作为工具,整个网络生态和应用的运作方式可能都会发生变化,未来的产品形态可能会因此不同于现在。

Genie 3 与全能模型的发展路线图

Kilpatrick:Genie 3 的进展确实令人难以置信,相信你也一定收到了很多关于 " 我怎么用这个模型?"、" 从世界模型和 Genie 的角度来看,下一步该怎么走?" 这样的问题。

哈萨比斯:我们现在正努力让系统尽可能高效,好能让成千上万的人都能使用。

我们非常希望用户能够互相分享他们的创作,也能体验其他人制作的内容,甚至有点赞和排序机制,形成一个用户生成内容的社区。

有趣的是,如何保持世界的一致性。比如,有时你会 " 捕捉到瓶中闪电 ",用一个很棒的提示语创建了一个非常吸引人的世界。我们需要确保下一个玩家也能重新生成并体验这个世界,这背后还有很多设计和思考。

总体来看,如果你把 Genie、VO 和 Gemini 这些模型放在一起想,虽然它们目前还是相对独立的模型,但我们开始看到它们逐渐融合,形成一个 " 全能模型 "(Omni model),能够做所有事情。

我们认为,这才是 AGI 系统应有的样子——能够像专用模型那样高效地完成各种任务,并且将所有能力统一整合到一个模型中。

参考链接:https://www.youtube.com/watch?v=njDochQ2zHs

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

希望了解 AI 产品最新趋势?

量子位智库「AI 100」2025 上半年

「旗舰产品榜」和「创新产品榜」

给出最新参考

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

deepmind ai 量子位 谷歌 阅读
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论