全天候科技 7小时前
Gemini如何逆风翻盘?谷歌首席AI架构师:从承认落后开始,找回自己的节奏
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

"在很长一段时间里,这都是一场追赶。"

当谷歌首席AI架构师、DeepMind CTO Koray Kavukcuoglu在镜头前公开承认"曾被甩在后面",很难不让人意识到:这家曾定义深度学习黄金时代的科技巨头,经历过一段真正意义上的危机——ChatGPT的爆发将整个行业的注意力拉向OpenAI,而谷歌则被视为"落后者"。

但这段逆风期已经成为过去式。

随着Gemini 3全面发布——在多项关键基准上重回前沿、在搜索、YouTube、地图、Android等产品矩阵实现"同日上车"部署——谷歌用行动证明,它不仅追上了,还重塑了自己的组织方法论和技术路径,找回了属于谷歌自己的节奏。

在最近长达近一小时的深度对话中,Kavukcuoglu罕见地拆解了这段"技术复兴"背后的故事:谷歌究竟是如何在短短两年之间把落后局面扭转为行业级的系统性领先?

谷歌首席AI架构师、DeepMind CTO Koray Kavukcuoglu真正的起点:承认落后

Kavukcuoglu的坦率异常少见。"当我们开始做Gemini时,我们知道自己落后。但你必须足够诚实,承认现实,然后才可能创新。"

这实际上标志着一次内部共识的转折:仅靠长期研究传统已经无法跟上时代速度。

过去的DeepMind以科学突破闻名:AlphaGo、AlphaFold、MuZero,一个个里程碑式成果建立了"技术领先者"的光环。然而,当模型要进入大规模用户场景,这种研究驱动的节奏被事实证明无法直接转化为产品能力。

承认这一点,是谷歌重新起跑的第一步。

多模态不是锦上添花,而是底层架构的必然

在访谈中,Koray不止一次把"多模态"提到核心位置。他的解释没有宣传色彩,而是纯工程逻辑:世界不是线性的,因此理解世界的智能也不能是线性的。

文本只描述一维逻辑,图像代表空间结构,音频包含时间线索,而视频是这些维度的组合。一个能真正作为通用智能系统的模型,不可能只靠文字输入输出。

谷歌的选择是从架构级别开始统一,让不同模态的理解在同一个模型中共同训练。这是难度最高的路线,因为不仅要改动模型结构,还要重做token化方式、训练损失、优化器乃至推理路径。

但正是这种底层重构,使得Gemini能在图表解析、文档理解、跨模态任务等方面迅速拉开差距。外界常用"画得好不好看"来评判图像模型,而谷歌的思路则完全不同——多模态的意义在于让模型更理解世界,而不是生成漂亮图片。

谷歌加速的秘密:组织方式的彻底重写

Gemini真正的反转来自组织层面的变化。

过去的谷歌更像一条串行流水线:研究团队训练模型、工程团队负责部署、产品团队接手体验、安全团队从最后一环把关。这种结构在互联网产品时代有效,但在大模型时代会被放大出一个致命的后果——迭代缓慢且链路割裂。

而现在的谷歌,把所有团队重新组合成"并行系统"。Koray特别强调,从Gemini 3开始:产品经理从训练第一天就参与任务设计;工程团队同步优化推理路径与落地成本;安全策略嵌入训练过程,而不是上线前打补丁;真实用户数据直连训练管线,不再隔着层层组织结构。

这种变化让Gemini的迭代节奏第一次追上了竞争对手,也让模型更"像产品"——稳定、更懂意图、能执行真实任务,而不是只展示实验室能力。

对于一家跨20万员工的大公司来说,这种组织重构的难度,远高于一次模型迭代。

Gemini体验的跃迁:智力提升并不是主因

过去一年,不少用户都感受到Gemini体验的明显改善。但Koray的解释并不是"模型更聪明了",而是谷歌终于把"可用性"当成核心目标,包括:

第一,指令理解能力大幅提升。这是用户感受最直观的地方,也是模型走向执行智能的起点。

第二,国际化适配进入核心能力集。谷歌拥有全球用户,Gemini的训练过程首次系统性加入多文化、跨场景语料,而不是只做翻译。

第三,工具链与代码执行能力跃升。这奠定了Gemini走向Agent的基础——从"能回答"变成"能完成任务"。

Gemini的"变好"不是单点突破,而是系统工程成熟后的必然效果。

基础设施再次成为谷歌的底气

在谈到竞争优势时,Koray最强调的不是模型能力,而是基础设施——这是外界常常忽略的部分。

TPU、全球数据中心、跨产品分发能力、成熟的安全体系、构建在Search与Android之上的庞大调用入口……这些能力一旦与统一模型结合,就形成了很难被复制的网络效应。

Gemini的提升本质上是基础设施重新被激活。这也是谷歌能在短时间内从落后者重新回到行业中心的一大原因。

从访谈中可以感受到一种变化:Gemini的成功不是某个科学天才的灵感闪现,也不是某个模型参数突然暴涨,而是一个巨型组织重新找回统一节奏之后的必然产物。

谷歌用了两年时间,从承认问题到重构系统,再到形成新的产品逻辑。这种"系统反转"往往不如一次惊人Demo那样吸引眼球,却比任何一次模型跃迁更具长期价值。

在某个时候,定义新的前沿、新的基准测试是好事,定义基准测试非常重要。技术进步和基准测试之间是有区别的。理想情况下是百分百一致的,但从来不是百分百一致。

下一场AI战争:从语言智能走向行动智能

Koray对未来的判断清晰而直接:下一阶段的竞争不是谁模型更会聊天,而是谁能更好地完成多步骤任务。

这场竞争会发生在:工作流自动化、开发者工具链、企业任务智能化、搜索与信息组织方式、系统级AI(Android、Chrome、Workspace)

AI正从语言模型转向"任务操作系统"。Gemini的目标,正是成为这类系统的底层能力。

对于资本市场而言,这是关键差别:对话模型是产品,行动模型是平台。平台的商业价值远高于产品。

以下为Koray Kavukcuoglu主要观点:

我们衡量进步最重要的标准,是模型在真实世界中的落地应用。科学家用它推进研究,学生用它辅助学习,律师用它分析案例,工程师用它编写代码——从专业领域到日常生活,从简单的邮件撰写到复杂的创意工作,人们正在用这项技术完成形形色色的任务。这种跨越不同领域、覆盖多元场景的应用广度,恰恰是最重要的价值标尺。

如果我们要实现通用人工智能,就必须通过产品、通过与用户和生态的深度连接来完成。我的核心使命是确保谷歌的每款产品都能获得最先进的技术支持。我们并非要亲自打造产品——我们不是产品专家,而是技术开发者。我们专注于技术研发和模型构建。

我们始终与AI模式保持同步迭代,与Gemini应用实现联动发布——这绝非易事。正因为这些团队从研发初期就深度参与,才能确保在模型准备就绪的第一时间,实现所有产品的同步升级。这套协同机制已成为我们的标准流程。

每当被问及Gemini面临的最大风险,我的答案始终如一:创新的枯竭才是我们真正的隐忧。我从不认为我们已经掌握了终极配方,更不相信仅靠机械执行就能抵达终点。

(你是否也感受到了那种逆袭的感觉?)确实有这种感觉,甚至在那之前就有了。因为当LLM真正展现出强大实力的时候,我非常坦诚地觉得,我们曾经是前沿AI实验室,在DeepMind。但与此同时,我也意识到,我们在某些方面的投入还不够…..这就是一场追赶。在很长一段时间里,我们都在奋力追赶。

我从不认同有些人说的"谷歌太庞大,太难推动"这种观点。我认为我们可以把这转化为优势,因为我们有独特的资源和能力。

我们现在明确朝着多模态方向发展——包括输入和输出的多模态融合。随着技术进步,不同领域间的架构理念正在相互渗透。这些原本差异显著的架构正变得越来越兼容,这不是生硬地拼凑,而是技术发展的自然收敛。当大家意识到效率提升的路径和理念演进的方向时,技术路线就会自然融合。

以下为对话全文(由AI协助翻译)

Logan Kilpatrick(主持人):

大家好,欢迎回到Release Notes。我是Logan Kilpatrick,在DeepMind团队工作。今天很荣幸邀请到Koray Kavukcuoglu,他是DeepMind的 CTO,也是谷歌 Core新任的首席 AI架构师。谢谢你的到来。我很高兴能聊聊。

Koray Kavukcuoglu:

是的,非常兴奋。谢谢邀请。

Logan Kilpatrick:

当然,Gemini 3,我们坐在这里,已经发布了模型。反响似乎非常积极。我想我们发布时,显然对模型的表现有多好有一个预感。排行榜看起来很棒,但我认为把模型交到用户手中并真正发布出去才是考验。

这始终是考验,对吧?我的意思是,基准测试是第一步。然后我们进行了测试。我们在之前的版本中与可信的测试者进行过测试等等。所以你会有感觉,是的,这是个好模型,能力很强。它并不完美,对吧?但我对反响相当满意。人们似乎确实喜欢这个模型,并且我们认为有趣的地方,他们也觉得有趣。所以,这很好。到目前为止,这很好。

我们昨天在聊天,话题的主线是关于欣赏这个进步没有放缓的时刻,我觉得这引起了我的共鸣。回想上次我采访你时,我们是在 I/O 大会上,当时我们发布了2.5,听 Devis 和 Sergey 谈论AI等等。我觉得进步并没有放缓,这真的很有趣。当我们发布 2.5 时,它感觉是一个顶尖的模型,实际上我们在多个维度上推动了前沿。我觉得3.0再次做到了这一点。是的,我很好奇关于规模扩展的讨论如何继续。你现在有什么看法?

是的,我的意思是,我对进展感到非常兴奋。我对研究感到兴奋。当你真正身处研究中时,在所有这些领域都有很多令人兴奋的事情,对吧?我的意思是,从数据、预训练、后训练,到所有地方,我们都看到了很多兴奋点,看到了很多进展,很多新想法。

归根结底,这整个事情真正依赖于创新,依赖于想法,对吧?我们做的有影响力、在现实世界中、人们使用的事情越多,你实际得到的想法就越多,因为你的接触面增加了,你获得的信号种类也增加了。我认为问题会变得更难,问题会变得更加多样化。随之而来的是,我认为我们将面临挑战,而这些挑战是好事。是的,我认为这也是推动我们构建智能的动力,对吧?事情就是这样发生的。

我觉得有时候如果你只看一两个基准测试,你可能会看到瓶颈。但我认为这很正常,因为基准测试是在某项任务还是挑战时定义的。你定义了那个基准测试,然后当然,随着技术的进步,那个基准测试就不再是前沿了。它不再定义前沿。然后发生的事情就是你定义一个新的基准测试。这在机器学习中非常正常,对吧?基准测试和模型开发总是相辅相成的。你需要基准测试来指导模型开发,但只有当你接近前沿时,你才知道下一个前沿是什么,这样你才能定义。有了新的基准测试,是的。

我有同感。有几个基准测试,所有模型都表现得很差,大概只有1% 或 2%。我想现在最新的DeepThink模型能达到 40% 多了,是的,这很疯狂。RKGI2 最初所有模型几乎都做不了任何题目。现在能达到 40% 以上了。所以是的,这很有趣。同样有趣的是看到,我并不清楚为什么那些静态的、确实经受住时间考验的基准测试,尽管我们可能只能提高 1% 左右,但它仍然存在。

那里有真正困难的问题。我的意思是,那些困难的事情我们仍然无法做到。是的,没错。它们仍然在测试某些东西。但如果你想想我们在 gpqa 上的位置,嘿,并不是说,哦,你现在是 20 多分,需要达到 90 多分,对吧?所以,它定义的未解决的问题数量当然在减少。

所以在某个时候,定义新的前沿、新的基准测试是好事,定义基准测试非常重要。因为如果我们把基准测试视为进步的定义,这并不总是完全一致的,对吧?技术进步和基准测试之间是有区别的。理想情况下是百分百一致的,但从来不是百分百一致。

对我来说,最重要的进步衡量标准是我们的模型在现实世界中被使用。科学家使用它们,学生使用它们,律师使用它们,工程师使用它们,然后人们用它们来做各种各样的事情,写作、创意、写邮件,无论是简单的还是困难的。范围很重要,不同的主题,不同的领域。如果你能持续在那里提供更大的价值,我认为那就是进步,而这些基准测试帮助你量化这一点。

你如何看待,也许甚至可以从 2.5 到 3 举一个具体的例子,或者随便哪个模型版本变化都可以。我们在哪里进行局部优化?实际上,在一个现在有无数基准测试的世界里,你可以选择你想在哪个方向优化,你是如何为 Gemini 整体,也可能特别是 Pro 模型,思考我们应该在哪些方面进行优化的?我认为。

有几个重要的领域,对吧?其中之一是指令遵循很重要。指令遵循是指模型需要能够理解用户的请求并能够遵循它,对吧?你不希望模型只是回答它认为应该回答的东西,对吧?所以这种指令遵循能力很重要。这是我们一直在做的。然后,对我们来说,国际化很重要。谷歌 是非常国际化的,我们想触达世界上的每一个人。所以这部分很重要。

我觉得 3.0 Pro 至少……我今天早上和 Toldsee 聊天,她评论说这个模型对于像(历史上我们并不擅长的语言)来说非常出色,看到这一点真是太棒了。所以。

你必须持续地把重点放在其中一些领域,对吧?它们可能看起来不像是,哦,这是知识的前沿,但它们确实很重要,因为你想能够与那里的用户互动,因为正如我所说,这一切都是为了从用户那里获得信号。然后谈到更技术性的领域,函数调用、工具调用、智能体行动和代码,这些都非常重要,对吧?函数调用和工具调用很重要,因为我认为这是智能的一个完全不同的乘数,既来自于模型能够自然地使用我们自己创建的所有工具和函数,并在其自身推理中使用它们,也来自于模型编写自己的工具,对吧?你可以认为模型本身在某种程度上也是工具。所以这是一件大事。显然,代码很重要,不仅仅因为我们也面向工程师,也因为我们知道通过代码,你实际上可以构建在你笔记本电脑上发生的任何事情。而在你的笔记本电脑上,发生的不仅仅是软件工程。将任何想法变为现实,对吧?所以我们现在做的很多事情都发生在数字世界,而代码是这一切的基础,能够与发生在你生活中的任何事情整合,不是所有事情,但是很多事情。这就是为什么我认为这两者结合在一起,为用户构成了很大的覆盖范围。

我举一个网络编码的例子,我喜欢它。为什么?因为很多人有创造力。他们有想法,突然间你让他们变得高效,对吧?从有创意到高效,以一种你只需写下来,然后你就能看到应用程序在你面前呈现的方式,这就像,我的意思是,大多数时候它是有效的,当它有效时,那就太棒了,对吧?

我喜欢我们称之为循环的那个过程,我认为这很棒。所以突然间,让更多的人能够成为构建者,构建一些东西,我的意思是,这太棒了。

我喜欢。谢谢你,这是AI Studio 的宣传。我们会把这段剪出来放到网上。你提到的一个有趣的线索是,关于拥有这种产品脚手架从模型角度来帮助优化质量的重要性,显然。是的,工具调用和编码。

这对我来说非常重要。我认为。像 Anti Gravity 作为一个产品本身,是的,它令人兴奋,但从模型的角度来看,如果你考虑一下,它是双面的,对吧?我们先从模型的角度来谈。从模型的角度来看,能够与最终用户(在这种情况下是软件工程师)进行这种整合,并直接从他们那里学习,了解模型需要在哪些方面改进,这对我们来说确实至关重要。我的意思是,在像 Gemini 应用这样的领域,出于同样的原因,这也很重要,对吧?我的意思是,直接了解用户非常重要。Anti Gravity 也是如此。AI Studio 也是如此。

拥有这些我们紧密合作的产品,然后理解并学习,获得那些用户信号,我认为是非常巨大的。Anti Gravity 一直是一个非常重要的发布合作伙伴。他们加入的时间还不长,对吧?但在我们发布过程最后的 2、3 周里,他们的反馈确实起到了关键作用。搜索AI模式也是一样,对吧?我的意思是,AIO 评论,即使是从那里我们也得到了很多反馈。所以对我来说,与产品的这种整合以及获得信号是我们理解的主要驱动力。当然,我们有基准测试。所以我们知道如何推动科学、技术、数学等方面的智能。但真正重要的是,我们实际上理解现实世界的使用场景,因为我的意思是,这必须在现实世界中有用。

在你新的首席AI架构师角色中,你现在还负责确保我们不仅拥有好的模型,而且产品实际上能采用这些模型,并在谷歌范围内构建出色的产品体验。从DeepMind的角度来看,你认为这增加了多少复杂性?显然,我认为这对用户来说是正确的事情,在第一天就将 Gemini 3 应用到所有产品和服务中,对谷歌来说是一项了不起的成就。哦,希望未来能有更多的产品和服务。有时候,一年半前的生活更简单。

但就像我们正在构建智能一样。我身兼这两个角色,本质上它们的目标是一致的。如果我们要实现通用人工智能,就必须通过产品、通过与用户和生态的深度连接来完成。我的核心使命是确保谷歌的每款产品都能获得最先进的技术支持。我们并非要亲自打造产品——我们不是产品专家,而是技术开发者。我们专注于技术研发和模型构建。

当然,就像所有创作者都会坚持自己的理念那样,我们也有自己的技术主张。但对我来说,最重要的是以最优方式提供模型与技术,再与产品团队协同合作,共同打造这个AI时代最卓越的产品体验。

因为这确实是个全新的世界。这项新兴技术正在重塑用户预期,定义产品交互逻辑,决定信息呈现方式,并催生前所未有的应用场景。我的职责就是推动这项技术在全谷歌产品矩阵中的落地,与所有产品团队紧密协作。

这种深度融合让我倍感振奋——不仅源于产品创新带来的成就感,更因为它实现了我们最重要的目标:直连用户。能够实时感知用户需求、获取真实场景反馈,这对我们至关重要。正因如此,我坚信这就是通往通用人工智能的必经之路:通过产品化实现智能进化。是的,这就是我们选择的道路。

这对你来说是个很好的推文,可以在某个时候发出来,因为我觉得这很有趣。我分享这个人的观点,即在某种意义上,我们像是在与客户、与其他 PA 共同构建 AGI。这不像某个实验室的纯粹研究工作。这是与我们和世界共同的努力。

我认为这实际上也是一个非常值得信赖的建议系统,我认为我们越来越多地采用的一种非常工程化的思维模式。我认为在这件事上拥有工程思维很重要。因为当某样东西被很好地工程化时,你知道它是健壮的,使用起来是安全的。所以我们在现实世界中做的事情,我们正在以某种方式适应所有经过信任的、测试过的想法,关于如何构建东西。

我认为这反映在我们如何思考安全,如何思考安全,对吧?我们试图从工程思维的角度来思考,从基础开始,从最初就思考,而不是到最后才考虑的事情,对吧?我们不这样。所以当我们在进行模型后训练,当我们在进行预训练,当我们查看数据时,我们总是让每个人都需要思考这个问题。我们有一个安全团队吗?显然,我们有一个安全团队。他们带来了所有相关的技术,我们有一个安全团队,他们带来了所有技术,但让 Gemini 中的每个人也能积极参与那个开发过程,将这一点作为首要原则。而这些团队本身就是我们后训练团队的一部分,对吧?所以当我们在进行这些迭代,发布候选版本时,就像我们查看 gpqa、HLE 这类基准测试一样,我们也会查看其安全、安保措施。我认为,这种工程思维很重要。是的,我。

完全同意你的看法。我觉得这对谷歌来说也很自然,这也很有帮助,因为现在这项工作的协作规模和规模有多大。是的,将 Gemini 模型发布出去。我的意思是。

对于 Gemini 3,我想我们刚刚还在反思这一点。对我来说,重要的事情之一是,这个模型是一个非常团队谷歌的模型。

我们应该查一下数据。我可能像是,我的意思是,也许像阿波罗 NASA 计划有很多人参与,但我觉得这是庞大的谷歌全球团队,也包括我们所有团队的全球努力,才使之成为现实,这很疯狂。每一个。

每一代Gemini的发布,都凝聚着来自各大洲——欧洲、亚洲乃至全球各地团队的心血。我们的研发网络遍布世界,这不仅包括DeepMind团队,更是整个谷歌生态系统的通力协作。是的,这堪称一场全球规模的协同创新。

我们始终与AI模式保持同步迭代,与Gemini应用实现联动发布——这绝非易事。正因为这些团队从研发初期就深度参与,才能确保在模型准备就绪的第一时间,实现所有产品的同步升级。这套协同机制已成为我们的标准流程。

当我们说"全谷歌协同"时,指的不仅是核心研发人员,更是所有产品团队在各自领域的贡献——从搜索到办公套件,从云服务到移动生态,每个团队都在这个共同目标中扮演着关键角色。

我有一个问题,也许这不是一个有争议的问题,但你知道,Gemini 3 在许多基准测试上都是最先进的,我们在许多基准测试上都是同步发布,你知道,跨越谷歌产品界面,我们的合作伙伴生态系统界面。

反响非常积极。模型的氛围很好。如果你展望未来,我不知道,但愿顺利,如果我们展望到谷歌下一个主要模型发布,有没有什么事情是你仍然记在你的清单上的,你希望我们正在做 X,Y 的?那么,它如何能比 Gemini 3 更好?或者我们应该只是享受 Gemini 3 的时刻。

我们当然应该追求更多突破——但此刻更需要的是享受这个里程碑。发布日值得庆祝,看到用户对模型的认可,这本身就值得团队为之骄傲。

不过庆贺之余,我们始终保持清醒:每个领域都还有提升空间。写作能力尚未臻于完美,编程支持也有改进余地——特别是在智能体行为和代码生成领域,那里蕴藏着最令人兴奋的发展潜力。

必须承认,我们已经取得了长足进步。可以说,这个模型已经能满足90%到95%开发者的需求——无论是专业工程师还是创意创作者,它都堪称当前最出色的工具。但正因如此,我们更要对那剩余的5%保持专注,在那些还需要突破的领域持续精进。

关于编码和工具使用,我还有一个尖锐的问题。你认为什么?这只是,如果你回顾 Gemini 的历史,显然我们在 1.0 时非常关注多模态,我认为在 2.0 时我们开始做一些,是的,智能体基础设施的工作,请给我们讲讲为什么我们。我补充说明一下,我认为进展速度看起来非常强劲,但是,为什么我们从一开始就没有像在多模态方面那样,持续稳定地关注智能体工具使用?例如,多模态方面,我们从 Gemini 1 开始就是最先进的,并且在多模态方面我们保持了很长时间。

我喜欢,我不认为这是有意为之。我认为这就像是,老实说,当我回顾时,我把它与使用模型、开发环境紧密联系现实世界联系起来,我们联系得越紧密,我们就越能更好地理解这些真实的需求。

我认为在我们 Gemini 的旅程中,我们从一个起点开始,当然,我的意思是,谷歌的AI研究有着悠久的历史,对吧?我们拥有的惊人研究人员数量,以及在谷歌进行的AI研究的惊人历史。我认为这很棒。

但 Gemini 也是一段从那个研究环境转向这个,就像我们谈论的这种工程思维,并进入一个我们真正与产品相连的空间的旅程,对吧?当我审视团队时,我不得不说我感到非常自豪,因为这个团队仍然主要由像我这样的人组成,对吧?就像五年前,我们还在写论文。我们在研究 AI。而现在我们实际上处于那个技术的前沿。而那个技术,你正在通过产品、与用户一起开发它,这是一个完全不同的思维模式,我们每六个月构建一次模型,然后每一个半月进行一次更新。这是一个惊人的转变。我认为我们走过了那个转变。

我喜欢那个。Gemini 的进展非常棒。另一个进一步考虑的是,我们总体上如何看待生成式媒体模型,我认为历史上它们并不是一个巨大的重点,我的意思不是它们没有被关注,它们一直都有趣。但我觉得随着 VO3、Vo 3.1,以及 Nano 和 Ada 模型,我们从产品外部化的角度来看取得了如此大的成功。我很好奇你如何看待在追求我们想要构建 AGI 的过程中。是的,我认为有时我能说服自己,一个视频模型不是那个故事的一部分。我不认为这是真的。我认为总的来说,你应该理解世界、物理学等等其他东西。所以我很好奇你如何看待所有这些事情交织在一起,如果你。

实际上回溯10到15年前,生成式模型主要集中在图像领域。因为当时我们能更直观地检验模型效果,而且对世界和物理规律的理解是推动图像与声音生成模型发展的主要动力。大约十年前——现在感觉都像二十年前了——我们还在专注于图像模型。我读博时就在研究生成式图像模型,那时候这个领域非常活跃。

我们经历了完整的发展周期,比如像PixelCNN这类代表性工作,本质上都是图像生成模型。

后来我们意识到,文本领域其实能带来更快速的技术突破。但现在图像模型的回归完全符合发展规律。DeepMind长期以来在图像、视频、音频模型方面积累了深厚的技术底蕴。这正是我想说明的:将这些模态融合是自然演进的结果。

我们现在明确朝着多模态方向发展——包括输入和输出的多模态融合。随着技术进步,不同领域间的架构理念正在相互渗透。这些原本差异显著的架构正变得越来越兼容,这不是生硬地拼凑,而是技术发展的自然收敛。当大家意识到效率提升的路径和理念演进的方向时,技术路线就会自然融合。

Nano的诞生就是这个融合过程的典型例证:你既能对图像进行迭代处理,又能与模型直接对话。文本模型通过语言数据构建了对世界的认知,而图像模型则从视觉维度形成了另一种世界理解。当两者结合时,就会产生令人惊喜的效果——用户能明显感受到模型真正理解了那些难以言传的细微意图。

关于 Nano,我还有一个问题。Vanessa,你认为我们应该给我们所有的模型都起些傻傻的名字吗?你觉得这会有帮助吗?

不完全是。听着,我的意思是,我认为我们不是故意的。Gemini 3。

如果我们不叫它 Gemini 3,我们会叫它什么?一些荒谬的名字。

我不知道。我不擅长起名,对吧?我想我喜欢,我的意思是,这是一个更新,对吧?就像更新一样,我们实际上使用 Gemini 模型。那些是代号。我们也使用 Gemini 模型来想出那些代号。而 Nano Banana 不是其中之一。对吧?我们没有使用 Gemini,有一个关于它的故事。我想已经发表在某个地方了。我的意思是,只要这些事情是自然的、有机的,我认为我就很高兴,因为我认为构建模型的团队,对他们来说有那种联系是好事。然后当我们发布它们时,我想那就像,我的意思是,那发生是因为我们用代号在 Ella Marina 上测试模型,人们很喜欢它。我想,我不知道,我愿意认为它是如此有机,以至于就流行起来了。我不确定是否能创建一个流程来生成那种名字。

我同意你的看法。那是我的感觉。

所以如果我们有,我们就应该用它。如果你没有,有标准的东西是好的。

我们应该谈谈 Nano Banana Pro,这是我们基于 Gemini ro 构建的新一代最先进的图像生成模型。我认为团队,我认为实际上甚至在他们完成Nano Banana的时候,就已经有早期信号表明。 以 Pro 的形式来做这件事,就像你可以在更多细微的使用场景上获得更多性能,比如文本渲染和世界理解等等。有什么特别值得关注的,我知道有很多事情正在进行,但我觉得像。

这可能就是我们看到这些不同技术对齐的地方开始发挥作用,对吧?我的意思是,因为对于 Gemini 模型,我们一直说每个模型版本都是一个模型家族,对吧?我们有 Pro、Flash、flashlight,像这样的模型家族。因为在不同规模下,你在速度、准确性、成本等方面有不同的权衡。随着这些东西融合,当然,我们在图像方面也有同样的经验。所以我认为团队自然想到,好吧,有 3.0 Pro 架构,我们实际上更多地调整这个模型,利用我们在第一个版本中学到的一切,并增大规模,使其成为生成式图像模型。

我认为我们最终得到的是一个能力更强得多的模型,能理解非常复杂的,像一些最令人兴奋的使用场景是,你有一套非常复杂的文档,你可以把它们输入进去。我们依靠这些模型来提问。你也可以要求它生成一个关于那些内容的信息图。然后它就能工作,对吧?所以这就是自然的输入模态、输入输出模态发挥作用的地方。这很棒。

是的,感觉像魔术。我不知道。希望当这个视频发布时,大家已经看到了例子。但是,是的,只是看到很多内部例子被分享出来,这太酷了。是的,太疯狂了。

是的,我同意。就像,当你看到突然间,哦,我的天。是的,如此大量的文本、概念和复杂的东西以一张图片如此美妙的方式解释出来。当你看到那些东西时,就像,这很好,对吧?你意识到模型是有能力的。

而且,是的,其中还有如此多的细微差别,这真的很有趣。我对此有一个平行的问题,可能是在去年 12 月,2024 年 12 月。Tulsi 承诺我们将如何拥有这些统一的 Gemini 模型检查点。我认为你所描述的是,实际上我们现在已经非常接近那个目标了,就像历史上架构是分开完成的。

统一是指在图像生成方面。我明白了。

我很好奇,你认为像那样。我假设那是一个目标,就像我们希望这些东西实际上能整合到模型中。有些事情会自然阻止这种情况发生。我很好奇,有没有任何背景或高层次的原因。

听着,我认为正如我所说,技术、架构正在对齐,对吧?所以我们在定期的迭代中看到这种情况发生。人们在尝试,但这只是一个假设。你可以在这方面基于意识形态,对吧?科学方法就是科学方法。我们尝试事物,我们有一个假设,然后你看结果。有时有效,有时无效。这就是我们经历的进程。它越来越接近了。我很确定在不久的将来,我们会看到一些东西融合在一起。我认为逐渐地,它会越来越像一个单一的模型。

但这确实需要大量的创新,对吧?这很难。如果你想一想,输出空间对模型来说非常关键,因为那是你学习信号的来源。现在,我们的学习信号来自代码和文本。那是输出空间的大部分驱动力。这就是为什么你现在在那里变得擅长。现在能够生成图像是……我们对图像质量的要求是如此之高。这是一件很难做的事情,对吧?生成真正像图像质量那样的,像素级的完美是困难的。而且图像在概念上也必须非常连贯,就像每个像素,质量很重要,但它如何与图片的总体概念相契合也很重要。这很重要,对吧?训练一个能做到这些的东西更难。但我看待这个问题的方式是,对我来说,我认为这绝对是可能的。它将会成为可能。这只是关于在模型中找到正确的创新来实现它。

我喜欢。我很兴奋。希望这也能让我们的服务情况更容易一些。如果。

我曾经说过我不知道。

一个单一的模型检查点。

这不可能说。

这是不可能的。我同意你的看法。当我们坐在这里时,一个有趣的线索是,你知道,DeepMind 拥有一堆世界上最好的AI产品,希望是 5 个编码和AIStudio、Gemini 应用、Anti Gravity,并且现在正在谷歌范围内发生。我们有一个很棒的最先进的模型,Gemini 3。我们现在有 banana,有 view,所有这些模型都处于前沿。世界在 10 年前甚至 15 年前看起来非常不同。我有点好奇,就你个人的旅程而言,到达这一点,你,我们昨天聊天时,你提到了,我完全不知道,我跟另一个人提到了,他们也不知道,你是DeepMind的第一位深度学习研究员。我认为把这个线索带到我们现在所处的地方,感觉是一个疯狂的跳跃,从人们不热衷于这项技术开始,我不知道你多久前加入DeepMind 的,大概 10 年。

12 年。

12,13 年。是的,那太疯狂了。13 年前,人们不热衷于这项技术,到现在我们,它实际上正在为所有这些产品提供动力,并且是主要的事情。我很好奇,当你反思这一点时,你想到什么?是令人惊讶还是,它很明显?嗯,我。

意思是,我认为这是我们案例中充满希望的积极结果,对吧?我这样说是因为,当我读博士时,我想每个读博士的人都是一样的。你相信你所做的事情是重要的,或者将会变得重要,对吧?你对那个主题真正感兴趣,你认为那将产生巨大影响。我认为我当时也是同样的心态。这就是为什么当 Dennis 和 Shane 联系我,我们交谈时,我对DeepMind感到非常兴奋。我真的很兴奋地了解到,有一个地方真正专注于构建智能,而深度学习是其核心。实际上就像我和我的朋友 Carol Gregor,我们当时都在 NYU 的 Youngslab,我们同时加入了DeepMind。只是说得非常具体。那时候,拥有一家以深度学习为重点、AI 优先的初创公司是非常不寻常的。是的,我认为那非常有远见,也是一个令人惊叹的地方。那里真的很令人兴奋。然后我开始了深度学习团队,它成长了。我认为我喜欢的事情之一是,我的意思是,我对深度学习的方法一直是,你如何处理问题的思维模式。首要原则,它总是基于学习。这就是DeepMind的意义所在。一切都通过学习变得更好。从我们当时所处的位置开始,是一段激动人心的旅程。

然后是强化学习、智能体以及我们一路走来所做的一切,就像你进入这些事情,至少这是我认为我进入这些事情的方式,希望有一个积极的结果发生。我反思并说我们很幸运,对吧?我们很幸运生活在这个时代,因为我认为很多人研究AI或他们真正热衷的主题,但认为这是他们的时代,这是它将取得成功的时候,但它现在正在发生。我们必须意识到AI现在正在发生,不仅仅是因为机器学习和深度学习,也因为硬件演进已经达到某种状态。互联网和数据已经达到某种状态,对吧?所以有很多事情协同一致,我觉得很幸运能真正从事AI并工作到这个时刻。我认为这就像当我反思这一点时,我感觉,是的,它们都是选择,就像我们研究 AI,我们做出了,我做出了那个特定的选择来研究 AI,但与此同时,我也觉得非常幸运,在这个时代我们处于这个位置。这非常令人兴奋。

是的,我也有同感。我很好奇,有哪些,我在看 thinking game 视频,我没有参与 alpha fold。所以我所拥有的唯一背景就是阅读关于它的资料和听人们谈论它。我很好奇,当你回顾经历了其中很多事时,今天的情况与以前有何不同。我给你举一个例子,就是你刚才在镜头外提到的,也就是,这不完全是你的原话,但大意是,我们已经弄明白了如何制作这些模型并将它们带给世界。这基本上就是你想表达的意思,我同意。我很好奇这是否感觉像,是的,这与之前一些迭代的情况有何相似或不同之处,我认为。

如何组织或文化特质,关于什么是重要的,倾向于成功,将困难的科学和技术问题转化为成功的成果。我认为我们通过所做的许多项目学会了这一点,从 DQN、Alpha GO、Alpha zero、alpha fold 开始,所有这些事情在它们的方式上都相当有影响力,我们学会了很多关于如何围绕特定目标、特定使命组织起来,组织成一个大型团队,对吧?

就像我记得在DeepMind的早期,我们一个项目会有 25 个人一起工作,我们会和 25 个人一起写论文。然后每个人都会对我们说,肯定不是 25 个人一起做的这个。我会说,不,他们确实做了,对吧?我的意思是,我们会组织起来,因为在科学和研究中,那并不常见,对吧?我认为那种知识,那种心态,是关键。

我们通过那个过程进化。我认为那非常重要。与此同时,我认为在最近的两三年里,正如我们谈到的,我们所融合的。但我们与之融合的是这样一种观念,即现在这更像是一种工程思维,我们有一条正在开发的主线模型。我们学会了如何在这个主干上进行探索,如何用这些模型进行探索。

一个好的例子,我每次看到或想到这个,都感到相当高兴,就是我们的模型。那些是我们带去参加 IMO 竞赛、ISBC 竞赛、ICPC 竞赛的模型。我认为这是一个非常酷和好的例子,因为我们在进行探索,你选择这些大目标,竞赛非常重要,对吧?那是非常难的问题,而且,像向所有在那里竞争的学生致敬。真的很棒。能够在那里建模。当然,你有冲动为那个比赛做一些定制的东西。我们尝试做的是,利用那个机会来进化我们已有的东西,或者提出与我们已有模型兼容的新想法,因为我们相信我们所拥有技术的通用性。然后我们做出一些东西,然后让每个人都能使用,对吧?所以每个人都可以使用一个实际上是在 IMO 竞赛中使用的模型。

是的,只是把你说的 25 个人在论文里的事情做个类比。我想现在的版本是,你看,我肯定会有,会有一个 Gemini 3 贡献者列表出来。然后我肯定人们会保守地说,是的,我肯定人们会认为不可能有 25 个人真正做出了贡献,但他们确实做了,这很疯狂,而且看到这些问题的规模有多大,真是令人着迷。

现在。是的,领域。我认为这对我们很重要。这也是谷歌的伟大之处之一。有那么多人在他们的领域是惊人的专家。我们从中受益。谷歌 有这种全栈方法,对吧?我们从中受益。所以你拥有从数据中心到芯片,到网络,到如何大规模运行这些东西的每一层的专家,对吧?所有这些都达到了一种状态,再次谈到这种工程思维,达到了一种状态,即这些东西是不可分割的,对吧?当我们设计一个模型时,我们设计它时知道它将运行在什么硬件上。而我们设计下一个硬件时,知道模型可能会去向何方。

但这很美妙,对吧?我的意思是,但协调这个,是的,当然,你有成千上万的人一起工作和贡献。我认为我们需要认识到这一点。这是一件美好的事情。太棒了。

这并不容易做到。一个有趣的线索是关于回到这种 DeepMind 的传承,sort of 做所有这些不同的科学方法,试图解决这些非常有趣的问题。而在今天,我们实际上知道这项技术在一堆领域是有效的,我们真的只需要继续扩大规模,,而且显然,需要创新来继续这样做。但我很好奇,你如何看待Deepmind在当今时代,平衡,你知道,纯粹进行科学探索与 我们只是试图扩大 Gemini 的规模,也许我们可以用我最喜欢的例子,Gemini diffusion,作为 那种决策制定在某种程度上的具体体现。

这确实是最关键的命题——如何在探索与落地之间找到平衡。每当被问及Gemini面临的最大风险,我的答案始终如一:创新的枯竭才是我们真正的隐忧。

我从不认为我们已经掌握了终极配方,更不相信仅靠机械执行就能抵达终点。构建通用人工智能的道路上布满荆棘,用户和产品会带给我们层出不穷的挑战。那个终极目标依然遥不可及,我坚信不存在所谓的"标准化解决方案",认为靠简单扩大规模或优化流程就能实现突破是危险的错觉。

真正的突破永远来自创新——它可能诞生于对现有技术的深度挖掘,也可能迸发于完全不同的技术路径。保持这种多维度的探索能力,才是我们最核心的竞争力。

当然,我们有 Gemini 模型,在 Gemini 项目内部,我们探索很多。我们探索新的架构,我们探索新的想法,我们探索不同的做事方式。我们必须这样做。我们继续这样做,这就是所有创新的来源。但 同时,我认为 DeepMind 或谷歌DeepMind 作为一个整体在进行更多的探索。我认为这对我们非常关键。我们必须做那些事情,因为 ,再次,可能有一些事情 Gemini 项目本身可能限制太多,无法探索一些事情。所以 ,我认为我们能做的最好的事情就是在谷歌DeepMind,也在谷歌Research,对吧?我们会探索各种各样的想法,然后我们会把这些想法带进来,因为归根结底,Gemini 不是那个架构,对吧?Gemini 是你想要实现的目标。是智能,你想通过你的产品来实现它,让所有谷歌都能真正运行在这个AI引擎上。在某种程度上,具体是什么架构并不重要。我们目前有某种东西,我们有方法通过它来进化,我们将通过它来进化。而它的引擎将是创新。它将永远是创新。所以找到那种平衡,或者找到以不同方式做那件事的机会,我认为非常关键。

对此有一个平行的问题,就是在 I/O 大会上,我和 Sergei 坐下来聊了聊,我向他评论说,我个人在 I/O 大会上也有这种感觉,就是把所有人聚集在一起发布这些模型并进行创新。当你这样做时,你会感受到人性的温暖,这真的很有趣。我提到这个是因为,你知道,我当时也坐在你旁边听他们讲话,我感受到了你的温暖。我这么说非常个人化,因为我认为这反映了 DeepMind作为一个整体的运作方式,对吧?我觉得 Dems 也有这个特点,就是它有深厚的科学根基,但同时也只是 人们都很友善和友好。有一个有趣的地方是,,我不知道人们有多欣赏 这种文化有多重要,以及它是如何体现的。我很好奇,当你思考 ,帮助塑造和运行这个时,那种,是的,那种情况是如何体现的。

首先,我的意思是,非常感谢,你让我不好意思了,但是 ,我认为重要的是要。我相信我们拥有的团队,我相信给予人们,信任人们,给予人们机会。团队合作很重要。我认为 这至少对我来说,我可以说通过在 DeepMind 工作也学到了。因为 我们是一个小团队,当然 ,这就像你在那里建立了那种信任,然后 当你成长时,你如何保持那种信任?

我认为拥有这样的环境很重要:让人们感觉,好吧,我们真的关心解决那些具有挑战性的技术科学问题,这些问题能对现实世界产生重要影响。我认为这仍然是我们正在做的事情,对吧?就像 Gemini,正如我所说,是关于构建智能,这是一个高度技术性、具有挑战性的科学问题。我们必须以那种方式对待它。我们也必须以那种谦逊的态度对待它,对吧?我们必须始终质疑自己。希望团队也有同样的感觉。我就像,这就是为什么我一直说,我为团队能够如此出色地一起工作感到非常自豪。

那个铃声,就像我们今天在楼上微型厨房聊天时那样,对吧?我的意思是,我对他们说,是的,这很累。是的,这很难。是的,我们都筋疲力尽了。但事情就是这样。我们没有一个完美的结构来做这件事。每个人都在聚在一起,共同努力,互相支持。这很难。但是,让它变得有趣、愉快,并且让你能够解决真正难题的,我认为在很大程度上是让合适的团队聚在一起,共同工作。在我看来,负担更像是要清楚地了解我们所拥有技术的潜力。我绝对可以说,20年后绝不会是完全相同的 LLM 架构。我确信不会,对吧?所以我认为推动新的探索是正确的做法。我们谈到,像 GDM 作为一个整体,与谷歌研究 一起,我们必须与学术研究界共同推进许多不同的方向。我认为这很完美。定义什么是对,什么是错,就像,我不认为那是重要的对话。我认为能力以及这些能力在现实世界中的展示才是真正能说明问题的东西。

我最后一个问题是,我也很好奇你对此的反思。就我个人而言,我觉得我在谷歌的头一年半多的时间里,感觉(我其实挺喜欢这种感觉的)在某种程度上像是谷歌的逆袭故事,你知道,尽管有所有基础设施优势等等,但就我个人而言,展示出像。

四月。

2024年4月。所以就像,对于我和AIStudio 的背景来说也是如此。就像我们在构建这个产品,然后,哦对了,现在我记起来了,我们当时没有用户。我们有,或者说我们有 3 万用户。我们没有收入。我们,是的,在 Gemini 模型生命周期的早期阶段。我想快进到今天,显然不像前几天模型开始推出时我收到一大堆提醒。你知道,来自生态系统各处的朋友们,我相信你也收到了很多。人们 非常,我想他们终于真正意识到 这正在发生。但我从你的角度来看很好奇,你当时是否也感受到了那种逆袭的感觉?我再次强调,我有信念,这就是我加入谷歌的原因,我们会达到这个点。但是 ,你是否也感受到了那种逆袭的感觉?我很好奇,你认为团队在我们转过这个弯之后,那种感觉会如何体现?

确实有这种感觉,甚至在那之前就有了。因为当LLM真正展现出强大实力的时候,我非常坦诚地觉得,我们曾经是前沿AI实验室,在DeepMind。但与此同时,我也意识到,我们在某些方面的投入还不够。这对我来说是个重要的教训,这就是为什么我总是很谨慎,我们需要广泛布局。这真的很重要。探索很重要,不在于执着于某个特定架构。

我一直对团队保持完全透明。大约两年半前,当我们开始更认真地对待LLM并启动Gemini项目时,我就明确告诉团队:我们距离业界顶尖水平还有很大差距。

我们有很多不知道怎么做的事情。即使是我们知道怎么做的事情,也还没有做到最好。这就是一场追赶。在很长一段时间里,我们都在奋力追赶。现在我觉得我们已经跻身领先阵营了。是的,我对我们的运营节奏感到满意和积极。我们形成了良好的工作节奏和团队动态。

是的,我们一直在追赶。你必须对自己诚实,对吧?在追赶的过程中,你必须关注别人在做什么,学习你能学到的东西。但最终你必须走自己的创新之路。这就是我们所做的。

这就是为什么我觉得这本质上是一个很好的逆袭故事,对吧?我们坚持自主创新,找到了自己的解决方案 - 无论是在技术、模型、流程还是运营方式上,对吧?这对我们来说是独一无二的,对吧?我们与整个谷歌协同运作,看看我们现在在做的事情,这是一个完全不同的规模。

我从不认同有些人说的"谷歌太庞大,太难推动"这种观点。我认为我们可以把这转化为优势,因为我们有独特的资源和能力。所以,我对我们现在的位置相当满意,但这是通过不断学习和创新才实现的。这是达成目前成就的正确方式。而且,我们还有很长的路要走,对吧?我的意思是,我觉得我们才刚刚赶上。我们才刚刚到达这个位置。虽然总会有比较,但我们的目标是构建真正的智能,对吧?我们想要实现这个目标,而且要以正确的方式实现。这就是我们投入全部智慧和创新力的方向。

我觉得未来六个月很可能会和过去六个月一样精彩。现在回想半年前的那次访谈,感觉已经过去很久了。非常感谢您今天抽空进行这场对话,交流过程非常愉快。

希望明年I/O大会前能再次与您深入交流。虽然现在感觉还有很长时间,但时间总是过得飞快。而且我猜,可能下周就要开始筹备I/O 2026的规划会议了。

衷心感谢您拨冗参与这次对话。同时,我要向您、DeepMind团队以及所有模型研究人员表示祝贺,感谢你们让Gemini 3、Nano Banana Pro等创新成果得以实现。谢谢大家。

非常感谢。进行这次谈话真是太棒了。非常感谢你邀请我。

评论
大家都在看