逼得奥特曼紧急掏出 GPT-5.2，Gemini 3 凭什么逆风翻盘

「这确实是一个很棒的逆袭故事。」

11 月 19 日凌晨，Gemini 3 的发布彻底打破了平淡。上线当日，全球访问量便突破 5400 万次，创平台历史新高。

Google 这一次王者归来，震感甚至直接传导到了竞争对手的神经中枢。据 The Information 报道，面对 Google 步步紧逼的攻势，OpenAI CEO Sam Altman 本周一紧急在内部备忘录中宣布公司进入「红色警戒（code red）」状态，准备调动一切战略资源对 ChatGPT 的能力进行大幅升级。

据 The Verge 援引知情人士消息称，OpenAI 计划最早于下周初发布 GPT-5.2 模型，这一时间表较原定的 12 月下旬计划大幅提前。

这不仅侧面印证了 Gemini 3 带来的压迫感，也让接下来的对话显得更加意味深长。

近日，DeepMind CTO、Google 新任首席 AI 架构师 Koray Kavukcuoglu 在 Logan Kilpatrick 的访谈节目中亮相，他说「我们曾是追赶者，但创新是唯一的出路。」

亮点速览：

1. Koray Kavukcuoglu 强调，Gemini 的优化重点集中在以下几个关键领域：

指令遵循：确保模型能准确理解并执行用户的具体需求，而非随意生成内容。

国际化：提升多语言支持能力，确保全球用户都能获得高质量体验。

代理与工具能力：模型不仅能自然使用我们已有的工具和函数，还能自主编写工具。

2. Gemini 3 是一款「全 Google 团队协作的模型」。来自欧洲、亚洲等世界各地的团队都做出了贡献，不仅有 DeepMind 团队，还有 Google 各个部门的团队。

3. 随着技术进步，文本模型和图像模型的架构、理念正在不断融合。过去，两者的架构差异很大，但现在越来越趋同。这是技术自然演进的结果：大家都在探索更高效的方案，理念逐渐统一，最终形成了共同的发展路径。

视频链接：

https://youtu.be/fXtna7UrL44?si=A5xEGWGeEM4EEDhp

以下为完整内容的转录和翻译。(顺序有改动)

基准测试只是第一步，用户反馈是 Step Two

Logan Kilpatrick: 大家好，欢迎回到 Release Notes。我是 Logan Kilpatrick，我在 DeepMind 团队。今天很荣幸邀请到 DeepMind 的 CTO、Google 的新任首席 AI 架构师——Koray。Koray，感谢你的到来，期待与你深入交流。

Koray Kavukcuoglu: 我也很期待。谢谢邀请！

Logan Kilpatrick: 当然，Gemini 3 已经发布。我们此前就预感这款模型会表现出色，基准测试结果也非常亮眼，但真正将它交到用户手中后，实际反响……

Koray Kavukcuoglu: 这才是最终的考验。基准测试只是第一步，之后我们也做了大量测试，包括让可信测试者参与预发布体验等。所以我们能感受到这是一款优秀的模型，能力出众，虽然不完美，但用户的反馈确实让我很满意。

大家似乎很喜欢这款模型，而且我们觉得有意思的部分，他们也同样感兴趣。所以目前来看挺好的，一切都很顺利。

Logan Kilpatrick: 没错，我们昨天还在聊，核心话题就是感慨 AI 的发展速度从未放缓。回想上次，也就是去年 I/O 大会上我们发布 Gemini 2.5 时，听着演示、Serge 谈论 AI 的未来，当时就觉得 2.5 已经是最先进的模型，在多个维度上都突破了前沿。而现在，Gemini 3.0 再次实现了突破。我很好奇，关于「这种进步能否持续」的讨论一直存在，你现在的看法是什么？

Koray Kavukcuoglu: 我对目前的进展和研究都充满信心。身处研究一线，你会发现各个领域都洋溢着创新的热情，从数据、预训练、微调，到每一个环节，都有大量新想法、新突破涌现。

归根结底，这一切都依赖于创新和创意。当我们的技术能切实影响现实世界、被人们广泛使用时，我们能获得更多反馈信号，接触面也会扩大，进而催生更多灵感。

而且我认为，未来的问题会更复杂、更多元，这会带来新的挑战，但这些挑战是有益的，也是推动我们迈向通用智能的动力。

有时候，如果你只看一两个基准测试，可能会觉得进步放缓了，但这很正常。基准测试是在某个技术难题凸显时设立的，随着技术发展，它不再是前沿的代名词，这时就需要制定新的基准。

这在机器学习领域很常见：基准测试与模型开发是相辅相成的，基准测试指导模型迭代，而只有接近当前前沿，才能明确下一个目标，进而制定新的基准。

Logan Kilpatrick: 我完全认同。比如早期的 HLE 基准测试，所有模型的正确率都只有 1% 到 2%，而现在 DeepMind 的最新模型已经能达到 40% 左右，这太惊人了。ArcGIS 基准测试最初也几乎没有模型能应对，现在正确率也超过了 40%。

不过有些静态基准测试确实经受住了时间的考验，比如 GPQA Diamond，虽然我们现在只能一点点提升 1% 左右的正确率，但它依然被广泛使用，可能已经接近饱和了。

Koray Kavukcuoglu: 这些基准测试中确实有很多难题，我们目前还无法完全攻克，但它们依然具有测试价值。以 GPQA 为例，我们没必要追求 90% 以上的极致正确率，现在已经接近目标了，所以尚未解决的问题数量自然在减少。

因此，寻找新前沿、制定新基准至关重要。基准测试是衡量进步的一种方式，但并非绝对对齐。理想情况下两者完全一致，但现实中永远无法完全契合。

对我来说，衡量进步最重要的标准是：我们的模型是否在现实世界中被广泛使用？科学家、学生、律师、工程师是否在用它解决问题？人们是否用它进行写作、收发邮件等？无论简单还是复杂，能在更多领域、更多场景中持续为用户创造更大价值，这才是真正的进步。而基准测试只是帮助我们量化这种进步的工具。

Logan Kilpatrick: 我有一个不算争议性的问题：Gemini 3 在众多基准测试中表现出色，同步登陆 Google 所有产品端和合作伙伴生态，用户反馈也非常积极。如果展望下一次 Google 重大模型发布，你觉得还有哪些方面是我们需要改进的？比如「我们希望能在 X、Y、Z 方面做得更好」，还是说我们应该先享受 Gemini 3 带来的成果？

Koray Kavukcuoglu: 我觉得两者可以兼顾。我们应该享受当下，毕竟发布日值得庆祝，团队也应该为自己的成就感到自豪。但与此同时，我们也清楚地看到，模型在各个领域都存在不足：写作能力并不完美，编码能力也有提升空间。

尤其是在智能体行动和编码方面，还有很大的进步空间，这也是最令人兴奋的增长领域。我们需要找出可以优化的方向，然后持续改进。我认为我们已经取得了长足的进步：对于 90% 到 95% 的编码相关用户（无论是软件工程师，还是想构建产品的创意人士）来说，Gemini 3 可能是目前最好用的工具，但确实还有一些场景需要进一步优化。

从「有创意」变得「能落地」

Logan Kilpatrick: 你如何看待「逐步优化」？比如从Gemini 2.5 到 3.0，或者其他版本迭代中，我们的优化重点是什么？如今基准测试数量繁多，我们如何选择优化方向，无论是针对整个 Gemini 系列，还是专门针对 Pro 版本？

Koray Kavukcuoglu: 我认为有几个关键领域至关重要。首先是指令遵循能力。模型需要准确理解用户需求并执行，而不是随意输出答案，这是我们一直重视的方向。其次是国际化。 Google 的业务遍布全球，我们希望让全世界的用户都能用上这款模型。

Logan Kilpatrick: 确实，我今天早上还和 Tulsi 聊过，她提到这款模型在一些我们过去表现不佳的语言上，表现得非常出色。

Koray Kavukcuoglu: 这真的很棒。所以我们必须持续聚焦这些领域，它们可能不是知识前沿，但对用户交互至关重要。正如我之前所说，我们需要从用户那里获取反馈信号。

再说到更技术化的领域，函数调用、工具调用、智能体行动和代码能力也极为关键。

函数调用和工具调用能极大提升模型的智能乘数效应：模型不仅能自然使用我们已有的工具和函数，还能自主编写工具。本质上，模型本身也是一种工具。

代码能力之所以重要，不仅因为我们团队中有很多工程师，更因为代码是数字世界的基础。无论是软件开发，还是将任何想法变为现实，代码都不可或缺。它能让模型与人们生活中的诸多场景深度融合。

我举个例子，比如「即时编码」（vibe coding），我很看好这个功能。很多人富有创造力，但缺乏将想法落地的能力，而即时编码能让他们从「有创意」变得「能落地」：只需写下想法，就能看到对应的应用程序呈现在眼前，而且大多数时候都能正常运行。

这种从创意到产品的闭环非常棒，它让更多人有机会成为创造者。

Logan Kilpatrick: 太赞了！这简直是 AI Studio 的完美宣传点，我们会把这段剪辑出来发布到网上。你刚才提到的一个重要话题是，在 Gemini 3 发布之际，我们同步推出了 Google Anti-gravity 平台。从模型角度来看，你认为这种产品架构对提升模型质量的重要性有多大？显然，这和工具调用、编码能力息息相关。

Koray Kavukcuoglu: 对我来说，这至关重要。平台本身确实令人兴奋，但从模型角度看，这是双向作用的。首先，模型能通过与终端用户（指软件工程师）直接集成，获取他们的反馈，进而明确模型需要改进的方向，这对我们来说至关重要。

就像 Gemini、AI Studio 一样，Anti-gravity 平台也是如此。这些产品能让我们与用户紧密相连，获取真实的反馈信号，这是巨大的财富。Anti-gravity 平台作为我们的关键发布合作伙伴，虽然加入时间不长，但在过去两三周的发布筹备中，它的反馈起到了决定性作用。

搜索 AI 模式（AI Mode）也是如此，我们从那里获得了大量反馈。基准测试能帮助我们推动科学、数学等领域的智能提升，但了解现实世界的使用场景同样重要，模型必须能解决实际问题。

Gemini 3，一款全 Google 团队协作的模型

Logan Kilpatrick: 在你担任新任首席 AI 架构师后，你的职责不仅是确保我们拥有优秀的模型，还要推动产品团队将模型落地，在 Google 的所有产品中打造出色的用户体验。 Gemini 3 在发布当天就同步登陆 Google 所有产品端，这对用户来说是巨大的惊喜，也希望未来能覆盖更多产品。从DeepMind 的角度来看，这种跨团队协作是否增加了额外的复杂性？毕竟一年半前，事情可能还简单得多。

Koray Kavukcuoglu: 但我们的目标是构建智能，对吧？很多人问我，身兼 CTO 和首席 AI 架构师两个职位，会不会有冲突，但对我来说，这两个角色本质上是一致的。

要构建智能，就必须通过产品与用户的联动来实现。我的核心目标是确保 Google 的所有产品都能用上最先进的技术。我们不是产品团队，而是技术开发者，我们负责研发模型和技术，当然，我们也会对产品有自己的看法，但最重要的是，以最佳方式提供技术支持，与产品团队合作，在 AI 时代打造最优秀的产品。

这是一个全新的时代，新技术正在重新定义用户期望、产品行为和信息传递方式。因此，我希望能在 Google 内部推动这种技术赋能，与所有产品团队合作。这不仅对产品和用户有益，对我们自身也至关重要。

只有贴近用户，才能感受到他们的需求，获取真实的反馈信号，这是推动模型迭代的核心动力。这就是我们构建通用人工智能（AGI）的方式：通过产品与用户共同成长。

Logan Kilpatrick: 我完全认同。这简直可以作为你的推特文案了！我也觉得，我们本质上是在与客户、合作伙伴共同构建通用人工智能（AGI）——这不是某个实验室的孤立研究，而是与全世界共同推进的联合事业。

Koray Kavukcuoglu: 我认为这也是一个「可信测试体系」——我们越来越强调工程思维。这种思维很重要，因为精心设计的系统才会更稳健、更安全。

我们在构建现实世界的产品时，借鉴了很多「可信测试」的理念，这体现在我们对安全、隐私的重视上：我们从一开始就将安全隐私作为核心原则，而不是事后补充。

无论是预训练、微调，还是数据筛选，团队中的每个人都需要考虑安全问题。我们当然有专门的安全团队和隐私团队，他们会提供相关技术支持，但我们更希望 Gemini 团队的每个人都深度参与其中，将安全隐私融入开发的每一个环节，这些团队本身也是微调团队的一部分。

因此，在模型迭代、发布候选版本时，我们不仅会参考 GPQA、HLE 等基准测试结果，还会严格审查安全隐私指标。这种工程思维至关重要。

Logan Kilpatrick: 我完全同意。这也很符合 Google 的企业文化，毕竟，发布 Gemini 模型是一项需要全球团队协作的庞大工程。

Koray Kavukcuoglu: 说到 Gemini 3，我觉得最值得一提的是，它是一款「全 Google 团队协作的模型」。

Logan Kilpatrick: 我们可以看看相关数据，这可能是史上参与人数最多的项目之一，就像 NASA 的阿波罗计划一样，这是一项全球性的庞大工程。

Koray Kavukcuoglu: 没错，是全球性的。

Logan Kilpatrick: Google 所有团队都参与其中，这太不可思议了。

Koray Kavukcuoglu: 来自欧洲、亚洲等世界各地的团队都做出了贡献，不仅有 DeepMind 团队，还有 Google 各个部门的团队。这是一项巨大的集体努力：我们与 AI 模式（AI Mode）、Gemini 应用程序同步发布，这不容易。

这些产品团队在模型开发阶段就与我们深度协作，这也是为什么我们能在发布当天实现全平台同步上线。所谓「全 Google 参与」，不仅指直接参与模型构建的团队，还包括所有各司其职、默默付出的团队。

Nano Banana，自发的名字，自然地融合

Logan Kilpatrick: 另一个我关心的话题是生成式媒体模型——虽然我们一直有关注，但过去并未作为重点。不过，随着 Veo 3、Veo 3.1、Nano Banana 模型的推出，我们在产品落地方面取得了很大成功。

我很好奇，在追求通用人工智能（AGI）的过程中，你如何看待生成式视频模型的作用？有时候我会觉得视频模型似乎与 AGI 无关，但仔细想想，它涉及对世界、物理规律的理解，所以两者应该是相互关联的。

Koray Kavukcuoglu: 10 到 15 年前，生成式模型主要集中在图像领域，因为当时我们能更好地观察图像生成的过程，而且理解世界、物理规律也是图像生成模型的核心目标。

Google 在生成式模型方面的探索可以追溯到 10 年前，甚至更早。我读博时，大家都在做生成式图像模型，比如像素卷积神经网络（Pixel CNNs）。后来我们意识到，文本领域的进步速度会更快。

但现在，图像模型的重要性再次凸显。DeepMind 长期以来在图像、视频、音频模型方面积累了深厚的技术实力，将这些技术与文本模型融合是顺理成章的。

我们一直强调多模态，包括输入多模态和输出多模态。随着技术进步，文本模型和图像模型的架构、理念正在不断融合。过去，两者的架构差异很大，但现在越来越趋同。这不是我们刻意推动的，而是技术自然演进的结果：大家都在探索更高效的方案，理念逐渐统一，最终形成了共同的发展路径。

这种融合的核心价值在于，文本模型拥有丰富的世界知识，而图像模型从另一个视角理解世界，将两者结合，能让模型更好地理解用户的意图，创造出更令人惊喜的成果。

Logan Kilpatrick: 我还有一个关于 Nano Banana 的问题：你觉得我们应该给所有模型起一些有趣的名字吗？这会不会有帮助？

Koray Kavukcuoglu: 不一定。我觉得名字应该自然产生，而不是刻意为之。比如 Gemini 3，我们并没有刻意设计名字。

Logan Kilpatrick: 如果 Gemini 3 不叫这个名字，你会起什么？会不会是很搞笑的名字？

Koray Kavukcuoglu: 我不知道，我不擅长起名字。其实我们的 Gemini 模型有内部代号，有些代号甚至是用 Gemini 模型自己生成的，但 Nano Banana 不是，它没有经过模型生成。

这个名字背后有个故事，我记得已经公开了。我觉得只要名字是自然、自发产生的，就很好。构建模型的团队能对名字产生情感共鸣，这很有意义。

「Nano Banana」这个名字之所以被沿用，是因为我们在测试时用了这个代号，大家都很喜欢，它是自发传播开来的。我觉得这种自然形成的名字很难通过流程刻意创造，有就用，没有的话，用标准名称也很好。

Logan Kilpatrick: 那我们来聊聊 Nano Banana Pro，这是基于 Gemini 3 Pro 打造的最先进的图像生成模型。我听说团队在完成 Nano Banana 后，发现将其升级为 Pro 版本后，在文本渲染、世界知识理解等更精细的场景中，性能有了很大提升。对于这方面的发展，你有什么看法？

Koray Kavukcuoglu: 这正是不同技术融合的体现。我们一直说，每个版本的 Gemini 都是一个模型家族，比如 Pro、Flash 等，不同尺寸的模型在速度、准确率、成本等方面各有取舍。图像生成模型也是如此，自然会形成不同定位的产品。

团队基于 Gemini 3.0 Pro 的架构，结合第一代模型的经验，通过扩大模型规模、优化调优方式，打造出了更强大的图像生成模型，这很合理。它的核心优势在于处理复杂场景：比如输入大量复杂文档，模型不仅能回答相关问题，还能生成对应的信息图表，而且效果很好。这就是输入多模态与输出多模态自然融合的体现，非常棒。

Logan Kilpatrick: 是啊，这简直像魔法一样！希望大家在这段视频发布时已经看到了相关示例，内部分享的一些案例真的太惊人了。

Koray Kavukcuoglu: 完全同意！当你看到模型能将海量文本、复杂概念，用一张清晰直观的图片呈现出来时，真的会惊叹「太厉害了」。这能直观地体现模型的能力。

Logan Kilpatrick: 而且其中还有很多细节值得品味。我还有一个相关问题：去年 12 月，Tulsi 曾承诺我们会推出统一的 Gemini 模型检查点（checkpoint）。你刚才描述的内容，是不是意味着我们现在已经非常接近这个目标了？

Koray Kavukcuoglu: 从历史上看，生成式模型的架构一直是统一的……

Logan Kilpatrick: 所以我猜这是我们的目标：让这些功能真正融入一个模型中，但现实中肯定有一些阻碍。你能从宏观层面解释一下吗？

Koray Kavukcuoglu: 正如我之前所说，技术和架构正在不断趋同，这种统一是必然趋势，但这需要验证。我们不能凭主观臆断，必须遵循科学方法：提出假设、进行测试、观察结果，有时成功，有时失败，但这就是技术进步的过程。

我们正在逐步接近目标，我相信在不久的将来，我们会看到更统一的模型，但这需要大量的创新。

这其实很难——模型的输出空间至关重要，因为它直接关系到学习信号的质量。目前，我们的学习信号主要来自代码和文本，这也是模型在这些领域表现出色的原因。

而图像生成则不同：它对质量要求极高，不仅需要像素级的精准度，还需要图像概念的连贯性，也就是每个像素都要符合整体画面的逻辑。要同时做好文本和图像生成，难度很大。但我认为这绝对是可行的，只是需要找到合适的模型创新方向。

Logan Kilpatrick: 太令人期待了！希望这也能让我们的工作更高效，比如拥有一个统一的模型检查点。

Koray Kavukcuoglu: 这很难说，但可能性很大。

一切都建立在学习之上

Logan Kilpatrick: 我再追问一个关于编码和工具使用的问题。回顾 Gemini 的发展历程：1.0 版本聚焦多模态，2.0 版本开始搭建基础设施。虽然我们的进步速度很快，但为什么在多模态领域，我们没能从一开始就在智能体工具使用方面达到最先进水平？毕竟 Gemini 1.0 在多模态领域一直保持领先。

Koray Kavukcuoglu: 我不认为这是刻意为之。说实话，我觉得这与模型开发环境是否贴近现实世界密切相关，越贴近现实，就越能理解用户的真实需求。

Gemini 的发展历程，也是我们从「纯研究」转向「工程思维」、与产品深度绑定的过程。 Google 在 AI 研究方面有着深厚的积淀，拥有众多优秀的研究人员，但 Gemini 的特别之处在于，它让我们从「写论文、做研究」转向了「通过产品和用户共同开发」。

我为我们的团队感到骄傲——包括我在内，大多数人四五年前还在专注于发表论文、开展 AI 研究，而现在，我们站在技术前沿，通过产品和用户共同推进技术迭代。

这种转变非常惊人：我们每 6 个月就推出一个新模型，每 1 到 1.5 个月就进行一次更新。我认为，我们正是在这个过程中逐步完善智能体工具使用能力的。

Logan Kilpatrick: 还有一个有趣的话题：现在 DeepMind 拥有众多世界顶尖的 AI 产品，比如即时编码（vibe coding）、AI Studio、Gemini、Anti-gravity 平台等， Google 旗下也有很多前沿模型，比如 Gemini 3、Nano Banana、Veo 等。10 年甚至 15 年前，世界完全不是这样的。

我很好奇，回顾你的个人历程，你昨天提到，你是 DeepMind 的第一位深度学习研究员，这一点我和其他人都感到很意外。从 13 年前（2012年）人们对深度学习并不看好，到现在这项技术支撑着众多产品、成为核心驱动力，你有什么感想？这一切是在意料之中，还是让你感到意外？

Koray Kavukcuoglu: 我觉得这是最理想的结果。就像所有读博的人一样，你会坚信自己所做的事情很重要，会产生重大影响——我当时就是这种心态。

所以当 Demi 和 Shane 联系我，告诉我 DeepMind 是一个专注于构建智能、以深度学习为核心的团队时，我非常兴奋。我和我的朋友 Carl Greger（我们都来自纽约大学 Jan 的实验室）同时加入了 DeepMind。在当时，专注于深度学习和 AI 的初创公司非常罕见，所以 DeepMind 的理念非常有远见，能在那里工作真的很令人激动。后来，我组建了深度学习团队，看着它不断发展壮大。

我对深度学习的态度一直是：以第一性原理为基础，坚持「基于学习」的思维方式，这也是 DeepMind 的核心理念：一切都建立在学习之上。

回顾这段旅程，从早期的 DQN、AlphaGo、AlphaZero、AlphaFold，到现在的 Gemini，真的很令人感慨。我们一直怀着积极的期望推进工作，但同时也觉得自己很幸运。

我们有幸生活在这个时代,很多人曾为 AI 或自己热爱的领域奋斗一生，希望能见证技术爆发，但这一切现在真的发生了。AI 的崛起不仅得益于机器学习和深度学习的进步，还离不开硬件、互联网和数据的发展，这些因素共同促成了今天的局面。所以，我既为自己选择了 AI 领域而自豪，也为能身处这个时代而感到幸运。这真的太令人兴奋了。

Logan Kilpatrick: 我最近看了《思维游戏》（The Thinking Game）的视频，了解了 AlphaFold 的相关故事。我没有亲历那个时代，只能通过资料和他人的讲述来了解。你经历了 DeepMind 的多个重要项目，你觉得现在的工作与过去相比有什么不同？比如你之前提到的，「我们已经掌握了将模型推向世界的方法」，这种感觉与之前的项目有什么相似或不同之处？

Koray Kavukcuoglu: 如何组织团队、培养文化，才能将复杂的科学技术问题转化为成功的成果？我认为我们从多个项目中积累了很多经验，从 DQN、AlphaGo、AlphaZero 到 AlphaFold，这些项目都产生了深远影响。我们学会了如何围绕特定目标和使命，组织大规模团队开展工作。

我记得 DeepMind 早期，我们曾有 25 人共同参与一个项目，共同发表一篇论文——当时很多人都质疑「25 人怎么可能合作完成一篇论文」，但我们确实做到了。在科研领域，这种大规模协作并不常见，但我们通过有效的组织实现了。这种经验和思维方式，随着时间的推移不断演进，变得越来越重要。

而在过去两三年里，我们又融入了工程思维——我们有了模型的主线开发方向，学会了在主线基础上进行探索。

我觉得「深度思维模型」（Deep Think）就是一个很好的例子：我们用它参加国际数学奥林匹克（IMO）、国际大学生程序设计竞赛（ICPC）等顶级赛事。这些竞赛的问题难度极大，很多人会想为赛事定制专门的模型，但我们选择将其作为优化现有模型的机会。

我们坚信技术的通用性，通过赛事探索新想法，并将这些想法融入现有模型，最终打造出能参加顶级赛事的模型，再将其开放给所有人使用。

Logan Kilpatrick: 这让我想到了一个对应：以前是 25 人共同发表一篇论文，现在 Gemini 3 的贡献者名单可能已经有 2500 人了——很多人可能会觉得「 2500 人怎么可能都参与其中」，但事实确实如此。这种大规模协作解决问题的方式，真的很令人惊叹。

Koray Kavukcuoglu: 这一点非常重要，也是 Google 的优势所在。 Google 拥有全栈技术能力，我们能从中受益：从数据中心、芯片、网络，到大规模模型的部署，每个环节都有专家坐镇。

回到工程思维的话题，这些环节是密不可分的。我们设计模型时，会考虑它将运行的硬件；而设计下一代硬件时，也会预判模型的发展方向。这种协同非常美妙，但要协调这么多环节，确实需要数千人的共同努力。我们应该认可这种协作的价值，这真的很了不起。

Logan Kilpatrick: 这绝非易事。再回到 DeepMind 的传统：我们一直采用多元科学方法，尝试解决各种有趣的问题。而现在，我们已经明确这项技术在多个领域都有效，只需持续扩大规模。当然，这也需要创新支撑。

你认为在当今时代，DeepMind 如何平衡「纯科学探索」和「扩大 Gemini 规模」？比如「Gemini 扩散模型」（Gemini Diffusion），就是这种决策的一个体现。

Koray Kavukcuoglu: 这是最关键的问题：找到两者的平衡至关重要。

现在很多人问我，Gemini 最大的风险是什么？我认真思考过，答案是「缺乏创新」。我绝不相信我们已经找到了「万能公式」，只需按部就班执行即可。

我们的目标是构建通用智能，这需要与用户、产品深度绑定，但这个目标本身依然极具挑战性，我们并没有现成的解决方案——创新才是实现目标的核心动力。

创新可以有不同的规模和方向：在 Gemini 项目内部，我们会探索新架构、新想法、新方法；而作为 Google DeepMind 整体，我们还会开展更多跨领域的探索，因为有些想法可能在 Gemini 项目内部过于受限，无法充分发展。

所以， Google DeepMind 和 Google 研究院需要共同探索各类想法，然后将这些想法融入 Gemini，因为 Gemini 不是一种架构，而是一个目标：构建通用智能，让 Google 的所有产品都能依托这个 AI 引擎运行。

无论最终采用哪种架构，我们都会持续演进，而创新将永远是核心驱动力。找到平衡，或以不同方式推进探索，这至关重要。

Logan Kilpatrick: 我有一个相关的问题：在 I/O 大会上，我曾和 Sergey 聊过，当你把这么多人聚集在一起，共同发布模型、推动创新时，你能感受到一种「人性的温度」——这一点我深有体会。我当时坐在你旁边，也感受到了你的热情。

这一点对我个人来说很有意义，因为它也反映了 DeepMind 的整体文化：既有深厚的科学底蕴，又有友善、包容的团队氛围。很多人可能没有意识到这种文化的重要性，以及它如何影响工作。作为团队的领导者，你如何看待这种文化的体现？

Koray Kavukcuoglu: 首先，谢谢你的夸奖，这让我有点不好意思。但我确实相信团队的力量，也坚信要信任他人、给予他人机会。团队协作至关重要，这一点我也是在 DeepMind 工作期间学到的。

我们从一个小团队起步，在成长过程中始终保持信任。我认为，营造一个「专注于解决有影响力的复杂技术和科学问题」的环境，非常重要，这也是我们现在正在做的。

Gemini 的核心是构建通用智能，这是一个极具挑战性的技术和科学问题，我们需要以谦逊的态度去面对，不断质疑自己、优化自己。希望团队也能感受到这一点，我真的为我们的团队感到骄傲，他们齐心协力、相互支持。

就像我刚才在茶水间和团队聊的那样：「这很辛苦，我们都很累，但这就是构建前沿技术的常态。我们没有完美的流程，但每个人都在全力以赴、相互支持。」而让这一切变得有趣、有意义，让我们有勇气面对挑战的，很大程度上是「拥有一支优秀的团队」，大家共同为技术的潜力而奋斗。

我可以肯定地说，20 年后，我们现在使用的大语言模型（LLM）架构肯定会被淘汰。所以，持续探索新方向是正确的选择。 Google DeepMind、 Google 研究院，以及整个学术研究社区，都需要共同推进多个领域的探索。

我认为，不必纠结于「什么是对的、什么是错的」，真正重要的是技术在现实世界中的能力和表现。

Logan Kilpatrick: 最后一个问题：我个人在 Google 的第一年多时间里，感受到了一种「 Google 逆袭」的氛围。尽管 Google 拥有强大的基础设施优势，但在 AI 领域，我们似乎一直在追赶。比如在 AI Studio 的早期阶段，我们没有用户（后来增长到3万人），没有收入，Gemini 模型也处于早期阶段。

而现在，随着 Gemini 3 的发布，我最近收到了很多来自生态系统各方的反馈，人们似乎终于意识到「 Google 的AI时代已经到来」。你是否也有过这种「逆袭」的感受？你相信我们能走到今天吗？对于团队来说，这种角色的转变会带来什么影响？

Koray Kavukcuoglu: 在大语言模型（LLM）的潜力逐渐显现时，我坦诚地说，我既认为 DeepMind 是前沿 AI 实验室，也意识到我们作为研究人员，在某些领域的投入还不够，这对我来说是一个重要的教训：我们必须拓宽探索范围，创新至关重要，而不是局限于某一种架构。

我一直对团队坦诚相待：大约 2.5 年前，当我们开始认真对待大语言模型、启动 Gemini 项目时，我们在很多方面都与最先进水平有差距，我们有很多不懂的东西，虽然也有自己的优势，但确实处于追赶状态。

这种追赶持续了很长时间，而现在，我认为我们已经进入了领先梯队。我对我们的发展速度、团队动态和协作节奏感到非常满意。但我们必须正视过去的追赶历程。

在追赶过程中，我们既要学习他人的优点，也要坚持自己的创新，找到适合自己的解决方案：无论是技术、模型、流程，还是团队运作方式，这些都是我们独有的。

很多人说「 Google 太大了，做事效率低」，但我认为这可以转化为优势。我们有能力做一些独特的、大规模的事情，比如让 Gemini 同步登陆所有 Google 产品。我对我们现在的状态很满意，但这是通过持续学习和创新实现的。这确实是一个很棒的「逆袭」故事。

当然，总会有各种比较，但我们的目标始终是构建通用智能——我们希望以正确的方式实现这一目标，并为此倾注全部心力和创新。

Logan Kilpatrick: 我觉得未来六个月可能会和过去六个月、乃至之前的六个月一样令人振奋。再次感谢你抽出时间接受采访，非常愉快！希望在明年 I/O 大会前我们能再聊一次。

虽然感觉还有很久，但时间肯定会过得很快。我相信下周就会有关于 2026 年 I/O 大会的规划会议了。再次祝贺你和 DeepMind 团队，以及所有模型研究人员，成功推出 Gemini 3、Nano Banana Pro 等一系列产品！

Koray Kavukcuoglu: 谢谢！这次交流非常棒。感谢团队的付出，也感谢你的邀请！

宙世代

一起剪

相关标签