
「这确实是一个很棒的逆袭故事。」
11 月 19 日凌晨,Gemini 3 的发布彻底打破了平淡。上线当日,全球访问量便突破 5400 万次,创平台历史新高。

Google 这一次王者归来,震感甚至直接传导到了竞争对手的神经中枢。据 The Information 报道,面对 Google 步步紧逼的攻势,OpenAI CEO Sam Altman 本周一紧急在内部备忘录中宣布公司进入「红色警戒(code red)」状态,准备调动一切战略资源对 ChatGPT 的能力进行大幅升级。

据 The Verge 援引知情人士消息称,OpenAI 计划最早于下周初发布 GPT-5.2 模型, 这一时间表较原定的 12 月下旬计划大幅提前。
这不仅侧面印证了 Gemini 3 带来的压迫感,也让接下来的对话显得更加意味深长。
近日,DeepMind CTO、Google 新任首席 AI 架构师 Koray Kavukcuoglu 在 Logan Kilpatrick 的访谈节目中亮相,他说「我们曾是追赶者,但创新是唯一的出路。」
亮点速览:
1. Koray Kavukcuoglu 强调,Gemini 的优化重点集中在以下几个关键领域:
指令遵循: 确保模型能准确理解并执行用户的具体需求,而非随意生成内容。
国际化: 提升多语言支持能力,确保全球用户都能获得高质量体验。
代理与工具能力:模型不仅能自然使用我们已有的工具和函数,还能自主编写工具。
2. Gemini 3 是一款「全 Google 团队协作的模型」。来自欧洲、亚洲等世界各地的团队都做出了贡献,不仅有 DeepMind 团队,还有 Google 各个部门的团队。
3. 随着技术进步,文本模型和图像模型的架构、理念正在不断融合。过去,两者的架构差异很大,但现在越来越趋同。这是技术自然演进的结果:大家都在探索更高效的方案,理念逐渐统一,最终形成了共同的发展路径。
视频链接:
https://youtu.be/fXtna7UrL44?si=A5xEGWGeEM4EEDhp
以下为完整内容的转录和翻译。(顺序有改动)
基准测试只是第一步,用户反馈是 Step Two
Logan Kilpatrick: 大家好,欢迎回到 Release Notes。我是 Logan Kilpatrick,我在 DeepMind 团队。今天很荣幸邀请到 DeepMind 的 CTO、Google 的新任首席 AI 架构师——Koray。Koray,感谢你的到来,期待与你深入交流。
Koray Kavukcuoglu: 我也很期待。谢谢邀请!
Logan Kilpatrick: 当然,Gemini 3 已经发布。我们此前就预感这款模型会表现出色,基准测试结果也非常亮眼,但真正将它交到用户手中后,实际反响……
Koray Kavukcuoglu: 这才是最终的考验。基准测试只是第一步,之后我们也做了大量测试,包括让可信测试者参与预发布体验等。所以我们能感受到这是一款优秀的模型,能力出众,虽然不完美,但用户的反馈确实让我很满意。
大家似乎很喜欢这款模型,而且我们觉得有意思的部分,他们也同样感兴趣。所以目前来看挺好的,一切都很顺利。
Logan Kilpatrick: 没错,我们昨天还在聊,核心话题就是感慨 AI 的发展速度从未放缓。回想上次,也就是去年 I/O 大会上我们发布 Gemini 2.5 时,听着演示、Serge 谈论 AI 的未来,当时就觉得 2.5 已经是最先进的模型,在多个维度上都突破了前沿。而现在,Gemini 3.0 再次实现了突破。我很好奇,关于「这种进步能否持续」的讨论一直存在,你现在的看法是什么?
Koray Kavukcuoglu: 我对目前的进展和研究都充满信心。身处研究一线,你会发现各个领域都洋溢着创新的热情,从数据、预训练、微调,到每一个环节,都有大量新想法、新突破涌现。
归根结底,这一切都依赖于创新和创意。当我们的技术能切实影响现实世界、被人们广泛使用时,我们能获得更多反馈信号,接触面也会扩大,进而催生更多灵感。
而且我认为,未来的问题会更复杂、更多元,这会带来新的挑战,但这些挑战是有益的,也是推动我们迈向通用智能的动力。
有时候,如果你只看一两个基准测试,可能会觉得进步放缓了,但这很正常。基准测试是在某个技术难题凸显时设立的,随着技术发展,它不再是前沿的代名词,这时就需要制定新的基准。
这在机器学习领域很常见:基准测试与模型开发是相辅相成的,基准测试指导模型迭代,而只有接近当前前沿,才能明确下一个目标,进而制定新的基准。
Logan Kilpatrick: 我完全认同。比如早期的 HLE 基准测试,所有模型的正确率都只有 1% 到 2%,而现在 DeepMind 的最新模型已经能达到 40% 左右,这太惊人了。ArcGIS 基准测试最初也几乎没有模型能应对,现在正确率也超过了 40%。
不过有些静态基准测试确实经受住了时间的考验,比如 GPQA Diamond,虽然我们现在只能一点点提升 1% 左右的正确率,但它依然被广泛使用,可能已经接近饱和了。

Koray Kavukcuoglu: 这些基准测试中确实有很多难题,我们目前还无法完全攻克,但它们依然具有测试价值。以 GPQA 为例,我们没必要追求 90% 以上的极致正确率,现在已经接近目标了,所以尚未解决的问题数量自然在减少。
因此,寻找新前沿、制定新基准至关重要。基准测试是衡量进步的一种方式,但并非绝对对齐。理想情况下两者完全一致,但现实中永远无法完全契合。
对我来说,衡量进步最重要的标准是:我们的模型是否在现实世界中被广泛使用?科学家、学生、律师、工程师是否在用它解决问题?人们是否用它进行写作、收发邮件等?无论简单还是复杂,能在更多领域、更多场景中持续为用户创造更大价值,这才是真正的进步。而基准测试只是帮助我们量化这种进步的工具。
Logan Kilpatrick: 我有一个不算争议性的问题:Gemini 3 在众多基准测试中表现出色,同步登陆 Google 所有产品端和合作伙伴生态,用户反馈也非常积极。如果展望下一次 Google 重大模型发布,你觉得还有哪些方面是我们需要改进的?比如「我们希望能在 X、Y、Z 方面做得更好」,还是说我们应该先享受 Gemini 3 带来的成果?
Koray Kavukcuoglu: 我觉得两者可以兼顾。我们应该享受当下,毕竟发布日值得庆祝,团队也应该为自己的成就感到自豪。但与此同时,我们也清楚地看到,模型在各个领域都存在不足:写作能力并不完美,编码能力也有提升空间。
尤其是在智能体行动和编码方面,还有很大的进步空间,这也是最令人兴奋的增长领域。我们需要找出可以优化的方向,然后持续改进。我认为我们已经取得了长足的进步:对于 90% 到 95% 的编码相关用户(无论是软件工程师,还是想构建产品的创意人士)来说,Gemini 3 可能是目前最好用的工具,但确实还有一些场景需要进一步优化。
从「有创意」变得「能落地」
Logan Kilpatrick: 你如何看待「逐步优化」?比如从Gemini 2.5 到 3.0,或者其他版本迭代中,我们的优化重点是什么?如今基准测试数量繁多,我们如何选择优化方向,无论是针对整个 Gemini 系列,还是专门针对 Pro 版本?
Koray Kavukcuoglu: 我认为有几个关键领域至关重要。首先是指令遵循能力。模型需要准确理解用户需求并执行,而不是随意输出答案,这是我们一直重视的方向。其次是国际化。 Google 的业务遍布全球,我们希望让全世界的用户都能用上这款模型。
Logan Kilpatrick: 确实,我今天早上还和 Tulsi 聊过,她提到这款模型在一些我们过去表现不佳的语言上,表现得非常出色。
Koray Kavukcuoglu: 这真的很棒。所以我们必须持续聚焦这些领域,它们可能不是知识前沿,但对用户交互至关重要。正如我之前所说,我们需要从用户那里获取反馈信号。
再说到更技术化的领域,函数调用、工具调用、智能体行动和代码能力也极为关键。
函数调用和工具调用能极大提升模型的智能乘数效应:模型不仅能自然使用我们已有的工具和函数,还能自主编写工具。本质上,模型本身也是一种工具。
代码能力之所以重要,不仅因为我们团队中有很多工程师,更因为代码是数字世界的基础。无论是软件开发,还是将任何想法变为现实,代码都不可或缺。它能让模型与人们生活中的诸多场景深度融合。
我举个例子,比如「即时编码」(vibe coding),我很看好这个功能。很多人富有创造力,但缺乏将想法落地的能力,而即时编码能让他们从「有创意」变得「能落地」:只需写下想法,就能看到对应的应用程序呈现在眼前,而且大多数时候都能正常运行。
这种从创意到产品的闭环非常棒,它让更多人有机会成为创造者。

Logan Kilpatrick: 太赞了!这简直是 AI Studio 的完美宣传点,我们会把这段剪辑出来发布到网上。你刚才提到的一个重要话题是,在 Gemini 3 发布之际,我们同步推出了 Google Anti-gravity 平台。从模型角度来看,你认为这种产品架构对提升模型质量的重要性有多大?显然,这和工具调用、编码能力息息相关。
Koray Kavukcuoglu: 对我来说,这至关重要。平台本身确实令人兴奋,但从模型角度看,这是双向作用的。首先,模型能通过与终端用户(指软件工程师)直接集成,获取他们的反馈,进而明确模型需要改进的方向,这对我们来说至关重要。
就像 Gemini、AI Studio 一样,Anti-gravity 平台也是如此。这些产品能让我们与用户紧密相连,获取真实的反馈信号,这是巨大的财富。Anti-gravity 平台作为我们的关键发布合作伙伴,虽然加入时间不长,但在过去两三周的发布筹备中,它的反馈起到了决定性作用。
搜索 AI 模式(AI Mode)也是如此,我们从那里获得了大量反馈。基准测试能帮助我们推动科学、数学等领域的智能提升,但了解现实世界的使用场景同样重要,模型必须能解决实际问题。
Gemini 3,一款全 Google 团队协作的模型
Logan Kilpatrick: 在你担任新任首席 AI 架构师后,你的职责不仅是确保我们拥有优秀的模型,还要推动产品团队将模型落地,在 Google 的所有产品中打造出色的用户体验。 Gemini 3 在发布当天就同步登陆 Google 所有产品端,这对用户来说是巨大的惊喜,也希望未来能覆盖更多产品。从DeepMind 的角度来看,这种跨团队协作是否增加了额外的复杂性?毕竟一年半前,事情可能还简单得多。
Koray Kavukcuoglu: 但我们的目标是构建智能,对吧?很多人问我,身兼 CTO 和首席 AI 架构师两个职位,会不会有冲突,但对我来说,这两个角色本质上是一致的。
要构建智能,就必须通过产品与用户的联动来实现。我的核心目标是确保 Google 的所有产品都能用上最先进的技术。我们不是产品团队,而是技术开发者,我们负责研发模型和技术,当然,我们也会对产品有自己的看法,但最重要的是,以最佳方式提供技术支持,与产品团队合作,在 AI 时代打造最优秀的产品。
这是一个全新的时代,新技术正在重新定义用户期望、产品行为和信息传递方式。因此,我希望能在 Google 内部推动这种技术赋能,与所有产品团队合作。这不仅对产品和用户有益,对我们自身也至关重要。
只有贴近用户,才能感受到他们的需求,获取真实的反馈信号,这是推动模型迭代的核心动力。这就是我们构建通用人工智能(AGI)的方式:通过产品与用户共同成长。
Logan Kilpatrick: 我完全认同。这简直可以作为你的推特文案了!我也觉得,我们本质上是在与客户、合作伙伴共同构建通用人工智能(AGI)——这不是某个实验室的孤立研究,而是与全世界共同推进的联合事业。
Koray Kavukcuoglu: 我认为这也是一个「可信测试体系」——我们越来越强调工程思维。这种思维很重要,因为精心设计的系统才会更稳健、更安全。
我们在构建现实世界的产品时,借鉴了很多「可信测试」的理念,这体现在我们对安全、隐私的重视上:我们从一开始就将安全隐私作为核心原则,而不是事后补充。
无论是预训练、微调,还是数据筛选,团队中的每个人都需要考虑安全问题。我们当然有专门的安全团队和隐私团队,他们会提供相关技术支持,但我们更希望 Gemini 团队的每个人都深度参与其中,将安全隐私融入开发的每一个环节,这些团队本身也是微调团队的一部分。
因此,在模型迭代、发布候选版本时,我们不仅会参考 GPQA、HLE 等基准测试结果,还会严格审查安全隐私指标。这种工程思维至关重要。
Logan Kilpatrick: 我完全同意。这也很符合 Google 的企业文化,毕竟,发布 Gemini 模型是一项需要全球团队协作的庞大工程。
Koray Kavukcuoglu: 说到 Gemini 3,我觉得最值得一提的是,它是一款「全 Google 团队协作的模型」。
Logan Kilpatrick: 我们可以看看相关数据,这可能是史上参与人数最多的项目之一,就像 NASA 的阿波罗计划一样,这是一项全球性的庞大工程。
Koray Kavukcuoglu: 没错,是全球性的。
Logan Kilpatrick: Google 所有团队都参与其中,这太不可思议了。
Koray Kavukcuoglu: 来自欧洲、亚洲等世界各地的团队都做出了贡献,不仅有 DeepMind 团队,还有 Google 各个部门的团队。这是一项巨大的集体努力:我们与 AI 模式(AI Mode)、Gemini 应用程序同步发布,这不容易。
这些产品团队在模型开发阶段就与我们深度协作,这也是为什么我们能在发布当天实现全平台同步上线。所谓「全 Google 参与」,不仅指直接参与模型构建的团队,还包括所有各司其职、默默付出的团队。
Nano Banana,自发的名字,自然地融合
Logan Kilpatrick: 另一个我关心的话题是生成式媒体模型——虽然我们一直有关注,但过去并未作为重点。不过,随着 Veo 3、Veo 3.1、Nano Banana 模型的推出,我们在产品落地方面取得了很大成功。
我很好奇,在追求通用人工智能(AGI)的过程中,你如何看待生成式视频模型的作用?有时候我会觉得视频模型似乎与 AGI 无关,但仔细想想,它涉及对世界、物理规律的理解,所以两者应该是相互关联的。
Koray Kavukcuoglu: 10 到 15 年前,生成式模型主要集中在图像领域,因为当时我们能更好地观察图像生成的过程,而且理解世界、物理规律也是图像生成模型的核心目标。
Google 在生成式模型方面的探索可以追溯到 10 年前,甚至更早。我读博时,大家都在做生成式图像模型,比如像素卷积神经网络(Pixel CNNs)。后来我们意识到,文本领域的进步速度会更快。
但现在,图像模型的重要性再次凸显。DeepMind 长期以来在图像、视频、音频模型方面积累了深厚的技术实力,将这些技术与文本模型融合是顺理成章的。
我们一直强调多模态,包括输入多模态和输出多模态。随着技术进步,文本模型和图像模型的架构、理念正在不断融合。过去,两者的架构差异很大,但现在越来越趋同。这不是我们刻意推动的,而是技术自然演进的结果:大家都在探索更高效的方案,理念逐渐统一,最终形成了共同的发展路径。
这种融合的核心价值在于,文本模型拥有丰富的世界知识,而图像模型从另一个视角理解世界,将两者结合,能让模型更好地理解用户的意图,创造出更令人惊喜的成果。
Logan Kilpatrick: 我还有一个关于 Nano Banana 的问题:你觉得我们应该给所有模型起一些有趣的名字吗?这会不会有帮助?
Koray Kavukcuoglu: 不一定。我觉得名字应该自然产生,而不是刻意为之。比如 Gemini 3,我们并没有刻意设计名字。
Logan Kilpatrick: 如果 Gemini 3 不叫这个名字,你会起什么?会不会是很搞笑的名字?
Koray Kavukcuoglu: 我不知道,我不擅长起名字。其实我们的 Gemini 模型有内部代号,有些代号甚至是用 Gemini 模型自己生成的,但 Nano Banana 不是,它没有经过模型生成。
这个名字背后有个故事,我记得已经公开了。我觉得只要名字是自然、自发产生的,就很好。构建模型的团队能对名字产生情感共鸣,这很有意义。
「Nano Banana」这个名字之所以被沿用,是因为我们在测试时用了这个代号,大家都很喜欢,它是自发传播开来的。我觉得这种自然形成的名字很难通过流程刻意创造,有就用,没有的话,用标准名称也很好。
Logan Kilpatrick: 那我们来聊聊 Nano Banana Pro,这是基于 Gemini 3 Pro 打造的最先进的图像生成模型。我听说团队在完成 Nano Banana 后,发现将其升级为 Pro 版本后,在文本渲染、世界知识理解等更精细的场景中,性能有了很大提升。对于这方面的发展,你有什么看法?
Koray Kavukcuoglu: 这正是不同技术融合的体现。我们一直说,每个版本的 Gemini 都是一个模型家族,比如 Pro、Flash 等,不同尺寸的模型在速度、准确率、成本等方面各有取舍。图像生成模型也是如此,自然会形成不同定位的产品。
团队基于 Gemini 3.0 Pro 的架构,结合第一代模型的经验,通过扩大模型规模、优化调优方式,打造出了更强大的图像生成模型,这很合理。它的核心优势在于处理复杂场景:比如输入大量复杂文档,模型不仅能回答相关问题,还能生成对应的信息图表,而且效果很好。这就是输入多模态与输出多模态自然融合的体现,非常棒。

Logan Kilpatrick: 是啊,这简直像魔法一样!希望大家在这段视频发布时已经看到了相关示例,内部分享的一些案例真的太惊人了。
Koray Kavukcuoglu: 完全同意!当你看到模型能将海量文本、复杂概念,用一张清晰直观的图片呈现出来时,真的会惊叹「太厉害了」。这能直观地体现模型的能力。
Logan Kilpatrick: 而且其中还有很多细节值得品味。我还有一个相关问题:去年 12 月,Tulsi 曾承诺我们会推出统一的 Gemini 模型检查点(checkpoint)。你刚才描述的内容,是不是意味着我们现在已经非常接近这个目标了?
Koray Kavukcuoglu: 从历史上看,生成式模型的架构一直是统一的……
Logan Kilpatrick: 所以我猜这是我们的目标:让这些功能真正融入一个模型中,但现实中肯定有一些阻碍。你能从宏观层面解释一下吗?
Koray Kavukcuoglu: 正如我之前所说,技术和架构正在不断趋同,这种统一是必然趋势,但这需要验证。我们不能凭主观臆断,必须遵循科学方法:提出假设、进行测试、观察结果,有时成功,有时失败,但这就是技术进步的过程。
我们正在逐步接近目标,我相信在不久的将来,我们会看到更统一的模型,但这需要大量的创新。
这其实很难——模型的输出空间至关重要,因为它直接关系到学习信号的质量。目前,我们的学习信号主要来自代码和文本,这也是模型在这些领域表现出色的原因。
而图像生成则不同:它对质量要求极高,不仅需要像素级的精准度,还需要图像概念的连贯性,也就是每个像素都要符合整体画面的逻辑。要同时做好文本和图像生成,难度很大。但我认为这绝对是可行的,只是需要找到合适的模型创新方向。
Logan Kilpatrick: 太令人期待了!希望这也能让我们的工作更高效,比如拥有一个统一的模型检查点。
Koray Kavukcuoglu: 这很难说,但可能性很大。
一切都建立在学习之上
Logan Kilpatrick: 我再追问一个关于编码和工具使用的问题。回顾 Gemini 的发展历程:1.0 版本聚焦多模态,2.0 版本开始搭建基础设施。虽然我们的进步速度很快,但为什么在多模态领域,我们没能从一开始就在智能体工具使用方面达到最先进水平?毕竟 Gemini 1.0 在多模态领域一直保持领先。
Koray Kavukcuoglu: 我不认为这是刻意为之。说实话,我觉得这与模型开发环境是否贴近现实世界密切相关,越贴近现实,就越能理解用户的真实需求。
Gemini 的发展历程,也是我们从「纯研究」转向「工程思维」、与产品深度绑定的过程。 Google 在 AI 研究方面有着深厚的积淀,拥有众多优秀的研究人员,但 Gemini 的特别之处在于,它让我们从「写论文、做研究」转向了「通过产品和用户共同开发」。
我为我们的团队感到骄傲——包括我在内,大多数人四五年前还在专注于发表论文、开展 AI 研究,而现在,我们站在技术前沿,通过产品和用户共同推进技术迭代。
这种转变非常惊人:我们每 6 个月就推出一个新模型,每 1 到 1.5 个月就进行一次更新。我认为,我们正是在这个过程中逐步完善智能体工具使用能力的。
Logan Kilpatrick: 还有一个有趣的话题:现在 DeepMind 拥有众多世界顶尖的 AI 产品,比如即时编码(vibe coding)、AI Studio、Gemini、Anti-gravity 平台等, Google 旗下也有很多前沿模型,比如 Gemini 3、Nano Banana、Veo 等。10 年甚至 15 年前,世界完全不是这样的。
我很好奇,回顾你的个人历程,你昨天提到,你是 DeepMind 的第一位深度学习研究员,这一点我和其他人都感到很意外。从 13 年前(2012年)人们对深度学习并不看好,到现在这项技术支撑着众多产品、成为核心驱动力,你有什么感想?这一切是在意料之中,还是让你感到意外?
Koray Kavukcuoglu: 我觉得这是最理想的结果。就像所有读博的人一样,你会坚信自己所做的事情很重要,会产生重大影响——我当时就是这种心态。
所以当 Demi 和 Shane 联系我,告诉我 DeepMind 是一个专注于构建智能、以深度学习为核心的团队时,我非常兴奋。我和我的朋友 Carl Greger(我们都来自纽约大学 Jan 的实验室)同时加入了 DeepMind。在当时,专注于深度学习和 AI 的初创公司非常罕见,所以 DeepMind 的理念非常有远见,能在那里工作真的很令人激动。后来,我组建了深度学习团队,看着它不断发展壮大。
我对深度学习的态度一直是:以第一性原理为基础,坚持「基于学习」的思维方式,这也是 DeepMind 的核心理念:一切都建立在学习之上。
回顾这段旅程,从早期的 DQN、AlphaGo、AlphaZero、AlphaFold,到现在的 Gemini,真的很令人感慨。我们一直怀着积极的期望推进工作,但同时也觉得自己很幸运。
我们有幸生活在这个时代,很多人曾为 AI 或自己热爱的领域奋斗一生,希望能见证技术爆发,但这一切现在真的发生了。AI 的崛起不仅得益于机器学习和深度学习的进步,还离不开硬件、互联网和数据的发展,这些因素共同促成了今天的局面。所以,我既为自己选择了 AI 领域而自豪,也为能身处这个时代而感到幸运。这真的太令人兴奋了。
Logan Kilpatrick: 我最近看了《思维游戏》(The Thinking Game)的视频,了解了 AlphaFold 的相关故事。我没有亲历那个时代,只能通过资料和他人的讲述来了解。你经历了 DeepMind 的多个重要项目,你觉得现在的工作与过去相比有什么不同?比如你之前提到的,「我们已经掌握了将模型推向世界的方法」,这种感觉与之前的项目有什么相似或不同之处?
Koray Kavukcuoglu: 如何组织团队、培养文化,才能将复杂的科学技术问题转化为成功的成果?我认为我们从多个项目中积累了很多经验,从 DQN、AlphaGo、AlphaZero 到 AlphaFold,这些项目都产生了深远影响。我们学会了如何围绕特定目标和使命,组织大规模团队开展工作。
我记得 DeepMind 早期,我们曾有 25 人共同参与一个项目,共同发表一篇论文——当时很多人都质疑「25 人怎么可能合作完成一篇论文」,但我们确实做到了。在科研领域,这种大规模协作并不常见,但我们通过有效的组织实现了。这种经验和思维方式,随着时间的推移不断演进,变得越来越重要。
而在过去两三年里,我们又融入了工程思维——我们有了模型的主线开发方向,学会了在主线基础上进行探索。
我觉得「深度思维模型」(Deep Think)就是一个很好的例子:我们用它参加国际数学奥林匹克(IMO)、国际大学生程序设计竞赛(ICPC)等顶级赛事。这些竞赛的问题难度极大,很多人会想为赛事定制专门的模型,但我们选择将其作为优化现有模型的机会。
我们坚信技术的通用性,通过赛事探索新想法,并将这些想法融入现有模型,最终打造出能参加顶级赛事的模型,再将其开放给所有人使用。
Logan Kilpatrick: 这让我想到了一个对应:以前是 25 人共同发表一篇论文,现在 Gemini 3 的贡献者名单可能已经有 2500 人了——很多人可能会觉得「 2500 人怎么可能都参与其中」,但事实确实如此。这种大规模协作解决问题的方式,真的很令人惊叹。
Koray Kavukcuoglu: 这一点非常重要,也是 Google 的优势所在。 Google 拥有全栈技术能力,我们能从中受益:从数据中心、芯片、网络,到大规模模型的部署,每个环节都有专家坐镇。
回到工程思维的话题,这些环节是密不可分的。我们设计模型时,会考虑它将运行的硬件;而设计下一代硬件时,也会预判模型的发展方向。这种协同非常美妙,但要协调这么多环节,确实需要数千人的共同努力。我们应该认可这种协作的价值,这真的很了不起。
Logan Kilpatrick: 这绝非易事。再回到 DeepMind 的传统:我们一直采用多元科学方法,尝试解决各种有趣的问题。而现在,我们已经明确这项技术在多个领域都有效,只需持续扩大规模。当然,这也需要创新支撑。
你认为在当今时代,DeepMind 如何平衡「纯科学探索」和「扩大 Gemini 规模」?比如「Gemini 扩散模型」(Gemini Diffusion),就是这种决策的一个体现。
Koray Kavukcuoglu: 这是最关键的问题:找到两者的平衡至关重要。
现在很多人问我,Gemini 最大的风险是什么?我认真思考过,答案是「缺乏创新」。我绝不相信我们已经找到了「万能公式」,只需按部就班执行即可。
我们的目标是构建通用智能,这需要与用户、产品深度绑定,但这个目标本身依然极具挑战性,我们并没有现成的解决方案——创新才是实现目标的核心动力。
创新可以有不同的规模和方向:在 Gemini 项目内部,我们会探索新架构、新想法、新方法;而作为 Google DeepMind 整体,我们还会开展更多跨领域的探索,因为有些想法可能在 Gemini 项目内部过于受限,无法充分发展。
所以, Google DeepMind 和 Google 研究院需要共同探索各类想法,然后将这些想法融入 Gemini,因为 Gemini 不是一种架构,而是一个目标:构建通用智能,让 Google 的所有产品都能依托这个 AI 引擎运行。
无论最终采用哪种架构,我们都会持续演进,而创新将永远是核心驱动力。找到平衡,或以不同方式推进探索,这至关重要。
Logan Kilpatrick: 我有一个相关的问题:在 I/O 大会上,我曾和 Sergey 聊过,当你把这么多人聚集在一起,共同发布模型、推动创新时,你能感受到一种「人性的温度」——这一点我深有体会。我当时坐在你旁边,也感受到了你的热情。
这一点对我个人来说很有意义,因为它也反映了 DeepMind 的整体文化:既有深厚的科学底蕴,又有友善、包容的团队氛围。很多人可能没有意识到这种文化的重要性,以及它如何影响工作。作为团队的领导者,你如何看待这种文化的体现?
Koray Kavukcuoglu: 首先,谢谢你的夸奖,这让我有点不好意思。但我确实相信团队的力量,也坚信要信任他人、给予他人机会。团队协作至关重要,这一点我也是在 DeepMind 工作期间学到的。
我们从一个小团队起步,在成长过程中始终保持信任。我认为,营造一个「专注于解决有影响力的复杂技术和科学问题」的环境,非常重要,这也是我们现在正在做的。
Gemini 的核心是构建通用智能,这是一个极具挑战性的技术和科学问题,我们需要以谦逊的态度去面对,不断质疑自己、优化自己。希望团队也能感受到这一点,我真的为我们的团队感到骄傲,他们齐心协力、相互支持。
就像我刚才在茶水间和团队聊的那样:「这很辛苦,我们都很累,但这就是构建前沿技术的常态。我们没有完美的流程,但每个人都在全力以赴、相互支持。」 而让这一切变得有趣、有意义,让我们有勇气面对挑战的,很大程度上是「拥有一支优秀的团队」,大家共同为技术的潜力而奋斗。
我可以肯定地说,20 年后,我们现在使用的大语言模型(LLM)架构肯定会被淘汰。所以,持续探索新方向是正确的选择。 Google DeepMind、 Google 研究院,以及整个学术研究社区,都需要共同推进多个领域的探索。
我认为,不必纠结于「什么是对的、什么是错的」,真正重要的是技术在现实世界中的能力和表现。
Logan Kilpatrick: 最后一个问题:我个人在 Google 的第一年多时间里,感受到了一种「 Google 逆袭」的氛围。尽管 Google 拥有强大的基础设施优势,但在 AI 领域,我们似乎一直在追赶。比如在 AI Studio 的早期阶段,我们没有用户(后来增长到3万人),没有收入,Gemini 模型也处于早期阶段。
而现在,随着 Gemini 3 的发布,我最近收到了很多来自生态系统各方的反馈,人们似乎终于意识到「 Google 的AI时代已经到来」。你是否也有过这种「逆袭」的感受?你相信我们能走到今天吗?对于团队来说,这种角色的转变会带来什么影响?
Koray Kavukcuoglu: 在大语言模型(LLM)的潜力逐渐显现时,我坦诚地说,我既认为 DeepMind 是前沿 AI 实验室,也意识到我们作为研究人员,在某些领域的投入还不够,这对我来说是一个重要的教训:我们必须拓宽探索范围,创新至关重要,而不是局限于某一种架构。
我一直对团队坦诚相待:大约 2.5 年前,当我们开始认真对待大语言模型、启动 Gemini 项目时,我们在很多方面都与最先进水平有差距,我们有很多不懂的东西,虽然也有自己的优势,但确实处于追赶状态。
这种追赶持续了很长时间,而现在,我认为我们已经进入了领先梯队。我对我们的发展速度、团队动态和协作节奏感到非常满意。但我们必须正视过去的追赶历程。
在追赶过程中,我们既要学习他人的优点,也要坚持自己的创新,找到适合自己的解决方案:无论是技术、模型、流程,还是团队运作方式,这些都是我们独有的。
很多人说「 Google 太大了,做事效率低」,但我认为这可以转化为优势。我们有能力做一些独特的、大规模的事情,比如让 Gemini 同步登陆所有 Google 产品。我对我们现在的状态很满意,但这是通过持续学习和创新实现的。这确实是一个很棒的「逆袭」故事。
当然,总会有各种比较,但我们的目标始终是构建通用智能——我们希望以正确的方式实现这一目标,并为此倾注全部心力和创新。
Logan Kilpatrick: 我觉得未来六个月可能会和过去六个月、乃至之前的六个月一样令人振奋。再次感谢你抽出时间接受采访,非常愉快!希望在明年 I/O 大会前我们能再聊一次。
虽然感觉还有很久,但时间肯定会过得很快。我相信下周就会有关于 2026 年 I/O 大会的规划会议了。再次祝贺你和 DeepMind 团队,以及所有模型研究人员,成功推出 Gemini 3、Nano Banana Pro 等一系列产品!
Koray Kavukcuoglu: 谢谢!这次交流非常棒。感谢团队的付出,也感谢你的邀请!


登录后才可以发布评论哦
打开小程序可以发布评论哦