一文读懂谷歌最强大模型Gemini 3：下半年最大惊喜，谷歌王朝回归

文｜博阳

编辑｜郑可君

在经历了 GPT-5、Grok 4 和 Claude Sonnet 小升级后，2025 年下半年，AI 领域陷入了阶段性平淡。

直到今天，Gemini 3 的发布彻底打破了平淡。

跃进式的得分提升、强大的多模态理解力、更加多样化的 UI、惊艳的前端能力，这一切都真实地让 AI 向我们预期的形态迈出了显著的一步。

这些可见性远比 Benchmark 上的得分和只能在 Coding 系统里测出来的区别明显。

Gemini 3 不仅仅是一次版本号的更迭，它是对 Scaling Law 信仰的暴力重申，也是谷歌第一款真正意义上让 OpenAI 黯然失色的模型。

在这次发布会上，我们熟悉的谷歌王者归来。它不满足于在某个单一维度领先，而是要在模型能力、开发者工具、用户体验、搜索集成、多语言覆盖等所有战线上同时发力。

这是一个平台级的野心，用 AI 重新定义整个 Google 生态的每个触点。

Benchmark 的跃迁

Benchmark 测试在 AI 圈内一直饱受争议，被戏称为刷题比赛。前几个月顶尖模型之间的分数只差几个百分点，你追我赶。

但 Gemini 3 的出现，把原本胶着的战争直接变成了断层式的碾压。

先看基础思考能力。Humanity's Last Exam ( HLE ) 是衡量 AI 能否解决人类顶尖难题的终极试金石。在 Gemini 3 之前，Gemini 2.5 Pro 的得分是 21.6%，Claude Sonnet 4.5 仅为 13.7%。Gemini 3 Pro 交出的答卷是 37.5%（无工具）和 45.8%（带工具）。

ARC-AGI-2测试，被誉为 AI 界的图灵测试，旨在衡量模型处理从未见过的新颖推理任务的能力，而非死记硬背。

Gemini 3 Pro 拿下了 31.1% 的分数，而 GPT-5.1 仅为 17.6%，Gemini 2.5 Pro 甚至只有 4.9%。这意味着它开始展现出一种接近人类的流体智力，能够在没有大量训练数据覆盖的领域进行抽象推理。

连 ARC Prize 的创始人 François Chollet 在看到结果后发推文说：" 我们刚刚验证了 Gemini 3 Pro 和 Deep Think 在 ARC v2 上超过 SOTA 2 倍以上！这真的很令人印象深刻，说实话，也有点出乎意料。"

而且 Gemini 3 Pro 解决最快的 v2 任务只用了 772 个 token 和 188 秒，几乎接近人类评审小组的 147 秒平均速度。

数学能力上，Gemini 3 引入了一个新的 MathArena Apex 竞赛级 Benchmark 来强调其超越性。在这项测试里，Gemini 2.5 Pro 的得分只有 0.5%，Claude Sonnet 4.5 是 1.6%，GPT-5.1 是 1.0%。而 Gemini 3 Pro 得到了 23.4% 的成绩。

在多模态领域这个谷歌的强项上，Gemini 3 表现的更为惊人。

MMMU-Pro 的 81.0%，CharXiv Reasoning 的 81.4% 都超越了对手。而在理解截图的测试 ScreenSpot-Pro 的 72.7% 中，Gemini 3 的得分是 Claude Sonnet 4.5 的两倍，GPT-5.1 的二十倍。这对于构建能够真正理解和操作图形界面的 AI 代理至关重要。

编码能力过去一直是谷歌的弱项，但这次彻底翻盘。

虽然在 SWE-Bench Verified 这个测试真实软件工程能力的 benchmark 上，Gemini 3 的 76.2% 仍然不敌 Claude 的 77.2% 得分。

但在其他核心第三方的测试中，谷歌却远高于对手。在 LiveCodeBench 上，Gemini 3 的分数比第二名 Grok 4.1 直接高了 200 多分。

在测试 Agent 工具使用能力的 12-bench 中，Gemini 3 Pro 拿到了 85.4% 的高分，远超 Gemini 2.5 Pro 的 54.9% 。而在更符合终端环境的 Terminal-Bench 2.0 中，Gemini 3 得到了 54.2%，比第二名高出 11 个百分点。

这在很大程度上是一种综合能力的展示。

有了更好的屏幕理解能力和基于多模态能力衍生的前端审美，Gemini 3 在真实编程环境下的表现很容易超越对手。

比如，在由开发者社区运营的实战编码竞技场 Design Arena 中，Gemini 3 Pro 在整体排名中位列第一，并在五个代码赛区中的四个，网站、游戏开发、3D 设计和 UI 组件中都占据榜首。这是自推出 Design Arena 以来最大的性能差异。

记忆一直都是一个很大的模型瓶颈。因此 Gemini 3 在长上下文能力的提升也值得关注。

它在 MRCR v2 benchmark 中 28k 上下文的平均得分 77.0% 远超竞争对手，1M 上下文的逐点得分 26.3%。

这说明，Gemini 3 不是简单地 " 塞入 " 更多 tokens，而是真正理解和利用长文档中的信息。

根据 Artificial Analysis 的分析，Gemini 3 在事实回忆（factual recall）上也有着强大表现。

最后，看一下综合能力。Vending-Bench 2 是一个测量 AI 模型在长时间跨度内运营业务能力的 benchmark，模型需要在一年时间内运营一个模拟的自动售货机业务，并以年底的银行账户余额作为评分标准。

这个测试在今年相当火爆，因为在 Benchmark 逐渐饱和的当下，和 Agen 落地的困难下，各个公司更看重模型能否在长时间、多步骤、需要持续状态跟踪的复杂任务中保持性能。而 Gemini 3 实现的 $5,478.16 平均净值，相比 GPT-5.1 的 $1,473.43 和 Gemini 2.5 Pro 的 $573.64 提升也是断崖式领先。

除了 Pro 版本，Gemini 3 也推出了 Deep Think 模式。这是 Google 对 OpenAI 等模型推出的 Hard 模式的一种回应。虽然它的 Benchmark 水平比 Pro 更高，但其 token 花费也基本上高了一个数量级。

Artificial Analysis 的最终排名没有任何悬念：Gemini 3 Pro 以显著优势位居第一，比 GPT-5.1 高出 3 分。

这是 Google 第一次在其推出的语言模型中，以绝对优势占据了领袖地位，终结了 OpenAI 长久以来的霸榜神话。

但数字之外，更重要的是实际使用体验。

一位名叫 Tailen 的开发者在提前测试后写道：" 这个模型在我最难的问题上，远远超越了 GPT-5 Pro、Gemini 2.5 Deep Think 以及其他所有模型。" 他列出了 Gemini 3 建立新 SOTA 的领域：调试复杂的编译器错误、在不产生逻辑错误的情况下重构文件、解决困难的 λ- 演算问题，甚至在 ASCII 艺术上都 " 几乎还不错了 "。

前端的黄昏

Gemini 3 在 Design Arena 的统治性表现不是偶然。开发者们发现，Gemini 3 不仅能写出功能正确的代码，更重要的是，它能够理解审美。在很多设计中，我们都能看到响应式设计自然流畅，色彩搭配符合现代审美，动画效果恰到好处，无障碍性考虑周全。

这种审美智能的来源部分是训练数据。根据 Gemini 3 的 Model Card 披露，Gemini 3 的训练数据包括大量的图像、视频和网页数据，这说明模型不仅学会了如何编码，还学会了什么样的界面是好看的，布局优质的。

利用这种前端上的优势，Google 推出了" 生成式 UI"（Generative UI）。传统的对话式 AI 给你文本回答，高级一点的给你结构化数据或图表。但 Generative UI 意味着 AI 根据每个请求动态生成一个完全定制的用户界面。

这彻底改变了人机交互的范式，也成了用户直观感受跃迁最明显的点。

发布会上，谷歌给出的范例是 "RNA 聚合酶是如何工作的？"。 Gemini 3 生成一个直观的、可点击的交互式工具。

之所以叫定制，是因为模型可以根据用户意图、使用场景、目标受众改变其设计。为 5 岁孩子解释微生物和为成年人讲解微生物，Gemini 3 知道这需要完全不同的界面设计、交互模式和内容深度。它能推断出对孩子需要大的按钮、鲜艳的色彩、简单的语言和游戏化元素，而对成人则需要更多信息密度、专业术语和深度解释。

这正是新一代 AI 最应该具有的能力，超越对话，成为一个多信息的嵌合体。

在多轮对话中，Gemini 3 能够理解你的审美偏好、编码风格，甚至是你没有明说的设计原则。如果你倾向于极简主义，几次交互后，Gemini 就会自动在后续生成中减少装饰性元素。如果你喜欢丰富的动画，它会逐渐增加交互效果的复杂度。

这一能力，基本上已经被网络测试员玩出花来了，各种各样的前端 UI、3D 展示 Gemini 都能做的有模有样。

在这样的能力之下，前端的角色正在逐步被模型吞没。

新一代的模型即 Agent

在 2025 年，一个重要的趋势就是模型即 Agent。通过越来越强的工具调用能力和模型规划能力，基础模型变得越来越像 Agent。

GPT-5 的发布会上，OpenAI 就推出了 AgentKit，让开发者用一种工作流方式开发 Agent，成为新一代的 AI 内 App。

但在今天之前，几乎没有任何一家基础模型公司在 to C 的产品中添加通用 Agent 能力。因为这对于模型的考验相当大，它需要真的进化成能够理解任务、制定计划、使用工具、反思改进的 Agent。

Gemini 3 首先完成了这一跃，成了第一个在模型界面融合通用 Agent 能力的产品。

这种自信并非毫无根据。根据 Model Card，它被训练使用了强化学习技术，能够利用多步骤推理、问题解决和定理证明数据。这种能力的技术基础部分来自于改进的函数调用（function calling）能力。根据发布资料，Gemini 3 的工具使用能力相比 2.5 Pro 提升了 30%。这不仅意味着它能更准确地选择正确的工具，更重要的是，它能理解何时需要组合多个工具来完成复杂任务。

有用户让 Gemini 3 帮助学习一门新语言。传统 AI 会提供学习计划和资源链接。但 Gemini 3 生成了一套完整的交互式学习系统：词汇卡片带有间隔重复算法，语法练习带有即时反馈，发音练习集成了语音识别，进度追踪可视化。

它还整合了 Google 庞大的生态系统，新的 "My Stuff" 文件夹设计让用户更容易找到模型创建的图片、视频和报告，并且应用内现在可访问超过 500 亿条商品列表。

Scaling Law 的延续

在 2025 年，关于 Scaling Law 是否撞墙的争论已经持续了一年多。怀疑论者指出，训练成本的指数增长、数据的逐渐枯竭、回报的边际递减。

但 Gemini 3 表示—— " 我不认 "。

Oriol Vinyals，Google DeepMind 的 VP of Research、Deep Learning Lead 和 Gemini 项目的联合负责人，在 Gemini 3 发布后发推文说："Gemini 3 的秘密？简单：改进预训练和后训练。后训练仍然是一片完全的绿地。算法上还有大量进步和改进的空间 "。他特别强调：" 与流行看法相反，即‘扩规模已终结’——团队实现了巨大跃升。2.5 到 3.0 之间的差距是我们见过的最大之一。看不到任何天花板！"

具体 Gemini 3 有什么秘密武器，这个当下还是未知数。Model Card 只透露了 Gemini 3 Pro 采用 sparse mixture-of-experts ( 稀疏 MoE ) 架构。这说明 Gemini 3 并非 Gemini 2.5 的微调，而是个全新的架构。在今年四月，谷歌颁布新政，DeepMind 核心论文禁发 6 个月，这使得草灰蛇线去发现模型背后的进步变得更困难。

不过从产品和少量论文证据上，我们还是能看到谷歌的着力点。在 Veo 3 和 Genie 3 的发布中，我们能看到谷歌发现了多模态的能力的进步。在 Agent 领域，谷歌 AI Co-scientist 、SIMA 2 都说明他们在研究新的 Agent 自动化强化方法。而谷歌刚刚在 Nature 发布的持续学习论文 DiscoRL，和自进化的 Agent Alpha Evolve 则在一定程度上验证了 Gemini Agent 这种自适应能力的发展。

当把这些都组合起来时，其能力闭环就显示出来了。

ScreenSpot-Pro 的高分确保了 Agent 的规划能力建立在可靠的观察之上，从而有效降低因误解环境而导致的执行错误。而通用 Agentic 控制回路，利用这种感知能力进行可靠的规划和执行。再加上 RL 突破（DiscoRL）确保了训练过程的效率和可扩展性，谷歌能够快速迭代和优化 Agent 的策略。

这种对从算法（DiscoRL）到感知（MM）再到执行（Agent）的整个 AI 开发管线的优化，创造了一个性能乘数，超越了仅优化单个组件的竞争对手所能达到的效果。

不过，这种 Scaling Law 也有一些局限性。François Chollet 在观察 ARC-AGI 结果时注意到一个矛盾："Gemini 3 Pro 在 v2 上得分约一半，但在更简单的 v1 上仍然会犯明显错误。" 而且 Gemini 3 Pro 能用 2000 个推理 token 解决的问题，Deep Think 模式可能消耗 30 万个 token 仍告失败。因此他认为 AI 推理系统的流体智能提升是不均匀的，" 似乎集中在那些推理模型具有良好基础训练数据覆盖且该领域存在可验证反馈信号的领域。"

另外，Gemini 3 还开启了一个新的性能 - 成本比逻辑。在 API 上，Gemini 3 Pro 的定价并不亲民，每百万输入 / 输出 Token 的价格高达 $2/$12 ，是目前运行成本最高的模型之一。但考虑到它在 token 效率上却相对更高，比起其他如 Kimi K2 的模型，它在相同任务上用的 tokens 更少。这使得其实际使用成本的增加只有 12% 左右。

如果考虑到它能够一次性正确完成任务，它的总体成本可能反而更低。

王者归来

Gemini 3 Pro 的发布，是 Google 向世界宣告王者归来的时刻。它没有玩弄文字游戏，没有发布虚无缥缈的 Demo，而是直接把一堆让竞争对手窒息的数据和立即可用的产品甩在了桌面上。

它证明了前端开发可以被重新定义，Agent 可以与 UI 融为一体，而最重要的是，它证明了通往 AGI 的道路上，Scaling Law 依然是那座指引方向的灯塔。

如果要问谷歌这次带来的体验，到底凭什么说算是一种跃迁？沃顿商学院的教授 Ethan Mollick 体验完 Gemini 3 后的总结说得很恰当，" 三年前，我们还为机器能写一首关于水獭的诗而惊叹。不到一千天后，我正在与一个为自己构建了研究环境的代理就统计方法展开辩论。聊天机器人的时代正在向数字同事的时代转变。需要非常明确的是，Gemini 3 并不完美，它仍然需要一个能够引导和审查它的管理者。但它表明 human in the loop 的角色正从‘修复 AI 错误的人’演变为‘指挥 AI 工作的人’。这可能是自 ChatGPT 发布以来最大的变化。"

看完各种演示后，我也是如此感觉。这是一个让我真正安心、能够帮我做除了回答问题之外事情的 AI。

当然，对于 Sam Altman 来讲，这无疑是一个不眠之夜的开始。