姚顺宇参与，谷歌最强Gemini推理模型发布！测评碾压Opus 4.6、GPT-5.2

智东西

作者 | 云鹏

编辑 | 李水青

智东西 2 月 13 日消息，今天凌晨，谷歌发布了Gemini 3 Deep Think 专用推理模式的重磅升级，其在 " 人类终极测试 "、竞技编程测试、国际数学奥林匹克竞赛，以及国际物理、化学等多领域奥赛中均创下新记录，全面超越了 Claude Opus 4.6 和 GPT-5.2，也超越了自家 Gemini 3 Pro Preview。

Gemini 3 Deep Think 在 ARC-AGI-2、人类终极测试（Humanity ’ s Last Exam）竞技编程基准测试 Codeforces、2025 年国际数学奥林匹克竞赛四项测试中的成绩，得分均超过 Claude Opus 4.6 和 GPT-5.2

毫无疑问，谷歌祭出了当前地表最强 AI 推理大模型。在 Deep Think 模式下，一张设计草图可以快速转化为 3D 打印文件，图纸分析、复杂三维建模一气呵成，用户将 3D 打印文件交付给打印机就可以完成实体生产：

在 Deep Think 模式下，一张设计草图可以快速转化为 3D 打印文件

谷歌 CEO Sundar Pichai 和相关高管都在 X 平台发文宣布了这一重磅发布，此前于去年 9 月加入谷歌 DeepMind 的清华物理系传奇人物姚顺宇（Shunyu Yao）也发文号召大家体验他们开发的新模式。

谷歌 CEO（左）、姚顺宇（右）X 平台发文

此姚顺宇非彼姚顺雨，后者是姚班出身、今年刚刚加入腾讯混元担任首席 AI 科学家的另一位 " 学神 "。前一位姚顺宇现任谷歌 DeepMind 高级研究员，曾在 Anthropic 的 Claude 团队担任研究员，是拿过清华物理系传奇特奖的另一位 " 学神 "。

此次的 Deep Think 模式升级也是姚顺宇加入后参与的首个重磅项目。

姚顺宇（左）和姚顺雨（右）

总体来看，Deep Think 模式主要用于解决科学、研究和工程领域的挑战，目前只向 Google AI Ultra 订阅用户开放，不过科研人员、工程师和企业可以提交申请加入早期测试。

一、高难度基准测试猛刷记录，碾压 Claude Opus 4.6、GPT-5.2

去年，谷歌已证实 Deep Think 模式的定制版本能攻克诸多高难度推理难题，在国际数学和编程锦标赛中达到金牌水准。而这次升级则让 Deep Think 模式更进一步支持研发人员开展研究级（research-level）的数学探索工作。

升级的 Deep Think 模式在各类高难度学术基准测试中创下了新纪录，具体包括：

· 在 " 人类终极测试（Humanity ’ s Last Exam）" 基准测试中，无工具辅助状态下取得 48.4% 的成绩，刷新该测试的最佳纪录（该测试专为检验前沿大模型的能力极限设计）；

· 在 ARC-AGI-2 基准测试中获 84.6% 高正确率，成绩经 ARC 奖基金会认证；

· 在竞技编程基准测试平台 Codeforces 中，Elo 评分 3455 分；

· 在 2025 年国际数学奥林匹克竞赛中，达到金牌水准；

从排名中我们看到，Deep Think 模式在上述四项基准测试中，全部领先于 Claude Opus 4.6 和 GPT-5.2。

除数学和竞技编程领域外，升级后的 Gemini 3 Deep Think 在化学、物理等众多科学领域同样表现不错。

Gemini 3 Deep Think 在各类测试中的成绩表现，所有测试项目均优于 Claude Opus 4.6 和 GPT-5.2

根据谷歌公布测试成绩，Deep Think 在 2025 年国际物理奥林匹克竞赛和国际化学奥林匹克竞赛的笔试环节中，均取得金牌水准的成绩；在高等理论物理领域也具备出色的应用能力，在凝聚态理论基准测试 CMT-Benchmark 中取得 50.5% 的成绩。

同样，在这些测试项目中，Deep Think 的成绩全部高于 Claude Opus 4.6 和 GPT-5.2。

二、推动实际应用落地，成为深度专业研究领域的最强助手

谷歌提到，除了强劲性能表现，Deep Think 模式的研发核心目的是推动实际应用，也就是助力研究人员解析复杂数据、帮助工程师通过代码构建物理系统模型。

简单来说，这些领域的问题往往缺乏明确的指导原则或唯一的正确答案，数据也通常是杂乱无章或不完整的。Deep Think 可以将深厚的科学知识与日常工程实践相结合，去解决这些复杂难题。

目前，谷歌正致力于让 Deep Think 模式覆盖科研和从业者的核心工作场景。

借助升级后的 Deep Think 模式，用户可以很快将一张设计草图转化为可 3D 打印的实体模型—— Deep Think 能自动分析图纸内容、构建复杂的三维形状模型，并生成对应的 3D 打印文件，实现实体物件的制作。

从文件草图到 3D 实体模型

此外，从谷歌给出的演示中我们看到，Deep Think 可以识别出高专业度数学论文中一个此前人工同行评审从未发现的细微逻辑缺陷。

科学家利用 Deep Think 识别专业论文中的细节逻辑缺陷

Deep Think 还可以用来优化复杂晶体生长的制备方法，用来探索新的半导体材料，在杜克大学的案例中，其设计的方案培育出了尺寸超过 100 微米的薄膜，技术指标超过此前所有方法。

谷歌研发主管、前 Liftware CEO 也用 Deep Think 来加速物理组件的设计。

可以说，Deep Think 是真能搞定复杂的科学、研究和工程领域挑战。

结语：推理大模型专业化进一步加深，AI 冲向科研最前线

Gemini 3 Deep Think 模式的升级，重点提升了其在诸多科研专业学术领域解决复杂专业问题的能力，令其在顶尖专业领域加速技术研发的价值进一步凸显。

目前，AI 模型与产业融合进一步加深，行业都在思索如何让模型能更好地在专业领域提升生产力，AI 推理大模型的竞争，跑在了技术与学术的最前沿。

宙世代

一起剪

相关标签