量子位 02-13
姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

面对 Claude Opus 4.6 和 GPT Codex 5.3 的猛烈攻势,谷歌反手就是一个Gemini 3 Deep Think的重大升级。

在 Codeforces(一个包含各种竞技编程挑战的基准测试平台)上,它取得了惊人的3455  Elo 分数,相当于世界第 8 名

这下子,全球只有 7 人的编程水平能排在它前面了。而此前最高分是一年前 o3 拿下的 2727 Elo。

Gemini 3 Deep Think 的实力不止于此,它还直接把ARC-AGI-2——这个公认测试 AI 推理能力的前沿基准,给刷到了史无前例的84.6%

要知道,之前最强模型的得分在 60%-70% 之间徘徊,Claude Opus 4.6 的成绩也只有 68.8%。

人类最后考试(HLE)上,Gemini 3 Deep Think 也刷新 SOTA,拿下了48.4%的成绩。

官方表示,新版 Deep Think 是谷歌专门开发的推理模式,旨在推动智能前沿发展,并解决科学、研究和工程领域的现代挑战。

另一位 " 尧舜禹 " ——清华物理系传奇特奖得主姚顺宇(Shunyu Yao),去年 9 月加入谷歌 DeepMind,也是这次 Deep Think 新模型的参与者。

新版 DeepThink 已经走进了实验室

升级后的 Gemini 3 Deep Think 实力究竟有多强?

它的野心不止于赢得基准测试,而是要走进科研和工程领域,帮助工程师处理复杂任务。

新版 Deep Think 可以分析草图,对复杂形状进行建模,并直接生成用于 3D 打印的实体文件。这是它打印的一个笔记本电脑支架:

谷歌 VP Josh Woodward 在 X 上晒出了打印的成果,看起来对草图相当还原:

罗格斯大学的数学家 Lisa Carbone,利用 Gemini 3 Deep Think 审阅了一篇高度专业的数学论文。

结果 Gemini 3 Deep Think 成功地识别出了一个细微的逻辑缺陷,而这个缺陷在此前的人工同行评审中均未被发现。

杜克大学的王安实验室,利用 Gemini 3 Deep Think 技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。

结果 Gemini 3 Deep Think 成功设计了一种能够生长厚度大于 100 微米薄膜的工艺,达到了以往方法难以企及的精确目标。

在 X 上,DeepSeek 多模态团队研究员 XiaoKang Chen 也表示:Gemini 3 Deep Think 非常擅长处理科学领域中的长尾任务。

他给 Deep Think 输入了一张复杂分子结构的图片,随后模型便准确地计算出了分子式。

勇夺三项新 SOTA,推理成本降低 82%

去年 Deep Think 专门版已经 IMO 等国际竞赛中夺下金牌。现在,全新升级后的 Deep Think 又在多项高难度的基准测试中全面刷新 SOTA:

不使用任何工具,在 HLE 中取得新 SOTA ——48.4%

在 ARC-AGI-2 测试中取得前所未有的84.6%的成绩,并经 ARC Prize 基金会验证;

在 Codeforces 上取得了惊人的3455  Elo 分数;

在 2025 年国际数学奥林匹克竞赛中达到金牌水平。

其中,ARC-AGI-2 被誉为 AI 界的 " 图灵测试 ",旨在衡量模型处理从未见过的新颖推理任务的能力

要知道,去年 12 月刚发布的初代 Deep Think 得分还是 45.1%,不到三个月时间已经飙升到 84.6%,比 Opus 4.6 还要强出一截。

而在 ARC-AGI-1 上,Gemini 3 Deep Think 取得了 96% 的成绩,直接顶到天花板了。

性能提升的同时,推理成本也在大幅下降。初代 Deep Think 执行每项任务的成本为 77.16 美元。此次升级让成本降低了 82%,每项任务仅需13.62 美元

由于 1 和 2 都被 Gemini 刷爆了,现在 ARC Prize 已经在构建 ARC-AGI-3 了……

除了数学和编程,升级后的 Deep Think 在化学和物理等广泛的科学领域同样表现出色。

在 2025 年国际物理奥林匹克竞赛和化学奥林匹克竞赛中,Gemini 3 Deep Think 在笔试部分取得了金牌级别的成绩。

此外,它还展现了在高等理论物理方面的能力,在 CMT-Benchmark 测试中取得了 50.5% 的分数。

华人带队,打造最强推理模型

Gemini 3 Deep Think 的研发团队中,有不少华人身影。

核心成员包括 95 后华人科学家Yi Tay,他在 Gemini 团队中从事强化学习和推理方向的研究工作。

此前,他曾在 Google Brain 共同领导早期大语言模型项目,包括 PaLM-2、UL2 和 Flan-2。

在 Google Brain 工作 3 年多之后,2023 – 2024 年间,Yi Tay 曾短暂离开谷歌,作为联合创始人创办了一家独角兽 AI 初创公司—— Reka。

Reka AI 由 DeepMind、谷歌和 Meta 的研究人员创立,其创办初衷是打造功能强大且高效的基础模型,现在也开发界面设计、应用逻辑以及其他应用方面的工具。

在创业一年半后,Yi Tay 便重返谷歌 DeepMind,担任高级资深研究科学家,继续从事人工智能和大语言模型的研究。

去年刚从 Anthropic 跳槽到谷歌 DeepMind 的清华校友姚顺宇,也参与了 Deep think 新模型的开发。

姚顺宇本科就读于清华大学物理系,曾拿下过清华本科生特等奖学金(清华授予在校优秀本科生的最高奖学金荣誉)。

本科期间,他就已在《Physical Review Letters》(国际物理学领域最顶级的学术期刊之一)发表高水平论文,首次在国际上给出了关于非厄米系统的拓扑能带理论,不仅准确预测了相关现象,还定义了两个新的物理概念。

本科毕业后,他赴斯坦福大学继续攻读博士,专注于量子多体混沌、开放量子系统动力学等前沿问题,师从 Douglas Stanford(美国理论物理学家,被同行视为顶尖且有潜力改变物理学发展方向的年轻科学家之一)、Zhenbin Yang(杨振斌,华裔美国科学家,公认的 20 世纪最重要的物理学家之一)等知名学者。

博士毕业后,他先是去 UC 伯克利做博士后研究,随后加入了 Anthropic。在 Anthropic 工作的一年时间里,他参与组建了强化学习基础团队,负责了 Claude 3.7 Sonnet 框架,以及 Claude 4 系列背后的基本强化学习理论。

离开 Anthropic 之后,姚顺宇转战谷歌 DeepMind,继续从事 AI 方面的研究。这次 Deep Think 新模型发布,也是他在谷歌的首秀之作

参考链接:

[ 1 ] https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

[ 2 ] https://x.com/ShunyuYao14/status/2022013770843967900

[ 3 ] https://x.com/YiTayML/status/2021988841142534287

[ 4 ] https://x.com/NoamShazeer/status/2021988459519652089

[ 5 ] https://x.com/PKUCXK/status/2022144532272623990

—  欢迎 AI 产品从业者共建  

「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 编程 考试 清华 ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论