全天候科技 02-13
终极测试成绩创新高,谷歌Gemini 3深度思考模型重大升级,瞄准科研与工程应用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

谷歌的深度思考模型 Gemini 3 Deep Think 迎来重大升级,将其专业推理能力从抽象理论推进至实际应用场景。这一升级聚焦于解决现代科学研究与工程领域的复杂挑战,标志着谷歌在企业级 AI 市场的战略性押注。

美东时间 12 日周四,谷歌官宣 Gemini 3 Deep Think 升级,称升级后的模型在多项行业基准测试中取得突破性成绩,包括在 " 人类的最后考试 "Humanity's Last Exam(HLE)基准测试、ARC-AGI-2 测试中获得 84.6% 的成绩,经 ARC Prize 基金会验证;在竞技编程平台 Codeforces 上,Gemini 3 Deep Think 获得 3455 的 Elo 评分。

升级后的深度思考模式即日起面向 Google AI Ultra 订阅用户开放,同时通过 Gemini API 向部分研究人员、工程师及企业用户提供早期访问权限。谷歌表示,该模型已在实际研究中展现应用价值,从发现研究论文中的逻辑漏洞到优化半导体材料生长工艺。

这一发布使谷歌在 AI 推理模型竞争中与 OpenAI 的 o1 系列和 Anthropic 的 Claude 正面交锋。随着通用 AI 能力日趋商品化,专业推理能力成为企业级市场的新战场,而深度思考模式的推出显示谷歌不愿在这一高价值领域让步。

从基准测试到金牌表现

谷歌在其官方博客中强调了深度思考模式在严格学术基准测试中的表现。除前述成绩外,Gemini 3 深度思考模型在 2025 年国际物理奥林匹克和化学奥林匹克的笔试部分均达到金牌水平,并在 CMT-Benchmark 高级理论物理测试中取得 50.5% 的分数。

谷歌提供的成绩对比可见,本月 Gemini 3 深度思考模型的多种测试结果均超过 Anthropic 和 OpenAI 各自的最强模型思维模式,也强于 Gemini 3 Pro 预览版的思考模式。

例如,在 ARC-AGI-2 测试中,Gemini 3 深度思考的准确率为 84.6%,Anthropic 的 Claude Opus 4.6 Thinking Max 测试成绩为 68.8%,OpenAI 的 GPT-5.2 Thinking xhigh 为 52.9%。

谷歌团队称,这次升级是与科学家和研究人员密切合作完成的,目标是应对 " 缺乏明确边界或单一正确答案,且数据往往杂乱或不完整 " 的研究挑战。该模型通过将深厚的科学知识与实用工程能力结合,实现了从抽象理论到实际应用的跨越。

在数学和编程能力的突破之外,深度思考模式的表现范围已扩展至化学、物理 ( 包括理论物理 ) 等多个科学领域。这种广度意味着该模型不再局限于特定学科,而是成为跨领域研究工具。

实际应用案例验证价值

早期测试用户的使用场景展示了该模型的实际应用潜力。罗格斯大学数学家 Lisa Carbone 在研究高能物理所需数学结构时,利用深度思考模式审阅一篇高度专业的数学论文。该模型成功识别出一处此前通过人类同行评审但未被发现的细微逻辑缺陷。

在杜克大学,Wang 实验室利用深度思考模式优化复杂晶体生长的制造方法,用于潜在半导体材料的发现。该模型成功设计出一套配方,生长出超过 100 微米的薄膜,达到了先前方法难以实现的精确目标。

谷歌平台与设备部门的研发负责人、Liftware 前 CEOAnupam Pathak 测试了新版深度思考模式,以加速物理组件的设计。

谷歌展示的另一应用场景显示,借助升级后的 Gemini 3 Deep Think,用户可以将草图转化为可 3D 打印的实体模型。该模型能分析图纸,对复杂形状进行建模,并生成用于 3D 打印的实体模型文件。

企业级市场的战略布局

这次升级体现了 AI 行业的转向趋势——从通用聊天机器人转向能够处理专业级问题的专业推理引擎。对于企业客户而言,评估标准正在改变,不再仅关注哪个 AI 能最快编写代码或总结文档,而是聚焦推理能力——模型能否处理复杂财务模型、分析实验数据并识别方法论缺陷、协助专利研究或药物发现。

谷歌的优势在于整合能力。深度思考模式不是孤立存在,而是更广泛的 Gemini 生态系统的一部分,这意味着它可能利用谷歌庞大的知识图谱、科学数据集和研究合作伙伴关系。通过 Google Cloud 使用深度思考模式的研究人员,理论上可以访问独立 AI 服务无法匹敌的计算能力和数据源。

该公司周四在 X 平台发文称:" 升级后的深度思考模式已经在推动发现并帮助研究人员解决 ' 不可解 ' 的问题——从发现研究论文中的缺陷到优化半导体(晶体)生长。" 这一表述强调了模型从测试基准到实际应用的转化能力。

从产品策略看,谷歌同时面向消费者和企业用户开放访问权限。Google AI Ultra 订阅用户可通过 Gemini 应用程序立即使用,而科学家、工程师和企业用户则可通过早期访问计划申请使用 Gemini API。这种分层策略反映出谷歌既要保持消费市场存在感,又要争夺高价值企业客户的双重目标。

推理模型竞赛升温

深度思考模式的推出使谷歌在 AI 推理竞赛中正面对抗 OpenAI 和 Anthropic。OpenAI 的 o1 模型据报道在生成响应前花费更多时间 " 思考 ",使用强化学习改进推理链。Anthropic 的 Claude 3 则在研究和分析任务中占据了一席之地。现在谷歌在同一领域插旗,背后是集成到 Workspace 和 Cloud Platform 带来的基础设施和分销优势。

对于专业用户而言,这意味着在快速通用响应与较慢的深度推理之间做出选择,成为新的架构决策。应用程序可能将简单查询路由到标准模型,同时将复杂问题上报到推理模式,创建分层 AI 推理方法。

谷歌周四在 X 平台发文称:"Gemini 3 深度思考模式在推动智能前沿的基准测试中表现突出。具体数据:在 ' 人类最后的考试 ' 中达到 48.4% ( 无工具 ) ,在 ARC-AGI-2 中达到 84.6% ( 经 ARC Prize 基金会验证 ) ,在 Codeforces 竞技编程中获得 3455 Elo 评分。"

谷歌同时指出,模型现在在化学和物理等科学领域表现出色。

这场竞争的真正考验不在于发布声明,而在于实际采用率。如果研究机构和工程公司开始通过深度思考模式处理复杂工作,将验证谷歌的判断——企业 AI 的未来在于深度而非速度。目前,该公司已明确表态:它正在争夺 AI 市场的高端领域,在那里思考比对话更重要。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 物理 科学研究 考试 半导体
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论