
蛰伏数月,谷歌再度出手甩出王炸——Gemini 3 奇袭大模型圈,交出了一张几乎 " 全 A" 的模型测试成绩单。
11 月 19 日凌晨,谷歌发布最新一代模型 Gemini 3。随后,Gemini 3 系列模型在多模态、推理、Agent 等三条大模型主线路的多项国际测试上全面 " 屠榜 "。除了在编程能力测试略逊于 GPT-5.1 和 Claude Sonnet 4.5 外,在其他国际主流测试项目上,Gemini 3 Pro 得分都是断档的领先。

Gemini 3 在一系列关键 AI 基准测试中达到了最先进水平。来源:谷歌开发者公众号
其中,Humanity's Last Exam(HLE)被认为是衡量 AI 能否解决人类顶尖难题的试金石,Gemini 3 Pro 在此项测试的得分为 37.5%。而 GPT-5.1、Claude Sonnet 4.5 得分分别为 26.5%、12.7%。
模型发布后,谷歌美股股价一度上涨 5.8%,市值突破 3.5 万亿美元创历史新高。
OpenAI 的 CEO 山姆 · 阿尔特曼也罕见对谷歌给予赞赏:" 这看起来是一个很棒的模型。" 短短一年前,谷歌在举办 2024 I/O 开发者大会时,阿尔特曼还曾直接嘲讽 Gemini 产品,甚至对发布会布置提出质疑:" 我无法不去思考 OpenAI 和谷歌之间的美学差异。"
但在今年 5 月的开发者大会上,谷歌拿出十余种 "AI 万花筒 " 产品,能力大幅提升,给了阿尔特曼一记回旋镖。半年后,谷歌再度 " 炸场 ",更表明在多年技术积累之下,谷歌已经重新找回节奏。
" 谷歌已不再把自己视为一家搜索公司,而是要成为下一代计算平台的创建者。"谷歌 CEO 皮查伊今年多次强调。2025 年,谷歌的搜索、安卓系统、Chrome 浏览器、YouTube、硬件乃至手机等核心业务,都在围绕基座大模型 Gemini 进行重构。一年高达 900 亿美元的资本开支以及工程资源,也都向模型供电倾斜。
基座模型迭代之际,谷歌也同步披露了一个关键数据:谷歌浏览器的 AI 模式月活跃用户已达 20 亿。这意味着,从模型到应用,谷歌正利用其庞大的生态系统,重新定义 AI 上的话语权。
谷歌全栈布局的示范效应,也势必将大模型竞争拉到下一高度。近期,国内外围绕入口的争夺也不约而同地打响。OpenAI 上线桌面浏览器,同时强势进军搜索功能;阿里千问 App 近期回归,高调瞄准 ChatGPT 入局 AI to C;字节也在通过豆包探索电商新入口。
几天前,伯克希尔 - 哈撒韦公司披露的今年三季度持股报告显示:巴菲特在退休前,首次建仓买入了谷歌。
近日,段永平在接受采访时也表示:" 现在市场上的大模型很多,10 年后能活下来的大概率不会超过 10%。大家可以猜猜 10 年后,大家还在用的主流大模型会是什么?我会猜 Gemini,因为背后的谷歌很强大,而且已经醒了。"
Gemini 3 发布前,谷歌相当低调。
2025 年 11 月初,皮查伊在公司财报电话会议上谈及 Gemini 3 时态度谨慎:" 前沿大模型的开发需要更多时间,而 Gemini 3 预计不会让人们立刻就看到突破性的进展。"
从结果看这像是一颗烟雾弹。据 Model Card 测试数据,Gemini 3 成绩几乎全面碾压当前所有主流大模型;在开放评测平台 LMArena 上,Gemini 3 Pro 以 1501 分位居通用模型榜首。
在博士级科学问答 GPQA Diamond 上,Gemini 3 Pro 成绩为 91.9%;数学难题集 MathArena Apex 上创造了最新纪录—— 23.4%;SimpleQA Verified(强调事实性与复杂问答准确度的测试)成绩是 72.1%,这意味着其幻觉率和知识错误率被显著压低;在 ARC-AGI-2(推理测试)的成绩为 31.1%,而上一代 Gemini 2.5 Pro 的该项成绩还不到 5%。
Gemini 3 在多模态的表现同样令人惊艳。目前,多模态模型上有两项 " 终极试题 ":MMMU-Pro 和 Video-MMMU,Gemini 3 Pro 在这两项的成绩分别为 81% 和 87.6%,创下多模态模型能力历史最高纪录。在 Agentic Coding 上,Gemini 3 Pro 在 SWE-Bench Verified 的成绩比 GPT-5.1 和 Claude Sonnet 4.5 分别仅差 0.1%、0.9%。
某种程度上,Gemini 3 是谷歌第一款给 OpenAI 构成实质性威胁的模型——它并非以某一项能力出圈,而是在多模态、推理、Agent 这三条最难突破的线路上,全线抵达行业天花板。
谷歌的反攻还不止于在基座模型上 " 血洗 " 榜单,还有应用层的全面爆发。正是前者的能力跨越,才为应用页面、交互方式的迭代提供了关键基础。
2022 年,ChatGPT 把行业带入了小助手式 " 对话优先 " 的交互世界。然而,Gemini 新版应用不再是单一对话框——用户发出自然语言请求,模型并非直接生成答案,而是即时生成一个结构化的、视觉化的界面,用户可以和 AI 共同操作。
这也让 AI 跳出了 " 小助手 " 的角色,不再只是在语言层面辅佐用户,而是开始和用户共享一个可操作的工作环境,向着真正的 " 工作伙伴 " 发展。据悉,Gemini 3 将被整合进 Gemini 应用、谷歌的 AI 搜索产品 AI Mode 和 AI Overviews,以及企业级产品。
谷歌在 AI 上的爆发,可以说是 " 后发先至 "。2022 年 11 月底,ChatGPT 燃爆硅谷后,同年 12 月 6 日,谷歌推出了 Gemini 1.0。此后,谷歌的 AI 研发进程一直不温不火。
模型开发滞后之下,OpenAI、Perplexity、Anthropic 等对谷歌的搜索市场虎视眈眈。2024 年底,谷歌搜索市场份额首次跌破 90%。
" 大企业病 "" 掉队 "" 落伍 " 曾是外界诟病谷歌的形容词。但谷歌通过对关键技术团队的成功整合,再度找回了自己的研发节奏与产品高度。
2023 年 4 月,谷歌宣布将 Google Brain 和 DeepMind 合并,由 DeepMind 创始人戴米斯 · 哈萨比斯执掌。此前,两支团队都做出过骄人战绩:Brain 创造了 Transformer 架构,DeepMind 则拿出过震惊世界的 AlphaGo。
" 一山不容二虎 " 的故事没有在谷歌发生。团队合并后,虽然带头人是哈萨比斯,但 Google Brain 的联合创始人杰夫 · 迪恩仍然担任首席科学家。2024 年底,在团队的共同努力下,Gemini 模型顺利完成了迭代。
接下来,谷歌更力出一孔。到 2025 年 5 月,皮查伊在 I/O 开发者大会上,大胆打破了谷歌搜索的立命之本:" 搜索框不重要了,Google 要做你的 AI 助理,直接替你把事办了。"
大会上,谷歌共宣布了 23 项功能更新,覆盖了 AI 模型、视觉生产、谷歌搜索、Agent 系统、AI 眼镜、生态等几乎所有与 AI 相关的领域。
AI 颠覆搜索后,谷歌的野心也被放到了下一代计算平台:其自研了 TPU 提供底层算力支持;用安卓与 Chrome 构成交互前台,Workspace 承接具体任务执行;YouTube 打造流媒体资产,为 Gemini 在多模态能力上奠定基础。此外,Gmail、Google Docs 等成熟应用也逐步被注入 AI 功能。
Gemini 3 的发布会上,谷歌宣布其浏览器 AI 模式的月活跃用户已达 20 亿,其中 Gemini 应用月活用户达 6.5 亿。皮查伊称:" 令人惊叹的是,仅仅两年时间,AI 已从单纯处理文本和图像,发展到能够读懂场景。从今天起,Gemini 将在谷歌全系产品中全面铺开。"
谷歌的系统性进击,也意味着 AI 新入口大战已经打响。AI 角逐已从基模大战、技术竞速,转向了关乎下一个 10 年势力版图的场景落地竞争。
下一代入口在哪里?在移动互联网时代,得流量者胜出。但未来如果把答案扩展到 " 谁能帮用户解决问题 " 的效用之争,机会又重新在巨头面前摊平。
某种程度上,谷歌的全栈出击,也是阿里正在尝试 " 复刻 " 的道路。周靖人在云栖大会后,对《中国企业家》等媒体表示:阿里云是全球少数几家在大模型和云计算方面都能够做到全栈自研、联合创新的公司。
11 月 17 日,阿里千问 App 公测版亮相,直接瞄准 AI to C 入口,计划打造会聊天、能办事的个人 AI 助手,并整合了阿里全生态的服务能力。次日,蚂蚁集团发布全模态通用 AI 助手 " 灵光 ",用户可以在 30 秒内,生成可交互、可编辑、可分享的 " 闪应用 "。这些都昭示着阿里准备抓住 " 生产力入口 " 的野心。
在不久前的 2025 年第三季度财报会上,腾讯集团总裁刘炽平亦明确表示:微信最终将成为一个 AI Agent,帮助用户在微信内部完成大量任务。字节豆包则在流量加持下,正在从生态渗透,走向工具赋能,与抖音、剪映深度绑定,将豆包变为字节的生产力引擎。
最近,OpenAI 已经将更多目光投向了企业服务与垂直场景落地。今年上半年,OpenAI 实现 43 亿美元营收,其中消费者与企业订阅占据大头。
一位海外文旅开发从业者对《中国企业家》表示:他在使用了国内外多项大模型后,感到 GPT-5 在上下文理解层面,明显具备优势。" 虽然我们海外数据相对匮乏,但因为 ChatGPT 好用,海外系统反而更容易做。"
不过,靠旧地图未必能拿到新船票。AI 时代的赢家,不只属于技术领先者,或者有能力 " 大水漫灌 " 的超级 App 拥有者,更是能理解用户需求、将技术转化为解决问题能力,能将 AI 与行业场景深度绑定,对 AGI 有更透彻理解和追求的企业。


