Gemini 3闪击硅谷，ChatGPT 5.1pro连夜升级，反扑谷歌

文 | 第一新声，作者 | 陈俊

继谷歌 Gemini 3 横空出世后，紧接着 Open Ai 猛虎下山，连夜推出 Chatgpt5.1pro 与 Codax Max，让战局再起。

回望过去一年，大模型赛道其实处在一种 " 雷声大雨点小 " 的疲态期，虽然参数规模越堆越大，但在用户体验上，很难寻回 ChatGPT 初次登场时的那种震撼。行业似乎陷入了边际效应递减的怪圈，理论上模型在变强，但这种 " 强 " 越来越难以被感知。

用户开始疲惫，资本开始观望。

但 Gemini3 的突然袭击，可谓是重演了一次 "iphone 时刻 "，在科技界掀起了巨大波澜。除了马斯克这位深度冲浪爱好者，连友商 Open AI 的 CEO 也表示对 Gemini 3 十分看好。

一时间，谷歌风头无两，几乎成为了行业讨论的主角。

作为多个大模型的深度用户而言，Gemini3 解决了 " 谁最好用 " 这个难题。在此之前，如果你问哪家模型强，得到的回答往往是："A 家擅长写代码，B 家擅长创意，C 家逻辑好，建议你都开着。"

作为用户而言，Gemini 3 的用户体验在当下大模型中找不出代餐，是一个 " 六边形战士 "，将所有的复杂的工具矩阵统一到了一个对话框内。

对于行业而言，Gemini 3 终结了单一唯独的文本内卷，引导大模型进入多模态的竞争，用体验上的降维打击，强行将行业拉入了多模态与 Agent（智能体）的竞争新纪元。

也许是这份 " 全网好评 " 让 Open AI 倍感压力，Open AI 紧接着连夜发布了 Chatgpt 5.1pro 和 Chatgpt 5.1-Codx-Max。

Open Ai 的这轮更新，既是被逼出来的节奏，也是在向外界宣告：顶级对决，战线已经从模型本体扩展到体验与生态。

Gemini 3，用户体验远胜参数

Gemini 3 大受好评的原因，不仅是在参数上秀了一把肌肉，更重要的是回归用户思维，在用户体验上秀了一把智商。

话不多说，我们直接看 Gemini 3 最硬的几个指标。

LMArena 作为大模型界最被认可的盲测擂台，以公平、公开著称，所有模型匿名对打，题目随机生成。Gemini 3 pro 在这里拿到了 1501 Elo 的好成绩，直接冲进了顶级梯队，得分位列 LMArena 大模型竞技场第一。

Gemini 3 在一系列关键人工智能基准测试中均处于领先水平。

看各项指标对比也能看出来，这个分数不是单项的好，而是整体均衡的夸张。在编程、创意、数学、对话等各项维度上，它几乎没有短板。

另外，Gemini 3 的深度思考模式，将智能边界再次往前推了一大截。在推理能力与多模态理解上，它不是正常迭代，而是出现了一个明显的 " 台阶式跃迁 "，能够处理比以往更复杂、更多变的问题。

在各项测试中，Gemini 3 Deep Think 交出的成绩也十分亮眼。比如在人类终极测试中，（无工具条件下得分 41.0%）和 GPQA Diamond（得分 93.8%）上，它的表现不仅全面超过 Gemini 3 Pro ——甚至把测试难度里最依赖真实推理能力的部分，直接拔高了一层。

此外，它在 ARC-AGI-2（代码执行，经过 ARC Prize 官方验证）上取得了前所未有的 45.1% 的成绩。这一项本质在测试 AI 如何面对 " 没有标准答案、需要从零拆解问题 " 的挑战，而 Gemini 3 展现出的能力说明，它不仅能 " 解决题 "，还能探索新问题的结构。

Gemini 3 的 deep think 模式在一些具有挑战性的 AI 基准测试中的表现

最能说明问题的，是它在 Vending-Bench 2 排行榜上的表现。

Vending-Bench 2 测试的是长期规划：让模型运营一个模拟的自动售货机业务，贯穿整整一年的补货、定价、决策、工具调用，考验是否能在长时间跨度内保持决策一致性，不偏题、不跑偏、不陷入混乱。

在这项测试中，Gemini 3 Pro 一整年都保持着稳定清晰的策略路径，在不偏离任务目标的前提下持续提高收益。

与其他前沿模型相比，Gemini 3 Pro 展现出更好的长期规划能力，能够产生更高的回报

Chatgpt 5.1pro 带来的升级，较为 " 低调 "，截至目前官方博客中都并未有具体介绍，只在更新的博客中有两段介绍。

也许是因为 Open AI 只把 ChatGPT pro 当附属的升级，实际体验下褒贬不一。据 HyperWrite AI 的 CEO 发布的体验长文来看，虽然功能强大但界面设计有所欠佳。

Antigravity 押宝深度协助体验，Codex-Max 注重长时任务

除了 Gemini3 以外，谷歌还交出了另一份答卷，发布了一个叫 Antigravity 的开发工具（IDE / agent 平台），用 Gemini 3 Pro 来驱动多个 agent 协作。

如果说 Deep Think 是大脑，那么谷歌这次推出的 Antigravity，就是 AI 的 " 双手 "。

对于程序员而言，它类似于 Claude Code 或 OpenAI Codex：可以访问电脑、执行代码、自动生成程序，属于专业的编程智能体。

举个例子，一个用户只给了一个极其简单的指令：" 在《我的世界》里建一个 AI 绘画程序。"

它就直接在游戏环境里，用方块和游戏逻辑，从零开始搭建、训练并运行了一个可以生成图片的 AI 模型，并用游戏中的 3D 方块墙实时展示了 AI" 画图 " 的全过程。

在交互层面上，Gemini3 也发生了改变，整个应用界面和呈现方式焕然一新，更注重结构化布局和可视化内容。另外，Gemini3 也更加人性化了，针对不同人群，系统会有不同的生成界面设计。

比如，一位开发者从一个空白屏幕开始，仅用了几分钟时间，就通过一个详细的提示词，让 Gemini 直接生成了一个界面清爽、设计精美的 Landing Page，并且该页面完全具备响应式设计。

Gemini3 的升级，也正好对应了 AI 心智从文本世界到物理世界的 " 三维结构 " 进化。

前阵子李飞飞发长文，强调空间智能（Spatial Intelligence）是 AI 的终极方向。她认为，真正的智能不仅仅是理解语言，更是要理解物理世界。

在她看来，空间智能包含三个方面：感知层、认知层、行动层面。只有三者深度闭环，才有可能进入空间智能领域。

在我的理解看来，谷歌的 Gemini3 的升级其实就是在感知和认知层上的一大突破，相比其他的模型而言，Gemini3 的一大突破在于，开始从认知层突破，比如会尝试以人类的思维分析一些常见的事物。比如，" 如果这里掉一颗螺丝，桌子可能卡住 " 等等常识问题。

我们从实际体验上也可以看到 Gemini 3 在规划能力上有非常强的自主性。它能自己判断下一步该做什么，也能判断需要在哪些关键节点征求你的同意。

为了测试 Antigravity，一位专攻创业及人工智能的沃顿商学院的教授，给它授权访问了电脑中一个存满杂乱 AI 相关文章的目录，只提了一个模糊需求：" 我需要一个网站，把我所有关于 AI 的预测列出来，再上网查一下哪些预测验证了，哪些没验证。"

之后发生的过程非常顺畅：它自动读取了全部文件；自动调用代码；自动规划网站结构，并在关键步骤主动确认了需求细节。

下面的截图就是它第一次回过来问的问题——你能明显感觉到，它对需求的理解准确清晰，几乎不用再重复任何上下文。只做了几处小修改，就让它继续运行，结果直接生成了一个可编辑、可上线的方案。

这就是 Gemini 3 作为智能体的新质感，不是你告诉我一步我走一步，而是 " 我已经理解你的目标了，我来拆分路径，你只负责确认方向 "。

Chatgpt 5.1-Codex-Max 的特点则是，能够利用内建的压缩功能持续处理长时间任务。

比如，它在实际工程任务中的表现已经优于 GPT-5.1-Codex，并且是首个专门训练能在 Windows 环境下运行的 Codex 模型。在使用 PowerShell 时更是得心应手，在 Windows 机器上的协作能力也比以往更强。

此次，它们还把代理模式带上了 Windows。Codex 能在你的工作文件夹里读文件、写文件、跑指令，关键是不再需要你那一遍遍点头确认，背后是一套新的实验性 Windows 沙箱，会自动限制文件系统和网络的访问。

再看看表现。在 SWE-Bench Verified 的中等难度测试里，它不仅跑赢了 GPT-5.1-Codex，还把思考标记压缩了大约 30%。对于深度、对延迟不敏感的工作，新增了超高推理模式。

文本之争落幕，全模态战争开幕

看完 Gemini 3 性能和 ChatGPT 5.1 pro，从商业和市场竞争的角度来看，我们可以正式宣告：文本之争落幕，多模态战争正式打响。

在这种新格局下，市场对大模型的衡量标准也趋于理性，相比一味追求性能跑分，市场情绪的更加审慎，商业落地和分发能力成了更大的考量。

谷歌 "B/C 端两手抓 " 的战略意图十分明显。

一方面，谷歌利用 Gemini 3 的性能优势，叠加极致的用户体验，快速打开用户心智，并建立起不可替代的生态依赖。

为此，谷歌将 Gemini 3 快速部署至核心产品（Google 搜索、Gemini 应用等）。其中，Gemini 3 在 AI 搜索中的回答不再是传统的链接列表，而是更结构化、可视化的交互网页。这种直观的、高度集成化的体验，让用户迅速习惯并依赖于谷歌的 AI 生态。

这种分发能力 + 强模型的组合拳，也会对竞争对手构成了巨大压力。投资策略师 Mike O ’ Rourke 指出：谷歌把 Gemini 3 部署到其核心产品（比如 Google 搜索、Workspace）里，这种组合可能对 OpenAI 等竞争对手构成很大压力。

另一方面，企业级运用是快速抢占 B 端市场的关键腹地，推出 Vertex AI 和 Antigravity 平台，提供模型定制、安全部署和系统级集成的 PaaS/SaaS 解决方案。

当前市场上，竞争对手也在采取类似的策略抢占 B 端市场，像 AI 企业 Anthropic 前不久就和 IBM 合作，把它们旗下的大模型 Claude 整合进 IBM 的软件体系。

这意味着B 端市场的竞争已经从单一模型性能，转向了 " 模型 + 平台 + 生态 " 的系统整合能力。更重要的是，这暴露了现有竞争格局的结构性弱点。比如百度文心一言等模型虽然也在强调多模态，但目前的行业现状大多是 " 拼凑式 "，用一个模型看图，用另一个模型写字。

所以打通生态闭环已成为科技巨头们不约而同的战略方向。以谷歌、微软为代表的巨头们，凭借主营业务的强大现金流，可以持续为高成本的大模型研发进行投入，而生态的深度集成则能够迅速将技术优势转化为高粘性的客户依赖和稳固的商业收入。

OpenAI 正是吃了缺乏生态的亏，导致 B 端客户流失。比如生态缺失使其商业模式面临结构性挑战，其营收来源对 ChatGPT Plus 订阅和 API 接口授权表现出显著的过度依赖，带来了明显的商业风险和后劲不足。

在 B 端，缺乏自有平台使其难以主导企业的核心工作流，削弱了其技术势能向市场份额转化的效率。所以可以看到，Open AI 短短两年间市场份额快速下滑，仅一年半，从 2023 年 50% 市占率降至 25%。（企业级市场）

企业语言大模型 API 市场份额

早期许多企业使用 OpenAI 的 API 来构建自己的 AI 应用。然而随着谷歌 Gemini、Anthropic Claud 等竞品性能追平甚至超越，企业开始审慎评估成本。如果能用更便宜、更稳定或更易集成的模型达到同样效果，客户就会转向其他供应商，削弱了 OpenAI 的议价能力。

由于 OpenAI 缺乏自己的云基础设施和企业软件生态，只能作为 " 功能 " 被集成。这使得企业在进行大规模、深度定制的 AI 部署时，倾向于选择谷歌或微软这些提供系统级解决方案的平台，导致 OpenAI 在抢占企业级市场的深度和广度上受限。

这种单一的收入结构，在全模态集成战中，使其难以像谷歌、微软一样，将技术优势快速、高效地转化为无处不在的生态收入。

综上，无论是用户体验的跃迁，还是生态层面的全线压制，Gemini 3 的出现都让大模型竞争进入了一个新的叙事周期。

技术路线在重排，商业模式在重塑，行业的主导权也在悄然转移。而当一条技术曲线推进到这个临界点时，讨论性能本身已不够。

宙世代

一起剪

相关标签