硅星人 昨天
Gemini 3.1:“0.1”小更新就压过对手大迭代,Google卷的更猛了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者:王兆洋和他的 Kimi 2.5 Agent 集群

Gemini 3.1 来了

2026 年 2 月 19 日,Google 发布 Gemini 3.1 Pro。这是 Google 首次以 ".1" 作为版本增量发布 Gemini 模型——此前的版本迭代均为 0.5 递进(1.0 → 1.5 → 2.0 → 2.5 → 3.0)。

Google 将此次更新定位为 " 核心推理能力的进步 "(a step forward in core reasoning),其技术基础是上周 Gemini 3 Deep Think 更新中引入的 " 核心智能 "(core intelligence)架构。

在两项关键基准测试中,Gemini 3.1 Pro 呈现显著性能提升。ARC-AGI-2 测试得分 77.1%,较 Gemini 3 Pro 的 31.1% 提升超过一倍。在 Humanity's Last Exam 测试中,Gemini 3.1 Pro 得分 44.4%,高于 Gemini 3 Pro 的 37.5% 和 GPT-5.2 的 34.5%。

Artificial Analysis 独立评测显示:整体智能维度 Gemini 3.1 Pro 以 57 分居首,Claude Opus 4.6 以 53 分位列第二;编码能力 Gemini 3.1 Pro 以 56 分排名第一;Agentic 任务方面 Claude Opus 4.6 以 68 分领先,Gemini 3.1 Pro 为 59 分。

访问渠道已同步开放。开发者可通过 Gemini API、Google AI Studio、Gemini CLI、Google Antigravity 及 Android Studio(预览版)调用;企业用户可使用 Vertex AI 和 Gemini Enterprise;普通消费者可在 Gemini App 和 NotebookLM 中使用,其中 Pro 和 Ultra 订阅用户享有更高额度。

此次更新最 " 吓人 " 的地方是,Google 一个 " 超级小 " 版本的迭代,达到了其他家模型大迭代的效果。

当然版本号随便定,但这个信号背后,Google 这样处理版号策略的调整——从 0.5 增量改为 0.1 增量——直接意味着 Google 将加快模型迭代节奏,以更细粒度的方式推送能力改进。

也就是,此前一段时间多少还比较淡定的 Google,也要开卷了!

官方给出的惊艳案例:更智能,更美,更全面

在官方发布的演示中,四个案例展示了 Gemini 3.1 Pro 的代码生成能力。

第一个案例是将文学风格转化为网站设计。系统以《呼啸山庄》为灵感,假设书中角色是一位风景摄影师,生成了一套完整的个人作品集网站。视觉上,网站采用了与小说氛围相符的色调和排版,将文学意境直接映射为界面元素。

第二个案例是 3D 椋鸟群飞模拟。用户可以通过界面交互控制鸟群的运动方向,鸟群的飞行动态会实时生成对应的音景,声音随鸟群密度和运动状态变化。这是一个将视觉、交互和音频整合在一起的完整演示。

第三个案例是国际空间站位置可视化。系统生成了一个 HTML 仪表盘,集成了第三方 API 获取的实时数据,在地图上显示空间站的当前位置和运行轨迹。这展示了模型处理外部数据接口的能力。

第四个案例是动画 SVG 生成。模型直接输出了可在网页中使用的动画 SVG 文件,这种矢量格式可以任意缩放而不损失画质,适合需要响应式设计的项目。

这些案例的共同特点是:它们都是完整的、可直接运行的代码产物,而非片段或伪代码。从文学作品到交互模拟,从数据可视化到图形生成,覆盖了不同的应用场景。模型在这些任务中的表现如何,读者可以自行判断。

Gemini 3.1 Pro 的技术迭代,体现了一条务实的路径:在颠覆式重构不太会经常出现后,要追求对现有架构的精细化打磨。

架构层面延续了 MoE(混合专家)路线,100 万 token 的上下文窗口和 64,000 token 的输出上限维持不变。这个规模在当前的模型梯队中仍属头部,足以支撑长文档分析、代码库理解等场景。真正值得关注的,是推理机制的重构。

三层思考模式(Low/Medium/High)的引入,本质上是对 " 计算 - 质量 - 成本 " 三角关系的显式化管理。Low 模式追求响应速度,适合高并发场景;High 模式则调用完整推理能力,处理复杂问题可能需要数分钟——这种设计让用户能够根据任务难度主动权衡成本,而非被动接受统一计价。Medium 层级的加入填补了此前的空白,为日常任务提供了更经济的中间选项。

同时,Deep Think 技术也出现了 " 下放 ",上周 Gemini 3 Deep Think 在 ARC-AGI-2 测试中取得 84.6% 成绩所依赖的 " 并行思考技术 ",已被整合进基础模型。这意味着模型能够同时探索多条解题路径,再通过内部评估筛选最优解。与此同时,原本用于 Flash 模型的强化学习技术也被迁移至 Pro 版本,这种技术栈的横向打通,比单纯的参数堆叠更有价值。

幻觉控制方面的进步也很关键。AA-Omniscience Index 从 13 分跃升至 30 分,在主流模型中排名第一。这一指标衡量的是模型对自身知识边界的认知能力——知道 " 不知道什么 ",比知道 " 知道什么 " 更难,也更重要。

总体而言,Gemini 3.1 Pro 的升级逻辑清晰:不追求单项指标的惊艳,而是在可控成本下,系统性地提升模型的可用性和可靠性。

榜单之外,更重要是 Google 也开始卷了

Gemini 3.1 Pro 发布后,技术社区的声音呈现出明显的分化。

乐观派将目光投向了数据。ARC-AGI-2 基准 77.1% 的得分被视为实质性突破——这不仅是上一代 31.1% 的两倍以上,也意味着模型在处理全新逻辑模式时的能力跃升。

幻觉抗性指标(AA-Omniscience Index)从 Gemini 3 Pro 的 13 跃升至 30,远超 Claude Opus 4.6 的 11,这一进步被开发者群体频繁提及。三层思考模式的设计也受到好评——让用户根据任务复杂度自主选择 " 快速 / 深度 / 深度 +" 模式,被认为是对控制权的合理让渡。

但质疑声同样值得倾听。Gartner 分析师 William McKeon-White 的评价代表了一种审慎态度:" 这是好的持续进步,但没有什么根本性的游戏规则改变者。" 华盛顿大学教授 Chirag Shah 则提出了更深层的问题:更好的推理能力确实是处理复杂任务的必要条件,但并非充分条件—— " 更何况,' 复杂 ' 本身的定义就不明确。"LMArena 的盲测数据也提供了另一种视角:3.1 Pro 相比 Gemini 3 Pro 的提升幅度有限,在扩展文本和代码任务上仍落后于 Claude。

中立观察者更关注宏观趋势。AI 模型排行榜被形容为 " 抢椅子游戏 " —— Claude、Gemini、GPT 轮流登顶,每次领先周期只有数周。发布节奏的密集同样引人注目:Anthropic Sonnet 4.6 于 2 月 17 日发布,Google Gemini 3.1 Pro 紧随其后于 2 月 19 日登场。一个被反复提及的观察是:基准分数与真实用户体验之间存在落差,排行榜上的领先不等于实际工作流中的优势。

其实,相比于在榜单上几个小数点的提升,更重要的是 Google 自己策略的更加激进化。

Gemini 3.1 Pro 的发布,首先标志着 Google 产品策略的微妙转向。首次采用 ".1" 版本号,意味着从过去追求 " 大版本震撼 " 的发布节奏,转向更贴近工程实际的持续迭代模式。

这种转变本身说明:AI 竞赛已进入长跑阶段,单次爆发的窗口期正在收窄。在高端推理市场,Google 终于拿出了与 GPT-5.2 和 Claude 正面交锋的产品,而其真正的护城河或许不在于模型本身,而在于 Cloud 和 Workspace 构成的企业基础设施——这是 OpenAI 和 Anthropic 短期内难以复制的。

从行业视角看,推理能力正在成为模型竞争的新高地。Gemini 3.1 Pro 与 Anthropic 的发布时间间隔仅两天,这种以天为单位的跟进速度,反映出头部厂商的技术差距正在收窄。更具信号意义的是定价策略:最高性能模型的价格反而更低,这意味着价格战已从 " 性价比竞争 " 升级为 " 性能溢价消失 " 的新阶段。

Gemini 3.1 Pro 定价为 $4.50/ 百万 token(混合价格),低于 GPT-5.2 的 $4.80、Claude Sonnet 4.6 的 $6 和 Claude Opus 4.6 的 $10。API 定价分档:≤ 200K tokens 时输入 $2、输出 $12;>200K tokens 时输入 $4、输出 $18。

免费用户可直接在 Gemini Web UI 使用 Gemini 3.1 Pro,无需订阅 Gemini Advanced。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

google android 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论