谷歌全家桶，都被新模型“污染”了

文 | 字母 AI

距离谷歌的 Gemini 3.5 Flash 发布已经一周多了。

皮查伊在谷歌发布会上口口声声地表示，Gemini 3.5 Flash 性能比 3.1 Pro 还强，说它是 Agent 时代的底座。

可结果呢？网上对 Gemini 3.5 Flash 的评价，除了速度快这唯一的优点外，全是缺点。输出的内容错误多、啰嗦、干活 token 消耗量爆炸 ……

谷歌 Antigravity 负责人瓦伦 · 莫汉（Varun Mohan）在 5 月 25 日发帖称，谷歌已增设 Gemini 3.5 Flash ( Low ) 模型用于优化资源消耗。

瓦伦表示，根据谷歌的内部测试数据，在处理简单任务时，Gemini 3.5 Flash ( Low ) 相比 Gemini 3.5 Flash ( Medium ) 可以减少约 45% 的 token 生成量。在软件工程（SWE）任务上的表现，Gemini 3.5 Flash ( Low ) 普遍优于上一代旗舰模型 Gemini 3 Flash ( High ) 。

然而网友们并不买账，现在，瓦伦的评论区已经被网友们的冷嘲热讽彻底攻占。

热评第一条是 " 你们的产品测试过吗？看起来你们是拿我们在做测试啊！"

第二条是 " 能否也解决一下图像模型的生成数量限制问题？你们的能力需要对标 Codex。我使用 Codex 可以生成 1000 张图像，但在谷歌的高级套餐下，我只能使用 Antigravity 生成 24 张。"

Gemini 3.0 Pro 出来的时候，所有人都在为谷歌鼓掌，OpenAI 甚至因此拉响红色警报，以防止被谷歌超越。

然而到了 3.5 Flash，谷歌成了小丑，眼瞅着就要步入 Meta 的后尘。

那我们不禁要问，谷歌，你这是咋了？

01 Gemini 3.5 的表现没有达到预期

网上对 Gemini 3.5 Flash 的评价非常一致，很快，但是不够好。

皮查伊在发布会上反复强调模型多便宜，然而现实中情况截然相反。

按照官方定价，Gemini 3.5 Flash 每百万输入 token 收费 1.5 美元，每百万输出 token 收费 9 美元，确实比 Claude Opus 4.7 的 5 美元和 25 美元便宜。

但这只是价格表，真正决定成本的，是完成一个任务到底要消耗多少 token。

Artificial Analysis 在完整评估套件中测试发现，Gemini 3.5 Flash 完成全部任务的总成本是 1552 美元，而 Gemini 3 Flash 只需要 282 美元，前者是后者的 5.5 倍。

哪怕是和 Gemini 3.1 Pro 相比，Flash 的成本也高出 75%，大约是 870 美元。更尴尬的是，Gemini 3.5 Flash 完成任务的费用，比 GPT-5.5 medium 还贵。

原因在于 turn count，也就是完成任务需要的轮次。

在 Agent 评估中，Flash 模型平均每个任务需要 49 轮对话。每一轮对话，它都会把完整的对话历史输入给模型，token 成本因此暴增。

而这样的任务，GPT-5.5 或者 Opus 4.7，差不多只用 20 轮就能完成。

所以谷歌说的 " 成本不到一半 "，指的是单位 token 价格。但对用户来说，Gemini 3.5 Flash 一点都不便宜。

除了轮次多了，Gemini 3.5 Flash 的输出非常啰嗦。

比如以前你问 Gemini 3.1 Pro 一个技术问题，模型会直接给出代码和简短解释。

换成 3.5 Flash 之后，同样的问题，模型会先解释背景，再列举三种可能的方案，然后逐一分析优缺点，最后才给出代码。

看起来很全面，实际上大部分内容都是废话。更要命的是，这些废话都算 token，都要收费。

复杂任务的 token 消耗更是爆炸。

有用户反映，让 Flash 执行一个多步骤的代码重构任务，模型反复在不同文件之间跳转，每次跳转都要重新加载上下文，最终消耗的 token 是预期的三倍以上。

还有用户表示，只是输入了一个复杂的 prompt，就直接触发了 5 小时使用限制。

谷歌在 I/O 2026 之后悄悄修改了 AI Pro 订阅的额度规则，从固定消息数，改成了基于计算资源的配额（compute-based quota）。

就是说你一个任务，如果让模型思考得多，那即使它给你回复的内容不变，花的钱也比以前更多。

那么问题来了，我怎么知道一个任务会让模型消耗多少算力？而且，我也推算不出来我还剩多少算力。

可能我只是跟它打个招呼，就花掉很多 token。让它执行一个长周期任务，反而不怎么消耗 token。

有用户在外网论坛上直接把新限制称为 " 骗局 "，称单个 prompt 就消耗了 13% 的配额，某些 Gemini AI Plus 功能一次能烧掉将近 30%。

那为什么 Gemini 3.5 Flash 表现会这么一般？

答案藏在 benchmark 里，Flash 的表现非常不均衡。

Gemini 3.5 Flash 在 Terminal-Bench 2.1、MCP Atlas、Toolathlon、OSWorld 这类 Agent、工具调用、代码执行榜单上表现不错。Terminal-Bench 2.1 拿到 76.2%，MCP Atlas 拿到 83.6%，都算是头部成绩。

这些榜单测的是模型能不能按照指令调用工具、执行命令、完成多步骤操作。Flash 在这些方面确实有优势。

但在更接近 " 聪明不聪明 " 的综合推理榜上，它的表现就有点难看了。

Humanity ‘ s Last Exam 是 40.2%，低于 Gemini 3.1 Pro 的 44.4% 和 Claude Opus 4.7 的 46.9%。ARC-AGI-2 是 72.1%，低于 Gemini 3.1 Pro 的 77.1% 和 GPT-5.5 的 84.6%。GDPval-AA 也低于 Claude Opus 和 GPT-5.5。

也就是说，Gemini 3.5 Flash 有点 " 蠢 "。你给它任务它能去干活，但它 " 智力不够 "。它做不了现在最火的复杂推理、长链分析、创意判断。

记忆方面也有问题。

在谷歌的宣传中，Gemini 3.5 Flash 有最高 1M token 上下文。但模型卡里的 MRCR v2 长上下文测试显示，128k 平均成绩是 77.3%，到 1M pointwise 只有 26.6%。

Gemini 3.5 Flash 虽然能一口吃下很多内容，但是到用的时候就开始糊涂了。

Artificial Analysis 的独立测试直接打脸谷歌。

在编程指数（Coding Index）上，Artificial Analysis 给 Flash 打了 45.0 分，低于 Gemini 3.1 Pro 的 56.5 分，更远低于 GPT-5.5。

02 Gemini 污染了谷歌的入口，导致模型问题会污染 Google 的所有产品体验

谷歌 I/O 2026 上，皮查伊宣布，Gemini 是谷歌全产品宇宙的连接层。

也就是说，Gemini 3.5 Flash 嵌入到了谷歌绝大多数产品里。

外媒表示，"Gemini 正在变得无法避开 "。

过去，一个 AI 不好用，你可以不用。你觉得 ChatGPT 不行，可以换 Claude，还觉得不好你可以压根不用 AI。

但谷歌把 Gemini 放进所有入口以后，Gemini 3.5 Flash 的糟糕体验，污染了谷歌所有产品。

最典型的例子是 AI Overview 和 AI Mode 的 "disregard/ignore/stop" 故障。

用户搜索 "disregard""ignore""stop" 等单词时，谷歌 AI Overview 会把它们误判成指令，导致搜索结果异常或空白。

有用户在 X 上发帖说，搜索 "disregard" 这个词，AI Overview 不是给出定义，而是回复 " 明白了！我会忽略之前的提示，重新开始。"

搜索 "stop"，AI Overview 说 " 没问题。我已经停止当前操作。"

搜索 "ignore"，AI Overview 说 " 收到。消息已忽略。"

嵌入 Gemini 3.5 Flash 以后，AI Overview 把这些单词当成了对话指令，导致 AI Overview 把这些单词当成了对话指令。

问题不只出现在这几个词上。经过网友测试，"remember""start""finished""forget" 这些词也会触发类似故障。即便在搜索词里加上 "definition"，也无法让 AI Overview 回归正常。

谷歌方面回应称，这个问题与 I/O 的新搜索发布无关，是 AI Overviews 自身问题，团队正在修复。

搜索是谷歌的命根子，一旦搜索出了问题，所有人都只会觉得 " 谷歌要凉了 "。

所以现在的压力给到了 Gemini 3.5 Pro。

外界真正想看的，不是谷歌能不能把 AI 塞进所有入口。这个问题已经有答案了，谷歌确实做到了。外界想看的是，Google 能不能拿出一个足够聪明、足够稳定、足够有说服力的旗舰模型，重新证明自己在模型能力上没有掉队。

这个任务 Flash 完成不了。它是一个执行型模型，速度快，能干活，但智力不够。它适合做 Agent 架构里的子任务执行器，配合强规划器使用。但它不是旗舰，它撑不起谷歌在 AI 时代的门面。

最终只能落到 3.5 Pro。

目前，Gemini 3.5 Pro 还在内部测试中。官方博客表示，" 我们也在努力开发 3.5 Pro。它已经在内部使用，我们期待下个月（6 月）推出。"

谷歌产品负责人图尔西 · 多希（Tulsee Doshi）表示，"3.5 Pro 像项目经理，负责想清楚事情该怎么做；Flash 像执行团队，负责把一个个具体任务跑完。真正需要推理和规划的地方，要交给更大的 Pro；只是需要快速调用工具、批量处理任务的地方，用 Flash 就够了。。"

这个架构设计本身没问题，问题在于 Pro 还没出来，很多场景只能让 Flash 一个人苦苦硬撑。

所以 Gemini 3.5 Pro 变成了一个二次验货节点。

如果 3.5 Pro 出来后表现还不错，那谷歌高低还能圆过去。

话术我都想好 " 全线嵌入 Flash 是我们一个尝试，给大家造成了一些不好的产品体验，不过我们已经发布了 3.5 Pro，绝对好用，欢迎大家体验 "。

Flash 的问题可以被理解为一种妥协，Pro 才是真正的实力展示。

但如果 3.5 Pro 表现不好，那谷歌在 AI 这块可以说是全面溃败。

AI Overview 有低级错误、ChatBot 啰嗦、WorkSpace 消耗 token 过高导致价格太贵、Antigravity 没什么起色。所有这些产品都会被 Gemini 拖累，从优势变成负担。

谷歌现在的处境很微妙。它有现金、有基础设施、有 DeepMind。但自从 3.0 Pro 之后，它就一直缺能打的旗舰模型。

3.5 Pro 要补的就是这个缺口。如果 3.5 Pro 做不到，谷歌真就有可能步入 Meta 的后尘。

03 谷歌正在成为硬件公司

不过谷歌并非一败涂地，相反，在硬件这块，谷歌反而支棱起来了。

谷歌 2026 年 Q1 财报显示，公司收入 1099 亿美元，同比增长 22%。谷歌 Search & Other 收入 604 亿美元，同比增长 19%。YouTube 广告收入约 99 亿美元，同比增长 11%。谷歌 Cloud 收入 200 亿美元，同比增长 63%。

这说明谷歌仍然是一台赚钱机器。

这份财报里最亮眼的数字，来自于谷歌 Cloud 的 63% 增长。

皮查伊在财报电话会上说，Cloud 的增长是 " 强劲需求 " 的结果。其实这句话的本质，就是在说谷歌的 TPU 硬件和数据中心卖得非常好。

基于谷歌模型构建的 AI 解决方案同比增长近 800%。Gemini Enterprise 的付费月活用户环比增长 40%。通过 API 使用的 AI token 增长到每分钟 160 亿个，比第四季度的 100 亿增长了 60%。

Cloud 的 backlog（已经签下，但还没有确认成收入的合同金额）在本季度翻了一番，达到 4620 亿美元。

皮查伊说，" 显然，我们在短期内受到算力限制。如果我们能够满足需求，我们的 Cloud 收入会更高。所以我们正在度过这个时刻，我们正在投资，但我们有一个强大的长期规划框架 …… 我们看到了前所未有的机会。"

公司预计在未来 24 个月内完成 50% 的 backlog。

虽然谷歌基座模型不行，编程工具 Antigravity 表现也差强人意，但 TPU 这块表现太好了。

我都怀疑，谷歌是不是忘了自己其实是一个互联网公司，不是一个硬件公司？

Anthropic、Meta 等外部大客户正在租用或采购谷歌 TPU 资源。

Anthropic 在 5 月宣布与谷歌和 Broadcom 签署了新的多年期协议，扩大使用谷歌 Cloud 的 TPU。

这笔交易让 Anthropic 获得了多达 100 万个谷歌 AI 计算芯片的使用权，价值数百亿美元，预计将在 2026 年带来超过 1 吉瓦的容量上线。

1 吉瓦的电厂，大约能给 35 万户家庭供电。

谷歌在 Google Cloud Next 2026 上宣布了第八代 TPU，首次采用双芯片方法，分别针对训练和推理设计专用架构，TPU 8t 和 TPU 8i。

尤其是 TPU 8t，它是专为大规模、计算密集型的训练工作准备的，具有更大的计算吞吐量和更多的 scale-up 带宽。

TPU 8i 则是专为低延迟推理工作负载设计，Agent 干活要反复 " 思考、调用工具、再思考 "。每一步慢一点，几十上百步下来就会很慢，所以低延迟对 Agent 特别重要。

或者你可以这么理解，TPU 8t 是给模型用的。

训练前沿大模型就是让几万块芯片一起跑马拉松。问题不是单块芯片够不够快，而是这几十万块芯片能不能一直持续地跑。

比如说某根网络线坏了、某块芯片不亮了、系统需要重启检查点，那么整个训练集群就会因此浪费掉大量时间。

所以 Google 说 TPU 8t 的重点不是单纯 " 算力更强 "，而是让训练过程更少中断。

谷歌说，TPU 8t 的设计目标，是 goodput 超过 97%。

所谓 goodput，你可以理解成真正用于干活的时间。

比如一台机器理论上工作 100 小时，但中间故障、等待、重启浪费了 10 小时，那有效工作时间只有 90 小时，goodput 就是 90%。

Google 说 TPU 8t 目标超过 97% goodput，意思是它希望大部分时间都真的在训练，而不是在等修复、等重启、等网络恢复。

为了实现超过 97% 的 goodput，谷歌给 TPU 8t 加入了很多横向提升性能的功能。比如系统发现哪里坏了，可以自动绕路，不用人手工停机修。

TPU 8i 则是给 Agent 用的。

Agent 推理是一个非常麻烦的事情，前文提到，Agent 不是回答一次就结束了的，它会反复思考、查资料、调用工具、写代码、再检查、再修正。

一次任务可能要调用模型几十次甚至上百次。

所以 TPU 8i 重点是让这些调用尽可能快。

它有 384MB 板载 SRAM，可以理解成芯片旁边有一片非常快的小记忆区。Agent 短期记忆就保留在这里，那么当 Agent 需要用这些记忆的时候，就可以直接从这里面拿，从而减少来回搬数据的时间。

它还用了更多 CPU 主机，也就是让旁边有更多 " 调度员 " 帮忙安排数据输入输出、任务协调。Agent 跑起来不只是模型算一下，还要不断读数据、发请求、调工具、拿结果，CPU 就是帮 TPU 处理这些杂活的。

微软曾经有过这么一个预测，到 2028 年将有 13 亿个 Agent 投入运行，这才是为什么，谷歌要把 TPU 分成 8t 和 8i，Agent 的归 Agent，训练的归训练。

和谷歌传统的互联网业务相比，TPU 反而是他们现在最硬的叙事。

但问题就在于，Anthropic 能用 TPU 造出 Claude Opus 4.7 以及现在的 Mythos，可谷歌只拿出来了 Gemini 3.5 Flash。

还真就是橘生淮南则为橘，生于淮北则为枳。

宙世代

一起剪