文 | 字母 AI
Claude Opus 变蠢了。
最近一段时间,越来越多用户开始有一种很难讲的感觉:虽然这个模型没有明显出错,但也不再像以前那样 " 聪明 "。
回答更快了,推理更短了,有时候看起来像是跳过了某些本该认真完成的步骤,变得敷衍了。
如果这种情况只是个例,用户可能还会怀疑是不是自己的问题,但当相似的声音越来越多,这就不再是单纯的 " 感觉不对 " 了。
网上甚至开始出现一些视频,调侃现在的 Opus 就像凶猛的狮子被摘了毛圈,发现原来只是一条狗。
一个更直接的说法开始流传:Opus 被削了!
这是真的吗?如果是真的,它为什么会被削呢?

推理深度下降 67%
一开始只是零星的用户在吐槽,说 Claude Opus" 变懒了 "" 没以前聪明了 "。
可能只是偶尔犯了一些过去不会犯的低级错误,或者在复杂任务里少做了几步推理。
某种意义上,和模型的协同很像是和真人的交往,一直以来配合得很好的 " 同事 " 某天忽然变脸了,搁谁谁都得难受。
碰到这种情况,大多数人的第一反应都是怀疑自己:是不是 prompt 写得不够好?还是任务本来就不适合?这种情况应该只是偶然事件吧?
但很快,在 Reddit 的 Claude 社区里,类似的反馈开始密集出现,而且描述高度一致:
有人说它不再仔细读代码;有人说它更快给答案,但经常漏掉关键步骤;也有人发现,它在长任务中更容易 " 提前结束 ",像是默认事情已经完成。

当不同用户在不同场景下开始重复同一类问题时,这件事似乎不再是所谓的 " 感觉不对 ",更像是一种行为模式的变化。
换句话说,不是感觉错了,是模型真的在变。
真正让讨论升级的是这个数字:有人在 Claude Code 的使用过程中,对历史交互日志进行对比,发现模型在复杂任务中的推理过程明显缩短,自 2 月更新以来,推理深度下降了 67%。

(参考链接:https://github.com/anthropics/claude-code/issues/42796)
作者坦率地说明,67% 是基于签名长度与思考内容长度的相关估计,而不是直接测量。还提到一月份的日志被删除了,所以基线对比不太准确。
相比之下,报告里更有说服力的,其实是那些行为层面的变化。比如 read:edit(读取代码 vs 修改代码)的比例,从 6.6 下降到了 2.0;3 月 8 日之后,被 stop hook 捕捉到的违规行为有 173 次,而之前是 0。

不过数字是否精确并没有那么重要,重要的是它让一件原本模糊的体感问题,第一次被量化成一个可以讨论的趋势。
于是,一个新词在社区里开始流行:"AI shrinkflation"(AI 缩水式通胀)。
缩水式通胀是一个经济学术语,指的是商品的大小或数量减少,而价格不变。放在这里的意思也很直接,模型实际给到用户的能力变少了,但模型看起来还是同一个名字。
敷衍的背后
相比社区的激烈反应,Anthropic 并没有直接承认 " 模型变弱 "。
Claude Code 的开发负责人 Boris 给出的解释是,这些变化来自系统层的调整:包括工具调用方式、推理策略以及资源分配机制的变化,而不一定是模型本身能力的下降。
他举了个例子:在 Claude Code 中,一部分问题被认为源于工具链和系统 prompt,而不是模型本身;与此同时,在高负载情况下,系统需要对算力、token 和请求进行控制,这也会影响用户体验。
在最新版本中,Anthropic 引入了一种叫 " 自适应推理 "(adaptive thinking)的机制,模型会根据任务复杂度,动态决定是否以及使用多少推理。
也就是说,并不是模型变差了,只是模型开始 " 自己决定 " 要使用多少算力。

(参考链接:https://news.ycombinator.com/item?id=47660925)
从工程角度看,这是一种很合理的优化,简单任务少思考,复杂任务多思考,以提升整体效率
但问题在于,效率优化和能力削弱,在用户体验上并没有区别。
当一个模型开始更少阅读上下文、更快给出答案、更频繁地提前结束任务,用户感受到的不会是优化,而是敷衍。
而且这个自适应推理机制,从感性的角度来讲,也确实会让人不太舒服。
还是拿人际交往的那个比喻:凭什么一开始好好的,用到后面就觉得我的事情不重要了?
这种不适感很快被另一个变化放大了:Mythos 还未发布就广受关注,Claude Mythos Preview 直接被 Anthropic 称为 " 能力跃迁的一代 ",在代码与安全任务上表现出远超以往的能力。因此它被限制性地提供给少数机构使用,用来加固 " 全球最关键的软件系统 "。
当 " 更强的新模型 " 与 " 体感变差的旧模型 " 同时出现,一个在社区中不断被提起的猜测开始成型:把旧模型削了再抬新模型,一捧一踩,就会显得新模型有着巨大的升级。
这个逻辑没有直接证据,但它正在被越来越多用户相信。

模型不再稳定
实际上,类似的事情对 AI 来说并不陌生。
早在 2023 年就有研究对比了 GPT-4 在不同时间的表现,发现同一个模型在几个月内,推理方式和输出行为都发生了明显变化。这些变化后来被解释为多种因素叠加的结果:包括推理策略调整、安全策略收紧,以及对成本和响应速度的优化。

把阴谋论抛在一边,如果确实存在一定程度的资源倾斜,在 AI 行业其实算是常态:无论是 OpenAI 还是 Google,几乎所有公司都会优先优化最新一代模型,旧模型则逐渐被边缘化。
算力是成本,也是生产力。当新模型的能力上限更高、潜在价值更大时,把更多资源投入进去,本身是一种理性的选择。
在这个过程中,旧模型的状态自然会发生变化:被 " 降权 "、推理深度被压缩、资源分配被重新调整……这些都可以理解为一种工程上的取舍。
不过理解归理解,新模型不开放给大众使用,旧模型又在毫无征兆的情况下弄成这样,谁能轻易接受?

从用户的视角来看,最让人不满的并不是模型的 " 变蠢 ",而是它的 " 不稳定 "。
当模型本身从一个稳定的工具变成一个会不断变化的系统,它自己做出了 " 更好的调整 ",没有提示,没有版本说明,也没有边界。
作为用户,你不知道它什么时候变了,不知道它具体变了什么,更不知道这种变化会不会影响你正在做的事情。
你只能感受到它变了,变得没以前好用了。
这个时候,有一个新模型放在你的面前,看起来比现在这个更稳定、更可靠,或许用起来会更顺手。
于是选择就变得微妙起来:似乎不再是你主动选择新模型,而是旧模型的变化把你推向更新的那一个。
即使你知道,新模型也可能在某一天变成下一个旧模型,可能还是会猝不及防地 " 优化 " 成让人难受的版本。
但在那一刻,差距已经摆在眼前。


登录后才可以发布评论哦
打开小程序可以发布评论哦