实测Claude Opus4.8，这可能是第一个不会偷懒的模型

本文来自微信公众号：数字生命卡兹克，作者：数字生命卡兹克，原文标题：《实测 Claude Opus 4.8，这可能是第一个不会偷懒的模型。》

大半夜的，刚准备早睡一下。

除此之外，又发了另一个消息。

完成了新一轮 650 亿美元的融资，估值逼近一万亿美元。。。

前有港股智谱 7000 亿市值，后有 Anthropic 估值 7 万亿人民币。

果然 AI 行业的造富神话，比鬼故事还要鬼故事。

但是说实话，距离 4 月 17 号 Opus 4.7 上线，仅仅才过去 42 天，一个半月，又一个新模型扔出来，在 Cluade 的发布历史上，从来没有过。

看来确实 GPT-5.5 和 Codex 给的压力确实太大了，Opus 4.7 的口碑确实把自己也给拉完了，所以没办法，要最快速度把 Opus 4.8 拉出来救火，要不然真的可能被 Codex 偷家偷疯了。

在模型的本身参数比如最大上下文、输出长度、知识库时间啥的，跟 Opus 4.7 几乎是一样。

价格也没变，$5/M 输入、$25/M 输出。

所以基本上用的也是 Opus 4.7 的基模上直接又调了一下。

然后，我就反应过来了一件事，我靠，你 Opus 4.8 上了，你不会要把我的 Opus 4.6 给顶掉了吧。

因为 Opus 4.5 在内容创作上是我觉得的巅峰，Opus 比 Opus 4.7 差了一点，但是我觉得还能用，而 Opus 4.7 是我完全觉得不可用的状态。

按照 claude 在过去网页端只保留两代模型的优良传统，Opus 4.6 可能会被顶掉。

我抱着进展的心情一看。

Claude 我干你大爷。

行吧，只能接受，说不定 Opus 4.8，在内容创作上更好呢？（虽然我几乎不对这个事情抱有期待了。）

说回 Claude Opus 4.8。

不废话，先看跑分截图吧。

跑分我真的不想多聊了，很没劲，反正就是赢学。

数字又高了一点，大概就是这样。

唯一一个在上面穷尽洪荒之力还是没跑过 GPT-5.5 的类别，是 Terminal-Bench 2.1。

这玩意是一个 Agentic 基准，大概就是用来评估 Agent 在真实命令行环境里干活的能力，考的就是把模型直接扔进一个沙盒终端里，让它自己去查文件、敲命令、看报错、调试等等，看看能不能跨多个步骤把一个任务做完。

这个是在 Claude 口径里，唯一一个跑不过 GPT-5.5 的，而且这个还挺要命的。

因为 Terminal-Bench 基本代表着 Agent 开发能力的最高峰，穷尽了洪荒之力也没干过 GPT-5.5，那这过两天 GPT-5.6 出来，那还玩个屁啊。

这也从侧面说明了，GPT-5.5 的开发能力，是真的强。。。

然后再说一说这次更新的一些特性。

1. 思考强度给所有人开放

这次 4.8 上线，同时把一个叫 effort（努力程度）的控制，开放给所有人了，也就是你在 Chat 模式下，也可以调整模型的努力程度了，所有套餐都有，免费用户也有。

Claude Code 和 Cowork 用户对这个东西肯定很熟悉。

位置就在模型选择那个地方旁边。

上面那个从 Low 到 Max，就是努力等级。

下面那个自适应思考记得别关，还是开着，组合起来用就行。

我自己其实常年喜欢默认开着 Extra，然后开大活就上 Max 的，因为 Opus 4.7 只有自适应思考，不是很好用，Opus 4.8 终于给弄回来了。

2. 变得更精确但也更不主动了

Opus 4.8 更新以后，有一个明显的感觉，就是它更加的精确了，有一点 GPT-5.5 的感觉，指哪打哪。

更加的遵循你的指令，这确实对于专业的开发者来说，是件好事。

但是同时也带来一个弊端，就是他的主动性，会变弱。

就是你让它干 A，它现在就只干 A，绝不会自作主张觉得诶你这意思是不是顺便也想要 B 然后把 B 也顺带手给你办了。

我自己现在就遇到了，晚上测试的时候，习惯性的没跟它说一定要去看线上数据不要只看本地代码，但是在 Opus 4.6 和 4.7 的时候，他们都还是会主动的去用我的 skill 连接线上服务器，看生产环境的数据的，但是 Opus 4.8 却两次都没主动去看，给我的方案，都是基于本地的，这反而给我带来了一些麻烦，重新调整了一下文档和记忆，才好一点。

对于一个设计好了自己 Harness 的环境的专业开发者，我觉得会感觉到非常得劲，那其实能感觉到，它的错误率和幻觉率，都在降低，很精准。

但是如果把这个群体，推衍到整个 Vibe Coding 群体，我其实绝对，不一定是个好事。

我们视频组同事今晚在用 Opus 4.8 来测他们的用 Skill 来做视频动效的工作流，发现效果反而变差的，有一个很形象的描述就是。

而且你能明显的感觉到，更加自信，在过程中跟你确认的时刻变少了。

比如这个，优化方案出来，直接不确认，直接就自己干了。

因为我们其实很多非专业者，在用 AI 的时候，是靠着 AI 的主动性去往前走的，就是真的有的时候会用习惯了那种你懂我意思的爽感。

你含含糊糊扔一句话过去，它就能猜到你心里那个完整的需求，然后问你是不是，在帮你直接搞出来，这种被理解的感觉，其实还挺上头的。

当然这个爽感，是有代价的，就是模型的主观性太强，代价就是不可控。

它猜对了你舒服，它猜错了呢，它就拿着一个你压根没提的需求，吭哧吭哧给你干一堆活，最后还得你来擦屁股，这种出发点是好的但是结果是拉的，在长时 Agent 任务中，尤其要命。

所以，未来再跟 Opus 4.8 协同的时候，可能需要，对大家需求表达能力，要求的更高了。

3. 变得更加诚实了

这个点更上面有点像，也是 Anthropic 自己拎出来放在博客核心位置的点。

过去大家一定遇到过，就比如说 Claude 帮你写个功能，它噼里啪啦给你写了一大段，然后特别自信地跟你说，搞定了，没问题，可以跑了。

你信了，你一跑，你才发现，另一个地方崩了。

你回去问它，它又特别自信地说，哦抱歉，问题找到了，对不去我没有发现，我再改一下，这下绝对没问题了。

你又信了，你又跑，然后你又报错了。

很多时候经常会出现。

你要知道，它每一次都那么斩钉截铁，每一次都那么言之凿凿，但每一次，它其实自己心里也没底，AI，很多时候，只是被训练得看起来很有把握而已，这个毛病，几乎是所有大模型的通病。

这次 Opus 4.8，就在这个问题上做了重点的优化。

官方公告对外说的数字是，4.8 让自己写的代码里的瑕疵蒙混过关的概率，比上一代低了大概 4 倍。

我又去翻了下这次 Opus 4.8 的系统卡。

然后发现了更牛逼的东西。

在偷懒这个问题上，Opus 4.8，好像是唯一一个，能做到 0% 不良率的模型。

在我夜里几个小时的测试与开发中，我也能感觉到，这是真的不偷懒啊，思考的是真细啊。。。

之前有次都给我干生气了。

Opus 4.8 明显靠谱很多，非常详细的在全面审查我的代码，找尽可能需要优化的地方。

我同事的反馈也是这样。

基本上大家的感觉都差不多。

Opus 4.8 在开发上总体的感觉，是有大进步的。

4. 创作能力

同样的 Skill，同样的创作，比 Opus 4.7 是有进步的，但是依然比不上 Opus 4.6。

比如我把我我之前写的 AI 时代的 6 个人才特质给抽离出来了，让 Opus 4.8 用我的写作 Skill 去写，写出来的一些句子，是这样的。

Opus 4.6+ 我的 Skill 是绝对不会写出这种话的，不是 XX、而是 XX，这是明确的禁用词，直接给我改成不再是来去规避，真的是耍小聪明。

还有那个奇怪的比喻，为什么要把靠谱特质的人，比喻成 " 高速运转的机器里那点润滑油 "，我是真的有点不理解，这是有什么奇怪的癖好吗。

还有这段，非要把一个人，给比喻成一个物化的锚？？？

还有模型奇妙的大段的无意义的排比，把所谓的 AI 味的禁忌都犯了个遍。

让它根据《流浪地球 2》的故事，续写一个新的地下城的 1000 字的小故事。

写的也挺刻板印象的。

比 4.7 好，但是确实没好多少。

整体的人机味还都挺重的。

5. 其他更新

这次 Opus 4.8 还迭代了下快速模型，官方叫 fast mode。

之前其实就有，你再 Claude Code 里输入 /fast 就有。

只是之前是 Opus 4.7 的 fast 就是比较贵，2.5 倍的速度，但是是 6 倍的价格。

普通版本价格一直是百万输入 5 美元、百万输出 25 美元，然后 Opus 4.7 fast 模式的价格是输入 30 美元、输出 150 美元。

但是这次做了一个还不错的升级，速度直接达到了标准版的 2.5 倍的速度，价格却只有之前版本 fast 的三分之一，降到了输入 10 美元，输出 50 美元。

从标准版的 6 倍价格，变成了标准版的 2 倍价格，但是速度没变。

也能侧面看出来马斯克的算力确实是给到位了，Claude 一下子就财大气粗了。

然后还有一个东西，也挺有意思的，是 Claude Code 的 dynamic workflows 功能。

翻译过来叫动态工作流。

大概作用就是，让 Claude 自己写一套编排脚本，在一次任务里，一口气拉起几十个、甚至上百个子 agent 并行开干，干完它还会先自己验一遍，确认没问题了，然后把结果交给你。

原话是：" 有些问题过于庞大，单次单代理处理难以胜任，尤其是在复杂、遗留的代码库中：跨整个服务的缺陷排查、涉及数百个文件的迁移、或是在最终决策前需要从多角度进行压力测试的方案。动态工作流能够端到端地处理所有这些任务。"

触发方式有两种。

第一种是直接跟 Claude Code 说，创建一个动态工作流 balbalbala。

第二种是，把努力级别调整成一个特殊的选项 Ultracode，这个设置会自己会将努力级别调至 xhigh，同时让 Claude 自动判断何时使用工作流来处理你的任务。

那写代码这事，以后还有人干吗？

这次 Opus 4.8 的更新总结，大概就是这样。

我自己还是比较喜欢的，因为在开发上确实有不错的加成，整体确实变好用了。

但是在创作上，我还是有点失落的，因为把我的 Opus 4.6 给顶掉了。。。

未来为了适配 Opus 4.8，可能我们的很多跟内容相关的 Prompt 和 Skill 全都得重写了，因为这玩意牵扯的东西太多了，调研、历史文献撰写、分镜撰写、特效生成啥的，全都是内容。。。

就很烦，好不容易都在 Opus 4.6 上跑通了，又得全部重新来。

哎。

哦对了，Anthropic 这次还留了个更大的钩子。

除了 Opus 这条线，它们手里那个还攥了很久的，比 Opus 智能还要更高一档的新模型，代号 Mythos，说是过几周，就能给所有客户用上了。

到时候，我想看看这个号称最牛逼的模型。

到底是个什么光景。

AI 啊，真好玩。

宙世代

一起剪