数字生命卡兹克 1小时前
实测Claude Opus4.8,这可能是第一个不会偷懒的模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

本文来自微信公众号:  数字生命卡兹克  ,作者:数字生命卡兹克,原文标题:《实测 Claude Opus 4.8,这可能是第一个不会偷懒的模型。》

大半夜的,刚准备早睡一下。

除此之外,又发了另一个消息。

完成了新一轮 650 亿美元的融资,估值逼近一万亿美元。。。

前有港股智谱 7000 亿市值,后有 Anthropic 估值 7 万亿人民币。

果然 AI 行业的造富神话,比鬼故事还要鬼故事。

但是说实话,距离 4 月 17 号 Opus 4.7 上线,仅仅才过去 42 天,一个半月,又一个新模型扔出来,在 Cluade 的发布历史上,从来没有过。

看来确实 GPT-5.5 和 Codex 给的压力确实太大了,Opus 4.7 的口碑确实把自己也给拉完了,所以没办法,要最快速度把 Opus 4.8 拉出来救火,要不然真的可能被 Codex 偷家偷疯了。

在模型的本身参数比如最大上下文、输出长度、知识库时间啥的,跟 Opus 4.7 几乎是一样。

价格也没变,$5/M 输入、$25/M 输出。

所以基本上用的也是 Opus 4.7 的基模上直接又调了一下。

然后,我就反应过来了一件事,我靠,你 Opus 4.8 上了,你不会要把我的 Opus 4.6 给顶掉了吧。

因为 Opus 4.5 在内容创作上是我觉得的巅峰,Opus 比 Opus 4.7 差了一点,但是我觉得还能用,而 Opus 4.7 是我完全觉得不可用的状态。

按照 claude 在过去网页端只保留两代模型的优良传统,Opus 4.6 可能会被顶掉。

我抱着进展的心情一看。

Claude 我干你大爷。

行吧,只能接受,说不定 Opus 4.8,在内容创作上更好呢?(虽然我几乎不对这个事情抱有期待了。)

说回 Claude Opus 4.8。

不废话,先看跑分截图吧。

跑分我真的不想多聊了,很没劲,反正就是赢学。

数字又高了一点,大概就是这样。

唯一一个在上面穷尽洪荒之力还是没跑过 GPT-5.5 的类别,是 Terminal-Bench 2.1。

这玩意是一个 Agentic 基准,大概就是用来评估 Agent 在真实命令行环境里干活的能力,考的就是把模型直接扔进一个沙盒终端里,让它自己去查文件、敲命令、看报错、调试等等,看看能不能跨多个步骤把一个任务做完。

这个是在 Claude 口径里,唯一一个跑不过 GPT-5.5 的,而且这个还挺要命的。

因为 Terminal-Bench 基本代表着 Agent 开发能力的最高峰,穷尽了洪荒之力也没干过 GPT-5.5,那这过两天 GPT-5.6 出来,那还玩个屁啊。

这也从侧面说明了,GPT-5.5 的开发能力,是真的强。。。

然后再说一说这次更新的一些特性。

1. 思考强度给所有人开放

这次 4.8 上线,同时把一个叫 effort(努力程度)的控制,开放给所有人了,也就是你在 Chat 模式下,也可以调整模型的努力程度了,所有套餐都有,免费用户也有。

Claude Code 和 Cowork 用户对这个东西肯定很熟悉。

位置就在模型选择那个地方旁边。

上面那个从 Low 到 Max,就是努力等级。

下面那个自适应思考记得别关,还是开着,组合起来用就行。

我自己其实常年喜欢默认开着 Extra,然后开大活就上 Max 的,因为 Opus 4.7 只有自适应思考,不是很好用,Opus 4.8 终于给弄回来了。

2. 变得更精确但也更不主动了

Opus 4.8 更新以后,有一个明显的感觉,就是它更加的精确了,有一点 GPT-5.5 的感觉,指哪打哪。

更加的遵循你的指令,这确实对于专业的开发者来说,是件好事。

但是同时也带来一个弊端,就是他的主动性,会变弱。

就是你让它干 A,它现在就只干 A,绝不会自作主张觉得诶你这意思是不是顺便也想要 B 然后把 B 也顺带手给你办了。

我自己现在就遇到了,晚上测试的时候,习惯性的没跟它说一定要去看线上数据不要只看本地代码,但是在 Opus 4.6 和 4.7 的时候,他们都还是会主动的去用我的 skill 连接线上服务器,看生产环境的数据的,但是 Opus 4.8 却两次都没主动去看,给我的方案,都是基于本地的,这反而给我带来了一些麻烦,重新调整了一下文档和记忆,才好一点。

对于一个设计好了自己 Harness 的环境的专业开发者,我觉得会感觉到非常得劲,那其实能感觉到,它的错误率和幻觉率,都在降低,很精准。

但是如果把这个群体,推衍到整个 Vibe Coding 群体,我其实绝对,不一定是个好事。

我们视频组同事今晚在用 Opus 4.8 来测他们的用 Skill 来做视频动效的工作流,发现效果反而变差的,有一个很形象的描述就是。

而且你能明显的感觉到,更加自信,在过程中跟你确认的时刻变少了。

比如这个,优化方案出来,直接不确认,直接就自己干了。

因为我们其实很多非专业者,在用 AI 的时候,是靠着 AI 的主动性去往前走的,就是真的有的时候会用习惯了那种你懂我意思的爽感。

你含含糊糊扔一句话过去,它就能猜到你心里那个完整的需求,然后问你是不是,在帮你直接搞出来,这种被理解的感觉,其实还挺上头的。

当然这个爽感,是有代价的,就是模型的主观性太强,代价就是不可控。

它猜对了你舒服,它猜错了呢,它就拿着一个你压根没提的需求,吭哧吭哧给你干一堆活,最后还得你来擦屁股,这种出发点是好的但是结果是拉的,在长时 Agent 任务中,尤其要命。

所以,未来再跟 Opus 4.8 协同的时候,可能需要,对大家需求表达能力,要求的更高了。

3. 变得更加诚实了

这个点更上面有点像,也是 Anthropic 自己拎出来放在博客核心位置的点。

过去大家一定遇到过,就比如说 Claude 帮你写个功能,它噼里啪啦给你写了一大段,然后特别自信地跟你说,搞定了,没问题,可以跑了。

你信了,你一跑,你才发现,另一个地方崩了。

你回去问它,它又特别自信地说,哦抱歉,问题找到了,对不去我没有发现,我再改一下,这下绝对没问题了。

你又信了,你又跑,然后你又报错了。

很多时候经常会出现。

你要知道,它每一次都那么斩钉截铁,每一次都那么言之凿凿,但每一次,它其实自己心里也没底,AI,很多时候,只是被训练得看起来很有把握而已,这个毛病,几乎是所有大模型的通病。

这次 Opus 4.8,就在这个问题上做了重点的优化。

官方公告对外说的数字是,4.8 让自己写的代码里的瑕疵蒙混过关的概率,比上一代低了大概 4 倍。

我又去翻了下这次 Opus 4.8 的系统卡。

然后发现了更牛逼的东西。

在偷懒这个问题上,Opus 4.8,好像是唯一一个,能做到 0% 不良率的模型。

在我夜里几个小时的测试与开发中,我也能感觉到,这是真的不偷懒啊,思考的是真细啊。。。

之前有次都给我干生气了。

Opus 4.8 明显靠谱很多,非常详细的在全面审查我的代码,找尽可能需要优化的地方。

我同事的反馈也是这样。

基本上大家的感觉都差不多。

Opus 4.8 在开发上总体的感觉,是有大进步的。

4. 创作能力

同样的 Skill,同样的创作,比 Opus 4.7 是有进步的,但是依然比不上 Opus 4.6。

比如我把我我之前写的 AI 时代的 6 个人才特质给抽离出来了,让 Opus 4.8 用我的写作 Skill 去写,写出来的一些句子,是这样的。

Opus 4.6+ 我的 Skill 是绝对不会写出这种话的,不是 XX、而是 XX,这是明确的禁用词,直接给我改成不再是来去规避,真的是耍小聪明。

还有那个奇怪的比喻,为什么要把靠谱特质的人,比喻成 " 高速运转的机器里那点润滑油 ",我是真的有点不理解,这是有什么奇怪的癖好吗。

还有这段,非要把一个人,给比喻成一个物化的锚???

还有模型奇妙的大段的无意义的排比,把所谓的 AI 味的禁忌都犯了个遍。

让它根据《流浪地球 2》的故事,续写一个新的地下城的 1000 字的小故事。

写的也挺刻板印象的。

比 4.7 好,但是确实没好多少。

整体的人机味还都挺重的。

5. 其他更新

这次 Opus 4.8 还迭代了下快速模型,官方叫 fast mode。

之前其实就有,你再 Claude Code 里输入 /fast 就有。

只是之前是 Opus 4.7 的 fast 就是比较贵,2.5 倍的速度,但是是 6 倍的价格。

普通版本价格一直是百万输入 5 美元、百万输出 25 美元,然后 Opus 4.7 fast 模式的价格是输入 30 美元、输出 150 美元。

但是这次做了一个还不错的升级,速度直接达到了标准版的 2.5 倍的速度,价格却只有之前版本 fast 的三分之一,降到了输入 10 美元,输出 50 美元。

从标准版的 6 倍价格,变成了标准版的 2 倍价格,但是速度没变。

也能侧面看出来马斯克的算力确实是给到位了,Claude 一下子就财大气粗了。

然后还有一个东西,也挺有意思的,是 Claude Code 的 dynamic workflows 功能。

翻译过来叫动态工作流。

大概作用就是,让 Claude 自己写一套编排脚本,在一次任务里,一口气拉起几十个、甚至上百个子 agent 并行开干,干完它还会先自己验一遍,确认没问题了,然后把结果交给你。

原话是:" 有些问题过于庞大,单次单代理处理难以胜任,尤其是在复杂、遗留的代码库中:跨整个服务的缺陷排查、涉及数百个文件的迁移、或是在最终决策前需要从多角度进行压力测试的方案。动态工作流能够端到端地处理所有这些任务。"

触发方式有两种。

第一种是直接跟 Claude Code 说,创建一个动态工作流 balbalbala。

第二种是,把努力级别调整成一个特殊的选项 Ultracode,这个设置会自己会将努力级别调至 xhigh,同时让 Claude 自动判断何时使用工作流来处理你的任务。

那写代码这事,以后还有人干吗?

这次 Opus 4.8 的更新总结,大概就是这样。

我自己还是比较喜欢的,因为在开发上确实有不错的加成,整体确实变好用了。

但是在创作上,我还是有点失落的,因为把我的 Opus 4.6 给顶掉了。。。

未来为了适配 Opus 4.8,可能我们的很多跟内容相关的 Prompt 和 Skill 全都得重写了,因为这玩意牵扯的东西太多了,调研、历史文献撰写、分镜撰写、特效生成啥的,全都是内容。。。

就很烦,好不容易都在 Opus 4.6 上跑通了,又得全部重新来。

哎。

哦对了,Anthropic 这次还留了个更大的钩子。

除了 Opus 这条线,它们手里那个还攥了很久的,比 Opus 智能还要更高一档的新模型,代号 Mythos,说是过几周,就能给所有客户用上了。

到时候,我想看看这个号称最牛逼的模型。

到底是个什么光景。

AI 啊,真好玩。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论