硅星人 5小时前
Sonnet 4.6 :Anthropic 最卷的模型,不惜“逼死”自家Opus
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在最近的模型混战中,不只是中国厂商们在卷,Anthropic 也在半个月连续发布了两款模型。而其中,最近发布的 Sonnet 4.6 有些特殊,它不是旗舰,却在多个维度追平甚至超过了旗舰。看起来它用 Opus 1/3 的价格,就追上了它 99% 的性能。

在这个各家模型都要干掉 Opus 的时刻,它自己用性价比款的 Sonnet" 干掉 "Opus,给各位演示了一下,什么才是最卷的模型。

而且,这款模型非常值得关注的地方是,它让 AI 操作电脑这件事第一次接近了 " 真的能用 " 的临界点。而恰好在同一个月,一个叫 OpenClaw 的开源项目用 17 万 GitHub 星标证明了一件事,人手一个的,能替自己干活的 AI Agent,可能成为一个新的趋势。Sonnet 4.6 是模型,OpenClaw 是框架,但它们指向同一个方向。

便宜的再一次打赢了贵的

在 Anthropic 的产品线中,Opus 是最强最贵的旗舰,Sonnet 是平衡性能和成本的中端款,Haiku 是最快最便宜的轻量款。长期以来,Sonnet 的角色是 " 性价比之选 ",干不了最难的活但胜在便宜。Sonnet 4.6 打破了这个格局。

编码方面,它在 SWE-bench Verified 上得分 79.6%,逼近 Opus 4.6 的 80.8%。Claude Code 的内部测试中,用户 70% 的时间更偏好 Sonnet 4.6(对比 Sonnet 4.5),甚至有 59% 的时间比去年 11 月发布的旗舰 Opus 4.5 更受欢迎。用户反馈集中在几个方面," 更少过度工程 "" 更少偷懒 "" 指令遵循明显更好 ",以及更少出现 " 明明没干完却说干完了 " 的情况。

办公任务是更大的惊喜。在 GDPval-AA 这个衡量真实办公场景的评测中,Sonnet 4.6 拿到 1633 Elo,直接超过了 Opus 4.6 的 1606。便宜的在实际工作场景中打赢了贵的。类似的事正在行业里反复发生,Google 的 Gemini 3 Flash 也在逼近 Pro 的表现,DeepSeek 用远低于美国公司的成本训练出竞争力相当的模型。" 低端逆袭高端 " 已经不再是新闻,而是 2026 年 AI 行业的结构性趋势。

不过独立 AI 评测机构 Artificial Analysis 注意到了一个有意思的细节,Sonnet 4.6 在 GDPval-AA 上使用的 token 数量是 Sonnet 4.5 的约 4.5 倍。AI 媒体 Latent Space 据此指出,某些任务的总成本可能比 Opus 还高。这和价格表上的数字讲的是两个故事。

软件工程师、AI 技术博主 Joe Njenga 在 Medium 上第一时间做了测试,他的感受是," 发布才几天,但 Sonnet 4.6 已经感觉比 Opus 更好用了。"Cosmic 平台做了一个控制实验,用完全相同的一句话提示词让 4.5 和 4.6 各生成一个博客应用,结论是 4.6 在设计品味和代码架构上有质的提升," 需要更少的手把手指导 "。编程工具 Kilo Code 直接把 Sonnet 4.6 设为默认推荐模型。当然也有负面声音,发布当天就有用户报告了函数名幻觉的问题。

价格跟上一代 Sonnet 4.5 完全一样,每百万输入 token 3 美元,输出 token 15 美元。同时它成了 Free 和 Pro 用户的默认模型,免费用户还新增了文件创建、skills 等功能。但正如上面提到的," 同样的钱买到更强的模型 " 不等于 " 用 AI 更便宜了 "。Extended thinking 的 token 按输出价格计费,超过 200K 的长上下文有额外溢价,而 Agent 场景下动辄成千上万次工具调用,实际使用成本可能反而在增加。

16 个月,Computer Use 从玩具变工具

Sonnet 4.6 还有一个值得单独拿出来说的进步,就是 Computer Use,也就是 AI 操作电脑的能力。

2024 年 10 月,Anthropic 是第一个推出通用计算机操作 AI 的公司。当时他们自己都承认这个功能 " 还很实验性,有时笨拙且容易出错 ",发布时搭载的 Claude 3.5 Sonnet 在 OSWorld 评测上只拿到 14.9%。能做的事很有限,移动鼠标、点击按钮、输入文字,基本是个勉强能用的遥控器。

之后的每一代 Sonnet 都在这个维度上进步。到了 2025 年 9 月的 Sonnet 4.5,成绩已经大幅提升。但 Sonnet 4.6 才是真正让这项能力从 " 技术 demo" 走向 " 可用工具 " 的节点。在 OSWorld-Verified 上,它拿到 72.5%,几乎追平 Opus 4.6 的 72.7%,比 16 个月前的起点提升了近 5 倍。

数字背后对应的是质的变化。早期用户报告说,Sonnet 4.6 在操作复杂电子表格、填写多步骤网页表单方面已接近人类水平,而且能跨多个浏览器标签页协同完成任务。在保险行业的基准测试中,Computer Use 拿到 94% 的准确率,是他们测试过的所有模型中最高的。更关键的一个改进是可靠性,在他们内部的浏览器自动化场景中,Sonnet 4.6 产生的幻觉链接数量为零,而此前的版本大约三个链接中就有一个是假的。

Claude Sonnet 在 OSWorld 基准上的得分持续提升。

这意味着什么?几乎每家企业都有一些 " 前 API 时代 " 遗留下来的老旧系统,没有现代接口,无法自动化。以前要让 AI 操作这些软件,就得给每个系统写专门的连接器。而一个能像人一样使用电脑的模型,直接改变了这个等式。科技圈评论者 Trung Phan 调侃说,Anthropic 的 demo 演示了 Claude 帮人在 DMV 网站上续车牌的过程," 但 AI 还是没法修好 DMV 本身。"

当人人都有一个 JARVIS

Computer Use 让模型能操作电脑,但要变成一个真正帮人干活的 AI 助手,还需要一层编排框架把模型和现实世界的工具连接起来。这正是过去两个月 AI 行业最火热的战场。

2 月份最热门的 AI 项目不是某个大模型,而是 OpenClaw。它原名 Clawdbot(名字来自 Claude 和龙虾钳的双关,后因 Anthropic 商标投诉两度改名),由奥地利开发者 Peter Steinberger 从一个 WhatsApp 机器人做起,几个月内暴涨到 17.9 万 GitHub 星标。OpenClaw 能常驻在用户的电脑后台,通过 WhatsApp、Slack、iMessage 接收指令,帮你管邮件、排日程、订机票、跑脚本,是目前最接近 " 钢铁侠里的 J.A.R.V.I.S." 的有着消费级的愿景和使用场景的产品。IBM 研究员 Kaoutar El Maghraoui 的评价是,OpenClaw 证明了自主 AI Agent" 不限于大企业,可以是社区驱动的 "。

OpenClaw 火爆的原因,不只是它本身做得好,更因为它戳中了一个被压抑已久的需求。过去一年,AI 聊天机器人已经证明了自己在回答问题和生成内容上的能力,但用户真正想要的是一个能替自己 " 做事 " 的助手,不只是聊天,而是能操作软件、执行任务、跨应用协调。OpenClaw 让这个需求第一次有了一个具体的、可以跑起来的产品形态。

但 OpenClaw 也暴露了个人 AI Agent 面临的核心矛盾。安全研究人员发现超过 13.5 万个暴露在公网上的实例;Cisco 检测了其技能市场排名第一的插件,发现能悄悄将用户数据发送到攻击者服务器。Andrej Karpathy 最初称基于 OpenClaw 开发的 Moltbook 是 " 我见过的最科幻的东西 ",几天后说 " 不建议任何人在自己的电脑上运行它 "。一个足够有用的 AI Agent 必须拥有足够大的权限,而足够大的权限天然带来足够大的风险。这个矛盾目前没有人真正解决。

更值得关注的是 OpenClaw 对 AI 行业商业格局的潜在冲击。OpenClaw 是模型无关的,它能跑 Claude,也能跑 ChatGPT,也能跑开源的 Minimax 和 Kimi。当 Agent 框架层成为用户接触 AI 的主要入口,底层模型就有被 " 商品化 " 的风险,就像 Android 让手机硬件品牌竞争变得残酷一样。有评论者已经在问,"OpenClaw 会不会成为 AI 时代的 Android?"

2 月 15 日,Peter Steinberger 加入了 OpenAI,Altman 亲口说 "the future is going to be extremely multi-agent"(未来一定是极度多 Agent 的)。OpenClaw 转型为基金会项目,但它引发的这场关于 " 谁拥有 Agent 层 " 的争夺才刚开始。

这也是理解 Sonnet 4.6 的另一把钥匙。Anthropic 的应对策略不是等着被别人的 Agent 框架调用,而是把 Agent 能力直接做进模型里。Computer Use、Claude Code、Cowork,都是在构建一个 " 模型 + 工具链 " 的捆绑生态。Sonnet 4.6 把这些能力下放到中端价格,本质上是在说,你不需要一个第三方框架来让 AI 替你干活,用 Claude 就行。

当然,能力越强意味着风险也越集中。Anthropic 在 system card 中坦承,Sonnet 4.6 在 GUI 操作场景中表现出 " 过度主动 " 的行为,比如未经授权发送邮件、过于激进地获取 token,而且这种行为无法通过提示词完全避免。独立评测机构 Andon Labs 在 Vending-Bench 测试中发现,Sonnet 4.6 展现出与 Opus 4.6 类似的战略复杂度,包括自发的价格操纵和对竞争对手的欺骗行为。他们的评价是," 几乎一样令人印象深刻,也几乎一样令人担忧,而且只要三分之一的价格。"

Anthropic 路线

把视角拉回 Anthropic 本身,Sonnet 4.6 只是它 2 月份密集动作的一部分。

2 月初,Anthropic 在超级碗投放了一组系列广告,共四条片子,分别叫 "Betrayal""Deception""Treachery""Violation",赛前和赛中各播一条,另两条在线上流通,直指 OpenAI 在 ChatGPT 中加入广告的决定,slogan 是 "Ads are coming to AI. But not to Claude." 效果显著,网站访问量涨了 6.5%,日活用户增长 11%,Claude App 冲进了 Apple App Store 前十。

紧接着,Anthropic 宣布完成了 300 亿美元融资,估值达到 3800 亿美元,半年翻了一倍多。年化收入攀升至 140 亿美元,其中 Claude Code 的年化收入就有 25 亿美元,企业订阅今年翻了四倍。

OpenAI 的 CEO Altman 对此不太高兴,批评 Anthropic 的超级碗广告 " 明显不诚实 ",说它是 " 把昂贵产品卖给有钱人 "。Anthropic CEO Dario Amodei 的稍早一点在达沃斯论坛说自己不需要 " 跟某个大玩家进行十亿免费用户的死亡竞赛 "。

这或许暴露了两家公司在路线上的某种分歧。从公开信息来看,OpenAI 更倾向用户规模路线,免费用户尽可能多,再通过广告和增值服务探索变现;它收编 OpenClaw 创始人,也是在抢占 Agent 编排层的入口。Anthropic 走的看上去更像是生产力工具路线,80% 的收入来自企业客户,核心卖点是 coding 和 agent 能力,不做图片生成,不太追求 C 端 DAU,而是把 Agent 能力内建到模型本身。Sonnet 4.6 让免费用户也能使用旗舰级能力,本身就是对 " 只服务有钱人 " 这个批评的无声回应。

有一个数字或许能说明 AI Agent 能力提升带来的冲击,自 Anthropic 和 OpenAI 密集发布新模型以来,软件股已经蒸发了约 2 万亿美元的市值。投资者正在 price in 一个可能性,AI Agent 对传统 SaaS 软件的替代,可能比所有人预想的都快。

12 天两个模型,两周三次头条。这可能会成为 2026 年 AI 行业的默认节奏。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 美国 google 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论