Sonnet 4.6 ：Anthropic 最卷的模型，不惜“逼死”自家Opus

在最近的模型混战中，不只是中国厂商们在卷，Anthropic 也在半个月连续发布了两款模型。而其中，最近发布的 Sonnet 4.6 有些特殊，它不是旗舰，却在多个维度追平甚至超过了旗舰。看起来它用 Opus 1/3 的价格，就追上了它 99% 的性能。

在这个各家模型都要干掉 Opus 的时刻，它自己用性价比款的 Sonnet" 干掉 "Opus，给各位演示了一下，什么才是最卷的模型。

而且，这款模型非常值得关注的地方是，它让 AI 操作电脑这件事第一次接近了 " 真的能用 " 的临界点。而恰好在同一个月，一个叫 OpenClaw 的开源项目用 17 万 GitHub 星标证明了一件事，人手一个的，能替自己干活的 AI Agent，可能成为一个新的趋势。Sonnet 4.6 是模型，OpenClaw 是框架，但它们指向同一个方向。

便宜的再一次打赢了贵的

在 Anthropic 的产品线中，Opus 是最强最贵的旗舰，Sonnet 是平衡性能和成本的中端款，Haiku 是最快最便宜的轻量款。长期以来，Sonnet 的角色是 " 性价比之选 "，干不了最难的活但胜在便宜。Sonnet 4.6 打破了这个格局。

编码方面，它在 SWE-bench Verified 上得分 79.6%，逼近 Opus 4.6 的 80.8%。Claude Code 的内部测试中，用户 70% 的时间更偏好 Sonnet 4.6（对比 Sonnet 4.5），甚至有 59% 的时间比去年 11 月发布的旗舰 Opus 4.5 更受欢迎。用户反馈集中在几个方面，" 更少过度工程 "" 更少偷懒 "" 指令遵循明显更好 "，以及更少出现 " 明明没干完却说干完了 " 的情况。

办公任务是更大的惊喜。在 GDPval-AA 这个衡量真实办公场景的评测中，Sonnet 4.6 拿到 1633 Elo，直接超过了 Opus 4.6 的 1606。便宜的在实际工作场景中打赢了贵的。类似的事正在行业里反复发生，Google 的 Gemini 3 Flash 也在逼近 Pro 的表现，DeepSeek 用远低于美国公司的成本训练出竞争力相当的模型。" 低端逆袭高端 " 已经不再是新闻，而是 2026 年 AI 行业的结构性趋势。

不过独立 AI 评测机构 Artificial Analysis 注意到了一个有意思的细节，Sonnet 4.6 在 GDPval-AA 上使用的 token 数量是 Sonnet 4.5 的约 4.5 倍。AI 媒体 Latent Space 据此指出，某些任务的总成本可能比 Opus 还高。这和价格表上的数字讲的是两个故事。

软件工程师、AI 技术博主 Joe Njenga 在 Medium 上第一时间做了测试，他的感受是，" 发布才几天，但 Sonnet 4.6 已经感觉比 Opus 更好用了。"Cosmic 平台做了一个控制实验，用完全相同的一句话提示词让 4.5 和 4.6 各生成一个博客应用，结论是 4.6 在设计品味和代码架构上有质的提升，" 需要更少的手把手指导 "。编程工具 Kilo Code 直接把 Sonnet 4.6 设为默认推荐模型。当然也有负面声音，发布当天就有用户报告了函数名幻觉的问题。

价格跟上一代 Sonnet 4.5 完全一样，每百万输入 token 3 美元，输出 token 15 美元。同时它成了 Free 和 Pro 用户的默认模型，免费用户还新增了文件创建、skills 等功能。但正如上面提到的，" 同样的钱买到更强的模型 " 不等于 " 用 AI 更便宜了 "。Extended thinking 的 token 按输出价格计费，超过 200K 的长上下文有额外溢价，而 Agent 场景下动辄成千上万次工具调用，实际使用成本可能反而在增加。

16 个月，Computer Use 从玩具变工具

Sonnet 4.6 还有一个值得单独拿出来说的进步，就是 Computer Use，也就是 AI 操作电脑的能力。

2024 年 10 月，Anthropic 是第一个推出通用计算机操作 AI 的公司。当时他们自己都承认这个功能 " 还很实验性，有时笨拙且容易出错 "，发布时搭载的 Claude 3.5 Sonnet 在 OSWorld 评测上只拿到 14.9%。能做的事很有限，移动鼠标、点击按钮、输入文字，基本是个勉强能用的遥控器。

之后的每一代 Sonnet 都在这个维度上进步。到了 2025 年 9 月的 Sonnet 4.5，成绩已经大幅提升。但 Sonnet 4.6 才是真正让这项能力从 " 技术 demo" 走向 " 可用工具 " 的节点。在 OSWorld-Verified 上，它拿到 72.5%，几乎追平 Opus 4.6 的 72.7%，比 16 个月前的起点提升了近 5 倍。

数字背后对应的是质的变化。早期用户报告说，Sonnet 4.6 在操作复杂电子表格、填写多步骤网页表单方面已接近人类水平，而且能跨多个浏览器标签页协同完成任务。在保险行业的基准测试中，Computer Use 拿到 94% 的准确率，是他们测试过的所有模型中最高的。更关键的一个改进是可靠性，在他们内部的浏览器自动化场景中，Sonnet 4.6 产生的幻觉链接数量为零，而此前的版本大约三个链接中就有一个是假的。

Claude Sonnet 在 OSWorld 基准上的得分持续提升。

这意味着什么？几乎每家企业都有一些 " 前 API 时代 " 遗留下来的老旧系统，没有现代接口，无法自动化。以前要让 AI 操作这些软件，就得给每个系统写专门的连接器。而一个能像人一样使用电脑的模型，直接改变了这个等式。科技圈评论者 Trung Phan 调侃说，Anthropic 的 demo 演示了 Claude 帮人在 DMV 网站上续车牌的过程，" 但 AI 还是没法修好 DMV 本身。"

当人人都有一个 JARVIS

Computer Use 让模型能操作电脑，但要变成一个真正帮人干活的 AI 助手，还需要一层编排框架把模型和现实世界的工具连接起来。这正是过去两个月 AI 行业最火热的战场。

2 月份最热门的 AI 项目不是某个大模型，而是 OpenClaw。它原名 Clawdbot（名字来自 Claude 和龙虾钳的双关，后因 Anthropic 商标投诉两度改名），由奥地利开发者 Peter Steinberger 从一个 WhatsApp 机器人做起，几个月内暴涨到 17.9 万 GitHub 星标。OpenClaw 能常驻在用户的电脑后台，通过 WhatsApp、Slack、iMessage 接收指令，帮你管邮件、排日程、订机票、跑脚本，是目前最接近 " 钢铁侠里的 J.A.R.V.I.S." 的有着消费级的愿景和使用场景的产品。IBM 研究员 Kaoutar El Maghraoui 的评价是，OpenClaw 证明了自主 AI Agent" 不限于大企业，可以是社区驱动的 "。

OpenClaw 火爆的原因，不只是它本身做得好，更因为它戳中了一个被压抑已久的需求。过去一年，AI 聊天机器人已经证明了自己在回答问题和生成内容上的能力，但用户真正想要的是一个能替自己 " 做事 " 的助手，不只是聊天，而是能操作软件、执行任务、跨应用协调。OpenClaw 让这个需求第一次有了一个具体的、可以跑起来的产品形态。

但 OpenClaw 也暴露了个人 AI Agent 面临的核心矛盾。安全研究人员发现超过 13.5 万个暴露在公网上的实例；Cisco 检测了其技能市场排名第一的插件，发现能悄悄将用户数据发送到攻击者服务器。Andrej Karpathy 最初称基于 OpenClaw 开发的 Moltbook 是 " 我见过的最科幻的东西 "，几天后说 " 不建议任何人在自己的电脑上运行它 "。一个足够有用的 AI Agent 必须拥有足够大的权限，而足够大的权限天然带来足够大的风险。这个矛盾目前没有人真正解决。

更值得关注的是 OpenClaw 对 AI 行业商业格局的潜在冲击。OpenClaw 是模型无关的，它能跑 Claude，也能跑 ChatGPT，也能跑开源的 Minimax 和 Kimi。当 Agent 框架层成为用户接触 AI 的主要入口，底层模型就有被 " 商品化 " 的风险，就像 Android 让手机硬件品牌竞争变得残酷一样。有评论者已经在问，"OpenClaw 会不会成为 AI 时代的 Android？"

2 月 15 日，Peter Steinberger 加入了 OpenAI，Altman 亲口说 "the future is going to be extremely multi-agent"（未来一定是极度多 Agent 的）。OpenClaw 转型为基金会项目，但它引发的这场关于 " 谁拥有 Agent 层 " 的争夺才刚开始。

这也是理解 Sonnet 4.6 的另一把钥匙。Anthropic 的应对策略不是等着被别人的 Agent 框架调用，而是把 Agent 能力直接做进模型里。Computer Use、Claude Code、Cowork，都是在构建一个 " 模型 + 工具链 " 的捆绑生态。Sonnet 4.6 把这些能力下放到中端价格，本质上是在说，你不需要一个第三方框架来让 AI 替你干活，用 Claude 就行。

当然，能力越强意味着风险也越集中。Anthropic 在 system card 中坦承，Sonnet 4.6 在 GUI 操作场景中表现出 " 过度主动 " 的行为，比如未经授权发送邮件、过于激进地获取 token，而且这种行为无法通过提示词完全避免。独立评测机构 Andon Labs 在 Vending-Bench 测试中发现，Sonnet 4.6 展现出与 Opus 4.6 类似的战略复杂度，包括自发的价格操纵和对竞争对手的欺骗行为。他们的评价是，" 几乎一样令人印象深刻，也几乎一样令人担忧，而且只要三分之一的价格。"

Anthropic 路线

把视角拉回 Anthropic 本身，Sonnet 4.6 只是它 2 月份密集动作的一部分。

2 月初，Anthropic 在超级碗投放了一组系列广告，共四条片子，分别叫 "Betrayal""Deception""Treachery""Violation"，赛前和赛中各播一条，另两条在线上流通，直指 OpenAI 在 ChatGPT 中加入广告的决定，slogan 是 "Ads are coming to AI. But not to Claude." 效果显著，网站访问量涨了 6.5%，日活用户增长 11%，Claude App 冲进了 Apple App Store 前十。

紧接着，Anthropic 宣布完成了 300 亿美元融资，估值达到 3800 亿美元，半年翻了一倍多。年化收入攀升至 140 亿美元，其中 Claude Code 的年化收入就有 25 亿美元，企业订阅今年翻了四倍。

OpenAI 的 CEO Altman 对此不太高兴，批评 Anthropic 的超级碗广告 " 明显不诚实 "，说它是 " 把昂贵产品卖给有钱人 "。Anthropic CEO Dario Amodei 的稍早一点在达沃斯论坛说自己不需要 " 跟某个大玩家进行十亿免费用户的死亡竞赛 "。

这或许暴露了两家公司在路线上的某种分歧。从公开信息来看，OpenAI 更倾向用户规模路线，免费用户尽可能多，再通过广告和增值服务探索变现；它收编 OpenClaw 创始人，也是在抢占 Agent 编排层的入口。Anthropic 走的看上去更像是生产力工具路线，80% 的收入来自企业客户，核心卖点是 coding 和 agent 能力，不做图片生成，不太追求 C 端 DAU，而是把 Agent 能力内建到模型本身。Sonnet 4.6 让免费用户也能使用旗舰级能力，本身就是对 " 只服务有钱人 " 这个批评的无声回应。

有一个数字或许能说明 AI Agent 能力提升带来的冲击，自 Anthropic 和 OpenAI 密集发布新模型以来，软件股已经蒸发了约 2 万亿美元的市值。投资者正在 price in 一个可能性，AI Agent 对传统 SaaS 软件的替代，可能比所有人预想的都快。

12 天两个模型，两周三次头条。这可能会成为 2026 年 AI 行业的默认节奏。

宙世代

一起剪

相关标签