硅星人 2025-11-26
实测Opus 4.5:Claude真的“成精”了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2025 年 11 月 24 日,Anthropic 发布了其最新旗舰模型 Claude Opus 4.5。这款模型在多项基准测试中刷新了记录,但枯燥的分数掩盖了它最迷人、也最难以量化的特质:

它开始像一个经验丰富的人类专家那样,在规则框架内寻找创造性的解决方案。

Claude" 成精了 "。

错误的正确答案

在 τ -bench 航空客服基准测试中,发生了一个极具代表性的案例。场景看似简单:一位焦虑的客户购买了基本经济舱机票,因故需要将航班推迟两天。

摆在 AI 面前的是一道死板的航空公司政策墙:基本经济舱不允许修改航班。

大多数 AI 模型(包括之前的版本)的反应如同只会照本宣科的客服:" 抱歉,您的基本经济舱机票不支持修改。" 这是测试预期的 " 正确 " 答案,也是符合逻辑的死胡同。

但 Opus 4.5 做了一件意想不到的事。它像一位老练的金牌客服,仔细审查了整套政策,发现了一个被忽略的 " 后门 ":虽然基本经济舱不能改签,但所有舱位(包括基本经济舱)都允许升舱

于是,Opus 4.5 给出了一个 " 曲线救国 " 的方案:

先将客户的基本经济舱升级到允许改签的高级舱位;

在升级后的舱位下进行航班修改。

两步操作,每一步都严丝合缝地符合规定,却完美解决了用户的难题。

有趣的是,基准测试程序将此标记为 " 失败 ",因为它没有给出预设的拒绝回复。但正是这种 " 任务失败 ",标志着 AI 智能的一次重大飞跃:评估 AI 的标准正从 " 能否精准执行指令 ",转变为 " 能否在复杂约束中找到可行路径 "。

当然,Anthropic 对此保持警惕。这种能力是一把双刃剑,在某些极端情况下,这种绕过约束的巧妙路径可能演变成 " 奖励黑客(Reward Hacking)" 模型为了达成目标而以非预期的方式 " 玩弄 " 规则。但这无疑证明了 Opus 4.5 具备了更高级的推理能力。

20 项前端实测:代码之外的较量

为了验证这种能力在编程实战中的表现,我们对 Claude Opus 4.5 和 Sonnet 4.5 进行了同样的 20 项前端项目测试,涵盖小游戏、特效和交互组件。

结果印证了我们的猜想:在纯粹的代码生成能力上,两者难分伯仲;但在 " 交付物 " 的完整度上,Opus 4.5 展现出了惊人的「产品思维」。

我们先来比较一下差别相对较大的项目。

首先是冒泡排序算法动画和贪吃蛇游戏。这两个项目自 AI 编程诞生以来就是测试中的常客,Opus4.5 和 Sonnet4.5 都完成的基本功能,然而,很明显 Opus4.5 比 Sonnet4.5 考虑的更多更完善,在项目中增加了变速、打乱顺序等。同样在贪吃蛇游戏中,Opus4.5 加入了历史最高成绩,给蛇添加了小眼睛,底部有游戏提示。

同样的事情还发生在记账本项目中。这两份代码 Opus4.5 和 Sonnet4.5 均出色地完成了题目要求,构建了包含输入、列表展示及可视化图表的单文件 HTML 应用。

在实用性上,Opus 4.5 凭借数据存储和删除功能胜出,是一个真正可用的工具;而 Sonnet 4.5 则胜在代码逻辑极其精简。

Opus 4.5 最核心的优势在于实现了数据持久化,利用 localStorage 确保刷新页面后数据不会丢失。此外,它还提供了删除功能,允许用户移除单条记录。 相比之下,Sonnet 4.5 版本更像是一个教学用的 MVP。它的数据仅存储在内存数组中,刷新即丢失,且不支持删除操作,输入验证仅依靠简单的 alert 弹窗。

在视觉呈现上,Sonnet 4.5 采用了简洁的居中卡片式设计,配合全屏渐变背景,使用水平进度条来展示分类统计,视觉风格聚焦且适合移动端阅读。 Opus 4.5 则采用了更现代的 Dashboard 布局。其图表采用垂直柱状图,并配有独立的颜色图例,在交互上包含悬停效果、图标等,更加丰富细腻。

类似的项目还有很多,像分形树生成器中,Opus4.5 增加了动画选项,可以模仿树生长的样子,还添加了 Oak Tree、Willow、Pine 等多种预设。而 Sonnet 4.5 只是完成了任务。

如果说上面的案例有什么共同点,那就是 Opus 4.5 在代码之外,多了一层对 " 意图 " 的深度思考。

Sonnet 4.5 像一位优秀的资深程序员。你告诉它做什么,它就做什么,代码干净、高效、不甚至不会多写一行冗余的注释。如果任务定义明确,它的性价比极高。

Opus 4.5 则更像一位懂技术的产品经理。它不仅听到了你的指令,还思考了你为什么要完成这个任务。

用户要做记账本?那肯定需要保存数据,否则记了有什么用?

用户要做贪吃蛇?那肯定想挑战高分,得有个记录榜。

用户陷入了规则死胡同?那我得帮他想想有没有合规的变通办法。

成精了。

当编程任务涉及到模型极限时,模型反而不重要了。

就像下面的 SWE — bench 测试分数,从视觉上看,Opus4.5 比 Sonnet4.5 高了 1/3,分数上高了 4 个百分点 " 而已 "。

在处理最底层的算法逻辑时,两者的差别微乎其微。但在构建一个完整的、面向人的应用时,Opus 4.5 所展现出的这种 " 钻空子 " 的冗余计算,恰恰是 AI 从 " 代码生成器 " 进化为 " 智能合作伙伴 " 的关键一步,也是不少 AI IDE 正在追求的 Agent 主导编程。

对于开发者而言,选择哪一个模型,不再取决于谁的代码 bug 更少,而取决于你需要的是一个听话的执行者,还是一个会主动思考的协作者。而谁不想要一个成精了的 AI 呢。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 航班 编程 航空 小游戏
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论