刚刚，Anthropic内部考题开源！年薪百万工程师，被AI秒了

【新智元导读】史上最强模型 Claude Opus 4.5 发布后，全面碾压了人类顶尖工程师，逼得 Anthropic 不得不被迫放弃招聘笔试！现在，内部考题已经全面开源了。

就在刚刚，人类程序员最后的堡垒崩塌了。

曾经，Anthropic 为自己应聘者准备了一份出了名困难的考题，让他们在家完成。

这份考题一直效果不错，直到 Claude Opus 4.5 的出现。

有了这个史上最强模型的加持，人类应聘者轻松做出各种考题，因而这份考卷也就失效了。

今天，因为无法再通过传统技术笔试筛选人才，Anthropic 被迫开源了旧版试题，并且向全世界求助：有没有办法，让我们真正测试出人类的编程能力？

作为告别，Anthropic 选择将把最初版本的测试题发布，作为一个面向大众的公开挑战。

地址：https://github.com/anthropics/original_performance_takehome

在这个测试题中，候选人需要逐步进行多核并行优化、SIMD 向量化、VLIW 指令打包优化，并用 Perfetto trace 做分析。

上下滑动查看

他们依然相信：在无限时间下，最强人类依然能超越 Claude 的极限。

同时他们强调：如果哪个人类能击败 Claude Opus 4.5，请务必联系 Anthropic！

刚刚，Claude Opus 4.5 把我们的笔试题秒了

在 AI 时代，究竟该如何进行软件工程师的面试？

Anthropic 在这篇博客里，进行了细致的探索。

博客地址：https://www.anthropic.com/engineering/AI-resistant-technical-evaluations

要知道，曾经 Anthropic 有一套完美的筛选考题。

可随着 AI 能力的指数级提升，今天还能完美区分菜鸟和大神的试题，明天就可能被新模型秒杀，这套考题就瞬间失去意义了！

比如，自 2024 年初，他们的性能工程团队一直在用下面这套题：要求候选人为一个模拟加速器优化代码。

这套题在 1000 多名面试者中，筛出了几十个最顶尖的工程师。正是这些人，点亮了 Anthropic 的 Trainium 集群，发布了从 Claude 3 Opus 至今的每一个模型。

结果，每个新版本的 Claude，都在让这套题失效！

同样的时间里，Claude Opus 4 已经优于大多数人类申请者，Anthropic 勉强还能筛出最强的人类。

结果 Claude Opus 4.5 的横空出世，直接追平了最强人类天花板！

如果给无限的时间，人类或许还能险胜，但在面试时间限制下，已经根本无法区分谁是顶尖候选人，谁是最强模型了。

为此，Anthropic 已经把这套题迭代了三个版本，甚至越来越「剑走偏锋」。

这套测试的诞生

2023 年 11 月，Anthropic 正准备发布 Claude Opus 3。

新的 TPU 和 GPU 集群就位，大 Trainium 集群即将上线，公司在算力上的投入是过去的数倍，但性能工程师却严重紧缺。

为此，Anthropic 公司绩效优化团队负责人 Tristan Hume 在 Twitter 上发帖求贤，虽然收到了大量简历，但标准的面试流程太耗时了。

于是，他花了两个星期设计了一个 Take-home 测试，从而精准识别出真正硬核的候选人。

设计初衷

为了做出一个好玩的、能让候选人兴奋的东西，并且能以「高分辨率」扫描他们的技术实力，Tristan Hume 做了精心设计。

相比现场面试，这种形式在评估性能工程技能上更有优势：

时间更充裕：4 小时（后改为 2 小时）的窗口比 50 分钟的面试更能反映真实工作状态。

环境更真实：没有面试官盯着，候选人在自己的编辑器里干活，零干扰。

深度考察：性能优化需要理解系统、造工具，这在短面试里很难体现。

兼容 AI 辅助：明确允许使用 AI。因为对于长线难题，AI 很难直接给出完美解。

另外，Tristan 还构建了一个 Python 模拟器，模拟了一个具有 TPU 特征的假加速器。

候选人需要优化在这台机器上运行的代码，并通过一个支持热重载的 Perfetto trace 来观察执行过程，该 trace 会展示每一条指令，效果类似公司在 Trainium 上使用的工具链。

这台模拟机器包含了一些让加速器优化变得很有挑战性的特性，包括：

手动管理的 scratchpad 内存（不同于 CPU，加速器通常需要显式进行内存管理）

VLIW 架构（每个周期可以并行运行多个执行单元，需要高效地进行指令打包）

SIMD（一条指令同时对多个数据元素进行向量化运算）

多核架构（需要将工作负载合理地分配到多个核心上）

这些硬核要素，都让底层优化变得更有趣。

这个任务是一个并行的树遍历问题，刻意设计成不带深度学习背景的形式，因为大多数性能工程师并没有做过深度学习工作，具体知识可以在入职后再学习。

该问题的灵感来自于无分支的 SIMD 决策树推理——这是一个经典的机器学习优化挑战。

候选人一开始拿到的是一个完全串行的实现，需要逐步挖掘并利用这台机器的并行能力。

早期战果：它曾完美工作

最初的效果非常好。

一位得分遥遥领先的候选人入职后，立即开始优化算子，并解决了一个阻碍发布的编译器 Bug。

在之后的一年半里，这套题帮忙组建了核心团队，甚至发掘了几位本科刚毕业但实力超群的天才。

许多候选人甚至因为觉得太好玩，在超时后还在继续优化。最强的一份提交，甚至包含了一个完整的迷你优化编译器。

第一轮崩溃：Claude Opus 4 进场

到了 25 年 5 月，Claude 3.7 Sonnet 已经进化到让一半的候选人只要把题丢给它，就能拿高分。

随后，Tristan 用 Claude Opus 4 的预发布版本试了一下。结果令人绝望：在 4 小时内，它的代码比几乎所有人类都要好。

这并非他第一次被 Claude 击败。早在 2023 年，Claude 3 Opus 和 3.5 Sonnet 就先后攻破了他们精心准备的现场面试题。

对于这次崩溃，Tristan 做了紧急修复：既然问题深度不够，那就加码。他重写了启动代码，增加了机器特性的复杂度，并把时间缩短到 2 小时。

第二版侧重考察巧妙的优化洞察力，而非单纯的代码量。这招奏效了——但是，也只撑了几个月而已。

第二轮崩溃：Claude Opus 4.5 的降维打击

后来，当 Tristan 拿到 Claude Opus 4.5 的预发布版本时，他眼睁睁看着 Claude Code 跑了 2 小时。它像个老练的工程师，先解决了初始瓶颈，搞定了所有常规微优化。

然后它卡住了，遇到了一个看似不可逾越的内存带宽瓶颈——大多数人类也卡在这里。但当它提示「理论极限」时，它思考片刻，竟然找到了那个只有极少数人类能发现的巧妙技巧。

最终，它的得分与人类历史最高纪录持平（而那个人类考生还是在重度依赖 Claude 4 的情况下完成的）。

更可怕的是，Anthropic 在内部的「测试时计算」框架中验证发现，它不仅能在 2 小时内击败人类，甚至随着思考时间的增加，分数还在不断上涨。

大麻烦来了：即将发布的模型，将彻底摧毁公司招聘这个模型开发者的测试题。所以，他们只能采用这个策略——把工作直接外包给 Claude Code。

艰难的抉择

有人建议禁止 AI，但 Tristan 并未采纳。因为在真实工作中，人类就是需要和 AI 协作。

也有人建议提高及格线，但这会导致候选人沦为 AI 的看客，甚至因跟不上 AI 的思路而不知所措。

性能工程师的真实工作其实更多是艰难的调试、系统设计、分析，以及让 AI 生成的代码更优雅。这些很难通过客观测试来考察。

到底该怎样设计一个「像真实工作」的面试题？这个任务从未如此艰难。

尝试 1：换个题型？被秒杀

首先，Tristan 试图设计一个更难的内核优化问题：2D TPU 寄存器上的高效数据转置，且要避免 Bank 冲突。这是一个非常棘手的真实难题。

然而，Claude Opus 4.5 发现了一个他都没想到的绝佳优化路径：它重写了整个计算过程，直接绕过了转置的难点。即便他修补了漏洞，Claude Code 配合深度思考（Ultrathink）功能，依然能找出修复 Bank 冲突的技巧。

这让他意识到，这类问题在已有代码库中太常见，Claude 已经拥有了海量的训练数据「经验」。

尝试 2：变得更古怪

既然「真实」行不通，他只能追求「分布外（Out of distribution）」——即 AI 没见过的数据。

他想到了 Zachtronics 的编程解谜游戏。这类游戏使用极度受限的指令集，迫使你用非传统方式编程。

于是，他设计了一套全新的测试：使用微小且极度受限的指令集，目标是指令数最小化。没有可视化工具，没有调试器——候选人必须自己造工具（比如让 AI 生成调试器）。

他把这套题丢给 Claude Opus 4.5，它终于失败了。

这套新题效果不错，分数与候选人的实际能力高度相关。但 Tristan 心中仍有遗憾：他们放弃了原版试题的「真实感」和「多样性深度」。

但这或许就是代价。

「真实感」已经成为了奢侈品。原版试题之所以有效，因为它像以前的工作；现在的试题之所以有效，因为它模拟了一个全新的、AI 尚未涉足的领域。

公开向人类挑战：原版测试题开源！

最终，Anthropic 宣布：将原版测试题开源。虽然 Claude 很强，但在无限时间下，人类专家的极限仍高于 AI。

目前，Claude 的战绩如下（周期数越低越好）：

2164：Claude Opus 4

1790：Claude Opus 4.5（随手一跑）

1487：Claude Opus 4.5（11.5 小时超长思考后）

1363：Claude Opus 4.5（改进框架后）

Tristan 表示：如果你能优化到1487 周期以下，击败 Claude 的最佳表现，请一定联系他们！

同时，他也欢迎大家通过常规流程申请，体验一下人类要靠多久才能被攻破的「防 Claude」新考题。