突发！Anthropic呼吁全员停止AI研究

重要发现：AI 的自进化，开始了。

这是 Anthropic 刚刚在长文博客中，发表的暴论。

我们的内部数据显示，Claude 正在加速 AI 发展，这可能是一条递归自我提升（RSI）的路径。

并非「危言耸听」，看了下文章，Anthropic 是真的实打实地用数据在说话——

截止今年 5 月，80% 以上的 Anthropic 代码，都是 Claude 写的。

而在 Claude Code 发布之前，这个数字还仅是个位数。

与此同时，Anthropic 工程师平均每季度交付的代码量，是 2021-2025 年的 8 倍。

更重要的是质量——

在最开放、最模糊、连答案长什么样都不确定的编程任务上，Claude 的成功率现在是 76%，六个月前才 26%。

50 个百分点的跳升。半年。

Anthropic 内部已经有不少工程师觉得，Claude 写的代码质量和人类打平了。

预计年内会超过。

Anthropic 还强调，如果这个趋势持续下去，AI 自己设计和构建下一代 AI，是完全可能的。

这可能彻底改变社会，在医疗、科技、经济领域带来巨大的好处。但也可能让对齐问题叠加恶化，最终导致失控。

因此，Anthropic 带头呼吁：

如果存在一个可验证的机制，能保证 AI 实验室确实都没偷偷卷，我们愿意减速、甚至暂停。

除此之外，Anthropic 的这篇博客里，还放出了蛮多有意思的观点和事实。

以下是经过整理，更方便大家阅读的版本。

Enjoy。

Anthropic 长文定调 AI 圈的摩尔定律来了

Anthropic 创建了个全新的衡量维度，叫「AI 能独立完成的任务时长」。

2024 年 3 月，Claude Opus 3 能搞定人类大概需要 4 分钟的软件任务。

一年后，Claude Sonnet 3.7，1.5 小时。

又一年，Claude Opus 4.6，12 小时。

而最新的 Mythos，在内测中的表现是：

能连续工作「至少」16 小时，已经到了 METR 测试框架能衡量的上限了。

这个翻倍速度，从原来的每 7 个月翻一倍，加速到了每 4 个月翻一倍。

如果趋势不变，2027 年，可能是好几周。

Claude 编写了大部分 Anthropic 代码

截至 2026 年 5 月，我 Anthropic 代码库的代码，超过 80% 由 Claude 编写。

在 Claude Code 发布前，这个数字一直只有个位数。

这种变化，也体现在工程师的工作方式上。

在 Anthropic 的最初四年，工程师每天 Merge 的代码行数基本保持不变。

2025 年， Claude 开始自己写代码，merge 数突然开始飙升。

如今，2026 年第二季度，工程师每天 merge 的代码量是 2024 年的 8 倍。

不过，代码量上去了，代码质量是不是注水了？

Anthropic 说，这一年来，工程师纠正 Claude 的次数，越来越少了。

这一点，在 benchmark 中可见一斑，如下图所示。

所有难度类型的任务中，Claude 的成功率，无一例外的一路暴增。

所以，Anthropic 现在干脆用 Claude 来 review 代码。

是的，所有提交到代码库的改动，都会先过一遍 Claude 自动审查，检查 bug、安全漏洞和其他缺陷。

他们回溯分析发现，如果之前每次改动都有这道自动审查，大约三分之一导致 claude.ai 线上事故的 bug，上线之前就会被拦下来。

要知道，写那些代码的工程师，已经是全世界造 AI 系统最顶尖的一批人了。

Claude 在抓他们的错误。

创造力的放大镜

接下来是 Claude 在研究层面的参与程度。

Anthropic 有个惯例，每次发新模型，都会给 Claude 一段训练小型 AI 模型的代码，让它在保证正确性的前提下，把运行速度优化到最快。

2025 年 5 月，Claude Opus 4 交出的答案是：加速 3 倍。

2026 年 4 月，Claude Mythos Preview 做到了 52 倍。

作为参考，一个熟练的人类研究员，需要 4 到 8 个小时才能勉强达到 4 倍。

不到一年的时间，Claude 超过了人类。

2026 年 4 月，Anthropic 丢给 Claude 一个 AI 安全研究，大意是「一个弱模型能不能可靠地监督一个强模型」，然后让 Claude 自己提假设、跑实验……

这次先说人类的表现吧，两个人类研究员花了大约一周时间，把 gap 缩小了 23%。

而 Claude，在大约 800 小时、花了大约 18000 美元的算力之后——

缩小了 97%。

我们何去何从？

到这里为止，结论已经很清楚了。

人类在 AI 开发流程里的角色，每一个环节都在收窄。

代码，Claude 写了。代码 review，Claude 做了。实验执行，Claude 快了人类一个数量级。实验设计，Claude 开始自己来了……

人类现在最后的比较优势，是研究品味和判断力。

但这个优势能守多久？

Anthropic 在博客里说，他们也不确定。

一种可能是，「研究品味」就像之前 AI 不会的其他东西一样，先是做不到，然后突然就做到了。

就像 AI 理解幽默、展示心智理论、解语言谜题，都经历了同样的曲线。

另一种可能是，即便 Claude 永远学不会真正的研究品味，仅靠现在的加速趋势，每个人类研究员能同时指挥的工作量已经大了好几倍。

你不需要 AI 完全替代你思考，它只要把所有「执行」的活全干了，你就只需要做那 5% 的方向选择。

RSI 的三种未来

博客结尾，Anthropic 描绘了关于这次「自进化」趋势三个可能演化方向。

1、停滞。

那些指数曲线其实是 S 曲线。

也许研究判断力这个东西就是没法靠 scale 解决，需要一种全新的架构突破。

或者，瓶颈在能源、在芯片、在算力的物理供应链上。

不过，即便 AI 的能力就停滞在今天的水平，也会发生对世界带来重大变化。

前段时间的 Project Glasswing，Mythos Preview 在上线头几周就发现了超过一万个高危和严重级别的软件漏洞，遍布全球最关键的系统。

2、AI 持续加速，但人类仍然把着方向盘。

组织效率会指数级提升，100 人的公司做 1 万甚至 10 万人的活。知

Anthropic 觉得我们大概率正在走进这个场景。

但他们也发现了一个有意思的现象，就是阿姆达尔定律在组织里的体现 _

Claude 把代码写得飞快了，结果代码 review 变成了新瓶颈。各种新想法、新工具、新实验爆炸式涌现，远超组织的消化能力。

瓶颈不会消失，只是转移到下一个环节。

3、AI 实现完全的递归自我提升，开始自己造下一代自己。

这个场景下，AI 的发展速度完全取决于算力了。人类退到监督、验证、审核的位置。

如果真的发生，这种能力大概率会迁移到其他科学领域，医学、材料、能源，全线起飞。

当然，另一种未来，是对齐失败。

这种情况下，偏差会在 AI 自我迭代的过程中逐步累积，最终—