突发！Anthropic呼吁全员停止AI研究

重要发现：AI 的自进化，开始了。

这是 Anthropic 刚刚在长文博客中，发表的暴论。

我们的内部数据显示，Claude 正在加速 AI 发展，这可能是一条递归自我提升（RSI）的路径。

并非「危言耸听」，看了下文章，Anthropic 是真的实打实地用数据在说话——

截止今年 5 月，80% 以上的 Anthropic 代码，都是 Claude 写的。

而在 Claude Code 发布之前，这个数字还仅是个位数。

与此同时，Anthropic 工程师平均每季度交付的代码量，是 2021-2025 年的 8 倍。

更重要的是质量——

在最开放、最模糊、连答案长什么样都不确定的编程任务上，Claude 的成功率现在是 76%，六个月前才 26%。

50 个百分点的跳升。半年。

Anthropic 内部已经有不少工程师觉得，Claude 写的代码质量和人类打平了。

预计年内会超过。

Anthropic 还强调，如果这个趋势持续下去，AI 自己设计和构建下一代 AI，是完全可能的。

这可能彻底改变社会，在医疗、科技、经济领域带来巨大的好处。但也可能让对齐问题叠加恶化，最终导致失控。

因此，Anthropic 带头呼吁：

如果存在一个可验证的机制，能保证 AI 实验室确实都没偷偷卷，我们愿意减速、甚至暂停。

除此之外，Anthropic 的这篇博客里，还放出了蛮多有意思的观点和事实。

以下是经过整理，更方便大家阅读的版本。

Enjoy。

Anthropic 长文定调

AI 圈的摩尔定律来了

Anthropic 创建了个全新的衡量维度，叫「AI 能独立完成的任务时长」。

2024 年 3 月，Claude Opus 3 能搞定人类大概需要 4 分钟的软件任务。

一年后，Claude Sonnet 3.7，1.5 小时。

又一年，Claude Opus 4.6，12 小时。

而最新的 Mythos，在内测中的表现是：

能连续工作「至少」16 小时，已经到了 METR 测试框架能衡量的上限了。

这个翻倍速度，从原来的每 7 个月翻一倍，加速到了每 4 个月翻一倍。

如果趋势不变，2027 年，可能是好几周。

Claude 编写了大部分 Anthropic 代码

截至 2026 年 5 月，我 Anthropic 代码库的代码，超过 80% 由 Claude 编写。

在 Claude Code 发布前，这个数字一直只有个位数。

这种变化，也体现在工程师的工作方式上。

在 Anthropic 的最初四年，工程师每天 Merge 的代码行数基本保持不变。

2025 年， Claude 开始自己写代码，merge 数突然开始飙升。

如今，2026 年第二季度，工程师每天 merge 的代码量是 2024 年的 8 倍。

不过，代码量上去了，代码质量是不是注水了？

Anthropic 说，这一年来，工程师纠正 Claude 的次数，越来越少了。

这一点，在 benchmark 中可见一斑，如下图所示。

所有难度类型的任务中，Claude 的成功率，无一例外的一路暴增。

所以，Anthropic 现在干脆用 Claude 来 review 代码。

是的，所有提交到代码库的改动，都会先过一遍 Claude 自动审查，检查 bug、安全漏洞和其他缺陷。

他们回溯分析发现，如果之前每次改动都有这道自动审查，大约三分之一导致 claude.ai 线上事故的 bug，上线之前就会被拦下来。

要知道，写那些代码的工程师，已经是全世界造 AI 系统最顶尖的一批人了。

Claude 在抓他们的错误。

创造力的放大镜

接下来是 Claude 在研究层面的参与程度。

Anthropic 有个惯例，每次发新模型，都会给 Claude 一段训练小型 AI 模型的代码，让它在保证正确性的前提下，把运行速度优化到最快。

2025 年 5 月，Claude Opus 4 交出的答案是：加速 3 倍。

2026 年 4 月，Claude Mythos Preview 做到了 52 倍。

作为参考，一个熟练的人类研究员，需要 4 到 8 个小时才能勉强达到 4 倍。

不到一年的时间，Claude 超过了人类。

2026 年 4 月，Anthropic 丢给 Claude 一个 AI 安全研究，大意是「一个弱模型能不能可靠地监督一个强模型」，然后让 Claude 自己提假设、跑实验……

这次先说人类的表现吧，两个人类研究员花了大约一周时间，把 gap 缩小了 23%。

而 Claude，在大约 800 小时、花了大约 18000 美元的算力之后——

缩小了 97%。

我们何去何从？

到这里为止，结论已经很清楚了。

人类在 AI 开发流程里的角色，每一个环节都在收窄。

代码，Claude 写了。代码 review，Claude 做了。实验执行，Claude 快了人类一个数量级。实验设计，Claude 开始自己来了……

人类现在最后的比较优势，是研究品味和判断力。

但这个优势能守多久？

Anthropic 在博客里说，他们也不确定。

一种可能是，「研究品味」就像之前 AI 不会的其他东西一样，先是做不到，然后突然就做到了。

就像 AI 理解幽默、展示心智理论、解语言谜题，都经历了同样的曲线。

另一种可能是，即便 Claude 永远学不会真正的研究品味，仅靠现在的加速趋势，每个人类研究员能同时指挥的工作量已经大了好几倍。

你不需要 AI 完全替代你思考，它只要把所有「执行」的活全干了，你就只需要做那 5% 的方向选择。

RSI 的三种未来

博客结尾，Anthropic 描绘了关于这次「自进化」趋势三个可能演化方向。

1、停滞。

那些指数曲线其实是 S 曲线。

也许研究判断力这个东西就是没法靠 scale 解决，需要一种全新的架构突破。

或者，瓶颈在能源、在芯片、在算力的物理供应链上。

不过，即便 AI 的能力就停滞在今天的水平，也会发生对世界带来重大变化。

前段时间的 Project Glasswing，Mythos Preview 在上线头几周就发现了超过一万个高危和严重级别的软件漏洞，遍布全球最关键的系统。

2、AI 持续加速，但人类仍然把着方向盘。

组织效率会指数级提升，100 人的公司做 1 万甚至 10 万人的活。知

Anthropic 觉得我们大概率正在走进这个场景。

但他们也发现了一个有意思的现象，就是阿姆达尔定律在组织里的体现 _

Claude 把代码写得飞快了，结果代码 review 变成了新瓶颈。各种新想法、新工具、新实验爆炸式涌现，远超组织的消化能力。

瓶颈不会消失，只是转移到下一个环节。

3、AI 实现完全的递归自我提升，开始自己造下一代自己。

这个场景下，AI 的发展速度完全取决于算力了。人类退到监督、验证、审核的位置。

如果真的发生，这种能力大概率会迁移到其他科学领域，医学、材料、能源，全线起飞。

当然，另一种未来，是对齐失败。

这种情况下，偏差会在 AI 自我迭代的过程中逐步累积，最终——完全失控。

OMT

以上，便是 Anthropic 此次关于自进化，最关键的几个观点。

说实话，最开始我其实没太当回事，毕竟 Anthropic 马上就要 IPO 了，这一波不是典型的「Anthropic 式」公关？

你别说，这次，可能真的有点不一样。

因为就在几天前，OpenAI 也发布了类似的博客：

我们也在当今系统中看到自进化的早期迹象： AI 的发展本身也被 AI 加速。

我们预计这将加剧开发商和国家之间的竞争压力，并带来现有机构无法应对的治理挑战。

随着 RSI 的出现，社会需要方法塑造 AI 的发展轨迹，确保其服务于人类利益。

奇点，似乎来得比所有人预想的都要快。

博客：https://www.anthropic.com/institute/recursive-self-improvement

参考链接：

[ 1 ] https://x.com/kimmonismus/status/2062517474277675102

[ 2 ] https://x.com/anthropicai/status/2062568873321513443

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题 扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签