突发！Anthropic重磅发现：AI已开始自我进化呼吁全球暂停研究

快科技 6 月 5 日消息，AI 已经开始有自我进化和自我构建的迹象了！

这一大胆判断，是刚刚 Anthropic 在最新的一篇重磅论文《When AI Builds Itself》中提出的。文章提到，如果这一趋势持续发展并获得足够算力支撑，最终将指向能够完全自主设计和开发自身继任者的人工智能系统，这被称为 " 递归自我提升 "。

"我们还没到那个阶段，递归式自我提升也不是必然的。但这可能比大多数机构准备得更早到来。"

Anthropic 呼吁，世界能够选择放缓或暂时暂停前沿人工智能的发展，以便社会结构和对齐研究跟上技术进步，将是件好事。

同时，Anthropic 宣布："Anthropic 研究所将与外部利益相关者合作，开展研究，深入思考日益强大、可能自我改进的系统所带来的影响，以及如何让世界有能力对这项技术的未来发展做出深思熟虑的选择。"

尽管 Anthropic 官方 X 账号上补充澄清：" 这一切都不能保证递归自我提升即将到来。目前尚不清楚 Claude 是否具备研究判断力 —— 即选择正确问题去解决的能力。但如果这些趋势继续下去，AI 系统设计和构建自己的继任者是合理的。这可能会在医学、技术、经济等方面为社会带来革命性的改善，但也可能加剧对齐问题，最终导致失控。"

但论文中披露的一系列数据和事实，还是让整个科技界感到了前所未有的震撼。因为这篇论文不是在预测遥远的未来，而是在描述正在发生的现实。

顺便提一嘴，当地时间 5 月 28 日，Anthropic 宣布完成 H 轮 650 亿美元融资，投后估值达 9650 亿美元，一举超越 OpenAI 8520 亿美元的估值，成为全球估值最高的 AI 创企。

作为当下全球 AI 行业双寡头之一、企业级大模型领域龙头，Anthropic 在商用大模型、代码 AI 赛道份额稳居行业前列，也是全球前沿通用 AI 与 AI 安全规则的核心制定方，其技术结论与行业表态常年左右全球 AI 研发风向。

80% 的 Claude 代码，已经是 Claude 自己写的

据 Anthropic 官方披露，截至 2026 年 5 月，Anthropic 代码库中超过 80% 的合并代码，都是由 Claude 自己编写的。

要知道，就在一年多以前的 2025 年 2 月，Claude Code 还只是一个研究预览版，当时这个数字还停留在个位数。短短 15 个月，AI 就从一个偶尔提提建议的助手，变成了代码生产的绝对主力。

这种转变直接体现在了工程师的生产力上。论文显示，在 Anthropic 成立的前四年（2021-2024 年），每位工程师每天的代码行数基本保持不变。

但从 2025 年开始，这条曲线突然向上拐了，当 Claude 不再只是建议代码让工程师复制粘贴，而是能够直接运行代码时，生产力开始爆发。到了 2026 年第二季度，这个斜率变得更加陡峭，普通工程师每天合并的代码量已经是 2024 年的 8 倍。

当然，Anthropic 也坦诚，代码行数是一个不完美的衡量标准，它只看数量不看质量，8 倍的数字很可能高估了真实的生产力提升。

2026 年 3 月对 130 名研究团队员工的调查显示，中位数受访者估计使用 Mythos Preview 后，自身产出约为不使用任何 AI 工具时的 4 倍。但即便如此，这也是一个革命性的变化。现在的工程师，已经不再是主要的代码编写者，而是变成了代码的指导者和审核者。

更可怕的是，Claude 写的代码质量还在飞速提升。多数内部员工认为，2025 年底 Claude 编写的代码质量仍逊于人类工程师，但到了今天，两者已经基本持平。Anthropic 预测，不出一年，Claude 写的代码质量就会全面超过人类。

这已经不是理论了，而是正在发生的事实。有 Anthropic 员工在内部表示：" 我大约一年前开始全力使用 Claude，这是一段疯狂的经历，现在我已经有 5 个月没有自己写过一行代码了。"

Claude 不仅能写代码，还能大规模修复人类遗留的问题。2026 年 4 月，Claude 一次性提交了 800 多个修复，将一类长期存在的 API 错误减少了 1000 倍。负责监督的工程师估计，人类完成同等工作量需要整整四年。甚至在代码审查环节，Claude 也已经超越了人类，自动审查系统可以发现人类工程师漏掉的约 1/3 会导致生产事故的 bug。

在最开放、无明确规范的复杂工程任务上，Claude 的成功率在 2026 年 5 月达到了 76%，较六个月前提升了 50 个百分点。一个典型案例是，一次常规升级导致数万个训练任务崩溃，工程师只给了 Claude 一些文本内容和集群访问权限，它就自主排查出了一个极其隐蔽的调试标志问题，重现并修复了故障，整个过程只用了两个小时，而人类通常需要两到三天。

AI 已经开始做 AI 研究了

如果说写代码还只是 " 体力活 "，那么做研究就是 AI 真正开始挑战人类智力边界的标志。

事实上，AI 能力的增长速度本身就在加速。论文显示，AI 能够可靠完成的任务时长，从最初每 7 个月翻一番，提升到了现在每 4 个月翻一番。2024 年 3 月，Claude Opus 3 只能完成人类约 4 分钟的工作。一年后，Claude Sonnet 3.7 可以完成 1.5 小时的任务。又过了一年，Claude Opus 4.6 已经能连续工作 12 小时。

按此趋势，2026 年内 AI 就能完成需要人类数天的工作，2027 年将能完成数周的任务。

这种能力提升在研究领域表现得尤为明显。论文中披露了一个惊人的实验，Anthropic 给 Claude 一段训练小型 AI 模型的代码，让它在保证正确性的前提下尽可能提速。2025 年 5 月，Claude Opus 4 平均能实现 3 倍的速度提升；仅仅 11 个月后，Claude Mythos Preview 就能实现 52 倍的速度提升。作为对比，一个熟练的人类研究员需要 4 到 8 小时才能达到 4 倍的速度。

在 " 执行明确指定的实验 " 这个环节，Claude 已经在不到一年的时间里，从 " 非常有用 " 变成了 " 超越人类 "。

更令人不安的是，Claude 已经开始能够独立设计实验了。今年 4 月，Anthropic 展示了 Claude 端到端完成一个开放研究项目的能力。研究人员给了 Claude 一个 AI 安全领域的开放问题 —— " 较弱的模型能否可靠地监督较强的模型？"，然后就放手让它自己去解决。

在这个过程中，Claude 自主提出假设、设计实验、与并行的其他 AI 代理分享发现、不断迭代。最终，两名人类研究员花了大约一周时间，只弥补了 23% 的性能差距。而 Claude 代理们用了 800 个累计小时和大约 1.8 万美元的计算资源，弥补了 97% 的差距。

虽然人类仍然选择了问题并制定了评分标准，但在这个框架内，所有的实验都是 Claude 自己设计的。人类唯一有意义的角色，就是设定方向。

甚至在研究判断这个人类最后的堡垒上，AI 也在快速逼近。Anthropic 在官方 X 上公布了一项关键数据："AI 研究是一系列下一步决策。我们研究了人类研究者走错路的会话，向 Claude 展示了会话到那个点为止的内容，然后问它下一步该怎么做。Mythos Preview 在 64% 的情况下做出了比人类更好的选择，而 2024 年这个数字只有 22%。"

要知道，日常的研究工作，本质上就是由无数个这样的 " 下一步该做什么 " 的决策组成的。

三种可能的未来

基于这些观察，Anthropic 描绘了三种可能的未来。

第一种是趋势停滞。所有的指数曲线最终都会变成 S 曲线，我们可能正在接近曲线的拐点。" 研究品味 " 这种区分普通研究者和伟大研究者的能力，可能是无法通过简单的算力和数据堆叠获得的。或者，算力、能源、芯片制造等供应链问题会成为新的瓶颈。

但 Anthropic 认为这种可能性不大，因为目前所有可测量的能力都还在沿着同样的指数曲线上升，还没有看到任何弯曲的迹象。即便如此，即使 AI 能力冻结在当前水平，也足以引发巨大的社会变革。比如 Project Glasswing 项目中，Mythos Preview 在短短几周内就发现了全球关键系统中上万条高危和严重级别的软件漏洞，使得网络防御的瓶颈已经从发现漏洞变成了足够快地修补漏洞。

第二种是人类主导的加速发展。在这个场景下，AI 开发会变得高度自动化，但人类仍然掌握着研究方向的设定和结果的评判权。每家公司的生产力都会获得指数级提升，100 人的公司可能能干过去 1 万人甚至 10 万人的活。这会彻底改变知识工作的面貌，但也可能被用于有害的目的，比如大规模的监控和操纵。

第三种，也是最令人担忧的一种，就是完全的递归自我提升。如果技术趋势继续下去，AI 系统最终将能够设计和改进自己。到那时，AI 发展的速度将完全由算力的可用性决定，人类在开发过程中的角色将大幅减弱，主要精力会转向对 AI 运行的 " 虚拟实验室 " 进行监督、验证和核查。

Anthropic 坦率地承认，他们对于这个世界会是什么样子没有很好的直觉。因为我们的整个经济都是建立在人类和人类制造的工具之上的。如果人类劳动不再具有竞争力，整个社会的运行方式都会发生根本性的改变。

呼吁全球暂停前沿 AI 研究

正是基于这样的担忧，Anthropic 在论文中发出了一个不同寻常的呼吁，如果能够有效地减缓这项技术的发展，给我们更多时间来应对其巨大的影响，那将是一件好事。

但 Anthropic 也清醒地认识到，单方面的暂停没有意义，只会让最不谨慎的参与者获得技术领先优势，最终让所有人都更不安全。真正有效的暂停，需要全球多个处于前沿的实验室在相同的条件下同意停止，并且每个实验室都能够验证其他实验室确实已经停止了。

这是一个极其困难的任务。与核武器不同，AI 训练运行比导弹发射井容易隐藏得多，而且偷偷作弊的动机极其巨大，谁在别人暂停的时候继续发展，谁就可能继承整个未来。

Anthropic 表示，他们将与其他机构合作，研究建立这样一个可信的暂停机制所需要的系统。如果这样的系统存在，并且其他处于前沿的开发者也以可验证的方式同意暂停，Anthropic 也会愿意放慢或暂时停止前沿 AI 的开发。

写在最后

这篇论文的发表，无疑是 AI 发展史上的一个里程碑。它第一次由一家顶尖的 AI 公司亲口承认，AI 已经开始深度参与到自身的开发过程中，并且这个过程正在以越来越快的速度加速。

当然，也有不少网友提出了质疑。毕竟，Anthropic 正处于筹备 IPO 的关键时期，在这个时候抛出这样一篇震撼性的论文，很难不让人怀疑这是给竞争对手放的烟雾弹，一方面展示自己的技术领先性，另一方面又试图通过呼吁暂停来拖住对手的脚步。

但无论如何，有一点是确定的，自我进化的 AI 这个议题，已经被正式摆到了台面上。它不再是科幻小说里的情节，而是我们这一代人可能需要面对的现实。

对此，你怎么看？大家不妨在评论区聊聊。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：朝晖

宙世代

一起剪

相关标签