跑得最快的人却喊着要刹车？Anthropic 呼吁全球中止 AI 研究

原文标题：《跑得最快的人却喊着要刹车？Anthropic 呼吁全球中止 AI 研究，网友：你为啥不先停》

作者 | 四月

当 "AI 造 AI" 的时代，从理论推演成为工程现实，我们人类将走向何处？该如何刹车？

今天，Anthropic 发布了一篇长文博客《When AI builds itself》，正式把一个过去只存在于科幻小说里的技术概念推到了台前：递归自我改进，Recursive Self-Improvement，缩写 RSI。

说得通俗一点，就是 AI 不只是帮人类写代码、跑实验、做研究，而是开始参与构建下一代 AI。今天是 Claude 帮 Anthropic 写代码、调系统、做实验；再往后，就是 Claude 开始帮 Anthropic 构建出更强的 Claude。

这也是文章最为核心、最让人焦虑不安的判断：AI 的进化速度，不再完全取决于人类工程师和研究员，而是越来越多地被 AI 自己推动。模型越强，研发越快；研发越快，下一代模型又会更强。这个飞轮一旦转起来，就不再只是 "AI 提效 " 的问题，而是 AI 研发本身开始进入自我加速。

Anthropic 用一组关键数据对这个能力进行了度量：AI 独立完成的任务时长。过去大约每 7 个月翻一倍，现在已经加速到每 4 个月翻一倍。2024 年 3 月，Claude Opus 3 大概只能完成一个人类需要 4 分钟的软件任务；一年后，Claude Sonnet 3.7 已经能处理约 1.5 小时任务；再往后，Claude Opus 4.6 可以完成约 12 小时任务。

在用一连串数据图表把 Claude 的能力跃迁铺陈到极致之后，Anthropic 终于点明了它真正的主旨：如果前沿 AI 继续以这样的速度发展下去，全球需要认真考虑放缓，甚至暂时停止前沿 AI 开发。

表达用词虽然委婉，但仍可称得上 " 暴论 "，全球范围内的讨论热度瞬间被点燃。目前该帖的浏览量已经超过 500 万。但其实比 "AI 会不会失控 " 更值得关注的，还有 "Anthropic 如果已经深刻认识到这项工作的风险，为什么不自己先停下呢？"

对此，他们加了一个极其微妙的前提："如果其他前沿实验室能一起按下暂停键，那我们也会采取同样的措施。"

这里的言外之意其实已经很清晰。除非大家同时停车，而且还能互相验票，确认谁都没偷偷往前跑，否则谁也别指望 Anthropic 会单方面踩下刹车。

于是讽刺的真相来了，全球跑得最快的 AI 公司，开始呼吁全世界同仁要踩踩刹车；但真问他自己要不要先松油门时，答案又变成了：大家一起停才能停。

我想，这或许才是 Anthropic 这次表态能引发如此争议的原因之一。这已经不是一个技术伦理的问题，放到前沿 AI 竞赛的语境里，它本质上还是一个囚徒困境：

每家公司都知道 AI 的发展速度太快，每家公司都知道治理和法规滞后，每家公司也都知道更强模型可能带来失控风险；但大家更知道，只要自己先慢下来，别人就可能冲到前排。

所以，某种程度而言，这番呼吁的背后，不仅是技术上的预警，更是话语权的争夺。

在文末，Anthropic 亮出底牌：未来几个月，他们将牵头组织一系列全球对话，拉上监管机构、政策制定者、学界和友商，开启一场关于 " 如何给 AI 自进化踩刹车 " 的全球探讨（博弈）。

而同样是在本周，OpenAI 也发表了博客《A blueprint for democratic governance of frontier AI》，提出一套关于前沿 AI 民主治理的蓝图，核心是推动美国建立一个更持久的联邦框架，强化 CAISI 作为美国前沿 AI 安全主要机构的角色，并把递归自我改进明确列为未来治理必须重点关注的能力。

OpenAI 在蓝图中表示，今天的系统中已经能看到递归自我改进的早期迹象，也就是 "AI 研发本身正在被 AI 加速 "；它预计这会加剧开发者和国家之间的竞争压力，并带来现有机构尚无法应对的治理挑战。

可以看到，治理议题一旦成立，接下来竞争的就不只是模型能力，还有规则制定权。

无论是 Anthropic，还是 OpenAI 等一众前沿 AI 公司，都被架在了一个尴尬位置：它们既是加速者，也是预警者；既是风险的制造者，还要充当规则的倡议者。也就是说，你既要向资本市场展示无限的造富能力，也得向监管机构表忠心我们非常警惕技术风险。

说白了，他们真正想做的，不只是提醒大家 AI 可能失控，而是在 AI 真的逼近失控之前，率先成为那个讨论 " 治理规则 " 的话事人。

AI 造 AI，正在发生

Anthropic 之所以敢把 " 递归自我改进（RSI）" 的技术细节与能力摆到明面上，还在于他们已经将其训练得炉火纯青了。

截至 2026 年 5 月，Anthropic 合入代码库的代码中，超过 80% 可以归因于 Claude。而在 2025 年 2 月 Claude Code 发布之前，这个比例还只是低个位数。

这不是小幅提效，而是研发流程的结构性重构。

在公司发展的前三年，Anthropic 工程师每天合入的代码量基本稳定。2025 年之后，Claude 开始自主编写和运行代码，曲线首次上扬；到了 2026 年，模型能在更长时间跨度上独立工作，斜率进一步陡升。到 2026 年第二季度，典型工程师每天合入的代码量已是 2024 年的 8 倍。

Anthropic 坦承，代码行数不等于生产力，8 倍的数字肯定高估了真实效率，AI 完全可能制造更多需要回收的 " 代码债 "。

另一个数据更值得审视：今年 3 月的内部调查中，130 名研究人员的中位数受访者认为，在 AI 协助下自己的产出是没有 AI 时的 4 倍。这意味着 Claude 已经不再是 " 偶尔帮忙写段脚本 " 的外挂，而是在系统性重写工程师的工作流。

更关键的是，Claude 跨越了 " 写代码 " 的边界，进入了质量控制环节。

过去一年，研究员纠正、打断、中途接管 Claude 任务的比率持续下降——哪怕是在最复杂、最开放的任务上。在最开放的任务难度档位上，Claude 的成功率在 2026 年 5 月达到 76%，6 个月已经暴涨 50 个百分点。

目前，所有提交到 Anthropic 代码库的改动，都会先经过 Claude 的自动审查，排查 bug 和安全漏洞。回溯分析显示，如果早些启用这套自动审查，大约三分之一导致 claude.ai 线上事故的 bug 本可在上线前被拦截。

这件事的反转之处在于：写这些代码的人，已经是全球最懂 AI 系统的顶尖工程师；而现在，Claude 不仅在替他们写代码，还在替他们抓错误。

正如 Anthropic 在博客中所言：" 我们正在接近一个临界点，即模型编写的代码质量将与人类工程师相当，然后在某些领域超越他们。"

AI 研发链条里最基础、最耗时的一环，已经开始闭环。

真正变快的，是实验循环

如果说写代码还只是第一层变化，那么更深层的颠覆，是 Claude 开始极大地压缩实验循环。

AI 研究并不总是靠 " 灵光一现 "。真正吞噬时间的，是大量重复性工作：改一段代码，跑一次实验，观察结果，定位瓶颈，再改一轮。

Anthropic 每次发布新模型时，都会做一个固定测试：给 Claude 一段训练小型 AI 模型的代码，让它在保证正确性的前提下，尽可能优化运行速度。这本质上是对 AI 研究循环的微缩模拟。

2025 年 5 月，Claude Opus 4 做到了约 3 倍加速；到了 2026 年 4 月，Claude Mythos Preview 直接干到了约 52 倍加速。作为对照，熟练的人类研究员通常需要 4 到 8 小时才能达到约 4 倍。

不要误读这个 52 倍，它不代表真实模型训练成本下降了 52 倍，仅限于该特定测试。但它释放的信号极强：在目标明确、反馈清晰、可反复试错的研究环节，Claude 已经把时间压缩到了人类难以追上的数量级。

这也解释了 Anthropic 为何如此重视 RSI。博客中直指核心：" 递归自我改进不太可能以突然的‘顿悟’时刻发生 …… 相反，我们预计它是一个持续、渐进的过程，AI 逐渐接管更多研发任务。"

它不用每次都提出天才架构，只要能更快试错、更快排障、更快优化，研发飞轮就会被持续推高。

Anthropic 还给了一个工程现场的案例：一次常规升级导致数万训练任务崩溃，工程师仅给 Claude 一段文字描述和集群权限，Claude 便自主排查运行环境，揪出隐藏极深的调试标志并完成修复。

原本需人类两三天的工作，Claude 只用了两小时。

Claude 不只是更快地产出代码，而是在压缩 " 从问题出现到问题解决 " 的时间差。这才是前沿实验室真正关心的加速。

人类还在掌舵，但方向盘开始摇摆

Anthropic 在文章中反复强调，人类目前仍然有一个明显优势：研究品味（Research Taste）。也就是判断哪些问题值得做，哪些结果可信，哪条路线值得继续，哪条路线应该放弃。

这也是 AI 研发中最难被自动化的一环。写代码可以评测，跑实验可以看结果，优化速度可以计时。但 " 下一步该做什么 "，往往不是标准答案题。

不过，Anthropic 也已经开始测试 Claude 在这个环节上的能力。

他们选取了真实研究会话中人类研究员曾经走弯路的 129 个节点，把走弯路之前的上下文交给不同版本的 Claude，让模型判断下一步该怎么做。再由另一个能看到完整结局的 Claude 评估答案。

结果显示，2025 年 11 月的 Opus 4.5，有 51% 的概率给出比当时人类更好的下一步选择。到了 2026 年 4 月，Mythos Preview 的比例提升到 64%。

这个测试当然不能被夸大。样本本身就来自人类曾经做得不够好的节点，裁判也是模型，因此它不是严格意义上的人机公平竞赛。

但它也说明 Claude 涉及到的不只是执行层，而是开始靠近研究判断层。这也是人类角色正在变化的地方。

过去，研究员亲自写代码、跑实验、分析结果、决定下一步。现在，越来越多执行工作可以交给模型，人类更像是在提出问题、设定边界、验证结果。

这听起来像是解放，但也意味着另一种压力：当执行成本大幅下降，真正稀缺的就变成判断力本身。Anthropic 已经感受到了这种瓶颈。

Claude 能更快地产生代码，但代码审查会变成新瓶颈；Claude 能产出更多想法、工具和实验，但组织未必有足够能力消化它们。

瓶颈并不会消失，只会转移到下一个还没有被自动化的环节。这也是 AI 自我加速真正麻烦的地方。它不是把所有问题一次性解决，而是不断把压力推向人类仍然负责的那部分。

三种未来，核心问题只有一个

在这篇博客里，Anthropic 推演了三种未来。但与其说是三种科幻剧本，不如说是三个不同程度的加速场景。

第一种，能力曲线开始变平。

也许现在看起来很陡的指数曲线，最后都会变成 S 曲线。也许 " 研究品味 " 无法靠规模化解决。也许真正的瓶颈不在模型，而在芯片、电力、数据中心和供应链。

如果这个场景发生，AI 研发不会进入完全自我加速，社会也会获得更多适应时间。

但 Anthropic 并不认为这意味着风险消失。它举了 Project Glasswing 的例子：Mythos Preview 在上线最初几周，就发现了全球关键系统中超过一万个高危和严重级软件漏洞。

需要说清楚的是，这些漏洞不是 AI 自我进化制造出来的，而是 AI 主动发现的。

这个例子想说明的是，即便模型能力停在今天，现有 AI 能力扩散出去，也已经足以让很多现实系统承压。网络安全的瓶颈可能不再是 " 找不到漏洞 "，而是 " 修不过来 "。

第二种，是 Anthropic 认为更可能的情况：AI 继续加速研发，但人类仍然掌舵。

在这个场景里，AI 大幅自动化研发流程，人类继续负责方向选择和最终判断。一个很小的团队，可以完成过去大组织才能承担的工作量。科学发现、药物研发、材料、能源，都可能因此被加速。

但同样的能力也会降低危险行动的门槛。更高效的代码生成、自动化实验和长时程 Agent，不只会服务于科研，也可能服务于网络攻击、监控系统和个性化操纵。

更现实的问题是，组织能否消化这种加速。Anthropic 已经看到，代码生成之后，审查成为瓶颈；想法生成之后，决策和筛选成为瓶颈。AI 把一段流程变快，下一段流程就会被暴露出来。

第三种，才是完整意义上的递归自我改进。

也就是 AI 开始设计、训练、迭代自己的继任者。到了这个阶段，AI 进步速度主要取决于算力供给，人类退到监督、验证和审核的位置。

Anthropic 在这里的表述非常谨慎。它没有声称这一定会发生，也没有声称已经发生。但它承认，如果这一幕真的出现，今天的直觉可能不再可靠。因为模型中的偏差、失准和对齐问题，可能会在一代代自我构建中叠加放大，变得越来越难理解。

所以，这三种未来真正共同指向的问题，不是 "AI 什么时候觉醒 "，而是人类还能不能在不断加速的研发链条中保持足够的理解、验证和干预能力。

听起来像治理，落地却是博弈

也正因为如此，Anthropic 才会在文章最后提出：世界应该拥有一种选项，在必要时放缓甚至暂停前沿 AI 开发。

但它并没有把问题说得很清楚。

Anthropic 很清楚，如果只有谨慎的实验室放慢脚步，结果可能只是把领先位置让给更不谨慎的玩家。所以真正有效的暂停，必须是多个国家、多个前沿实验室，在相同条件下共同参与，并且能够相互验证。

这也是为什么，这套主张一出来，就很容易引发反感。

因为它听起来不像一句简单的安全呼吁，更像是一套现实的竞赛规则：要停可以，但必须大家一起停；要减速可以，但必须能确认别人也没有偷偷加速。

这里面当然有合理性。前沿 AI 不是某家公司自己关门就能解决的问题。只要技术竞赛存在，单方面 " 做好人 " 就很可能变成单方面退出牌桌。但这也正是大众不信任的来源。

当一家跑在最前面的公司开始讨论 " 暂停 "，普通人很难不追问一句：这是在为安全负责，还是在为未来的规则制定抢位置？

更何况，Anthropic 不是唯一一个在这个时间点发声的前沿公司。

就在本周，OpenAI 也发布了关于前沿 AI 民主治理的蓝图，他们同样提到，当前系统中已经能看到 RSI 的早期迹象，也就是 AI 研发本身正在被 AI 加速；这种能力可能加剧开发者和国家之间的竞争压力，并带来现有机构难以应对的治理挑战。

Anthropic 和 OpenAI 的表述不完全相同，落点也不同。一个强调多方可验证的减速机制，一个强调民主治理和国家级安全机构。但共同点很明显：它们都在把 RSI 从一个技术问题，推成一个治理问题。

而治理议题一旦成立，竞争的就不只是模型能力，还有规则制定权。

谁来定义什么是危险能力，谁来设计评估标准，谁来触发暂停机制，谁来验证其他玩家是否违规，谁就会在下一阶段的 AI 竞赛中拥有更大的话语权。

宙世代

一起剪