AI前线 6小时前
跑得最快的人却喊着要刹车?Anthropic 呼吁全球中止 AI 研究
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

原文标题:《跑得最快的人却喊着要刹车?Anthropic 呼吁全球中止 AI 研究,网友:你为啥不先停》

作者 | 四月

当 "AI 造 AI" 的时代,从理论推演成为工程现实,我们人类将走向何处?该如何刹车?

今天,Anthropic 发布了一篇长文博客《When AI builds itself》,正式把一个过去只存在于科幻小说里的技术概念推到了台前:递归自我改进,Recursive Self-Improvement,缩写 RSI

说得通俗一点,就是 AI 不只是帮人类写代码、跑实验、做研究,而是开始参与构建下一代 AI。今天是 Claude 帮 Anthropic 写代码、调系统、做实验;再往后,就是 Claude 开始帮 Anthropic 构建出更强的 Claude

这也是文章最为核心、最让人焦虑不安的判断:AI 的进化速度,不再完全取决于人类工程师和研究员,而是越来越多地被 AI 自己推动。模型越强,研发越快;研发越快,下一代模型又会更强。这个飞轮一旦转起来,就不再只是 "AI 提效 " 的问题,而是 AI 研发本身开始进入自我加速。

Anthropic 用一组关键数据对这个能力进行了度量:AI 独立完成的任务时长。过去大约每 7 个月翻一倍,现在已经加速到每 4 个月翻一倍。2024 年 3 月,Claude Opus 3 大概只能完成一个人类需要 4 分钟的软件任务;一年后,Claude Sonnet 3.7 已经能处理约 1.5 小时任务;再往后,Claude Opus 4.6 可以完成约 12 小时任务。

在用一连串数据图表把 Claude 的能力跃迁铺陈到极致之后,Anthropic 终于点明了它真正的主旨:如果前沿 AI 继续以这样的速度发展下去,全球需要认真考虑放缓,甚至暂时停止前沿 AI 开发

表达用词虽然委婉,但仍可称得上 " 暴论 ",全球范围内的讨论热度瞬间被点燃。目前该帖的浏览量已经超过 500 万。但其实比 "AI 会不会失控 " 更值得关注的,还有 "Anthropic 如果已经深刻认识到这项工作的风险,为什么不自己先停下呢?"

对此,他们加了一个极其微妙的前提:"如果其他前沿实验室能一起按下暂停键,那我们也会采取同样的措施。"

这里的言外之意其实已经很清晰。除非大家同时停车,而且还能互相验票,确认谁都没偷偷往前跑,否则谁也别指望 Anthropic 会单方面踩下刹车。

于是讽刺的真相来了,全球跑得最快的 AI 公司,开始呼吁全世界同仁要踩踩刹车;但真问他自己要不要先松油门时,答案又变成了:大家一起停才能停。

我想,这或许才是 Anthropic 这次表态能引发如此争议的原因之一。这已经不是一个技术伦理的问题,放到前沿 AI 竞赛的语境里,它本质上还是一个囚徒困境:

每家公司都知道 AI 的发展速度太快,每家公司都知道治理和法规滞后,每家公司也都知道更强模型可能带来失控风险;但大家更知道,只要自己先慢下来,别人就可能冲到前排。

所以,某种程度而言,这番呼吁的背后,不仅是技术上的预警,更是话语权的争夺。

在文末,Anthropic 亮出底牌:未来几个月,他们将牵头组织一系列全球对话,拉上监管机构、政策制定者、学界和友商,开启一场关于 " 如何给 AI 自进化踩刹车 " 的全球探讨(博弈)。

而同样是在本周,OpenAI 也发表了博客《A blueprint for democratic governance of frontier AI》,提出一套关于前沿 AI 民主治理的蓝图,核心是推动美国建立一个更持久的联邦框架,强化 CAISI 作为美国前沿 AI 安全主要机构的角色,并把递归自我改进明确列为未来治理必须重点关注的能力。

OpenAI 在蓝图中表示,今天的系统中已经能看到递归自我改进的早期迹象,也就是 "AI 研发本身正在被 AI 加速 ";它预计这会加剧开发者和国家之间的竞争压力,并带来现有机构尚无法应对的治理挑战。

可以看到,治理议题一旦成立,接下来竞争的就不只是模型能力,还有规则制定权

无论是 Anthropic,还是 OpenAI 等一众前沿 AI 公司,都被架在了一个尴尬位置:它们既是加速者,也是预警者;既是风险的制造者,还要充当规则的倡议者。也就是说,你既要向资本市场展示无限的造富能力,也得向监管机构表忠心我们非常警惕技术风险。

说白了,他们真正想做的,不只是提醒大家 AI 可能失控,而是在 AI 真的逼近失控之前,率先成为那个讨论 " 治理规则 " 的话事人。

AI 造 AI,正在发生

Anthropic 之所以敢把 " 递归自我改进(RSI)" 的技术细节与能力摆到明面上,还在于他们已经将其训练得炉火纯青了。

截至 2026 年 5 月,Anthropic 合入代码库的代码中,超过 80% 可以归因于 Claude。而在 2025 年 2 月 Claude Code 发布之前,这个比例还只是低个位数。

这不是小幅提效,而是研发流程的结构性重构。

在公司发展的前三年,Anthropic 工程师每天合入的代码量基本稳定。2025 年之后,Claude 开始自主编写和运行代码,曲线首次上扬;到了 2026 年,模型能在更长时间跨度上独立工作,斜率进一步陡升。到 2026 年第二季度,典型工程师每天合入的代码量已是 2024 年的 8 倍。

Anthropic 坦承,代码行数不等于生产力,8 倍的数字肯定高估了真实效率,AI 完全可能制造更多需要回收的 " 代码债 "。

另一个数据更值得审视:今年 3 月的内部调查中,130 名研究人员的中位数受访者认为,在 AI 协助下自己的产出是没有 AI 时的 4 倍。这意味着 Claude 已经不再是 " 偶尔帮忙写段脚本 " 的外挂,而是在系统性重写工程师的工作流。

更关键的是,Claude 跨越了 " 写代码 " 的边界,进入了质量控制环节

过去一年,研究员纠正、打断、中途接管 Claude 任务的比率持续下降——哪怕是在最复杂、最开放的任务上。在最开放的任务难度档位上,Claude 的成功率在 2026 年 5 月达到 76%,6 个月已经暴涨 50 个百分点。

目前,所有提交到 Anthropic 代码库的改动,都会先经过 Claude 的自动审查,排查 bug 和安全漏洞。回溯分析显示,如果早些启用这套自动审查,大约三分之一导致 claude.ai 线上事故的 bug 本可在上线前被拦截

这件事的反转之处在于:写这些代码的人,已经是全球最懂 AI 系统的顶尖工程师;而现在,Claude 不仅在替他们写代码,还在替他们抓错误。

正如 Anthropic 在博客中所言:" 我们正在接近一个临界点,即模型编写的代码质量将与人类工程师相当,然后在某些领域超越他们。"

AI 研发链条里最基础、最耗时的一环,已经开始闭环。

真正变快的,是实验循环

如果说写代码还只是第一层变化,那么更深层的颠覆,是 Claude 开始极大地压缩实验循环。

AI 研究并不总是靠 " 灵光一现 "。真正吞噬时间的,是大量重复性工作:改一段代码,跑一次实验,观察结果,定位瓶颈,再改一轮。

Anthropic 每次发布新模型时,都会做一个固定测试:给 Claude 一段训练小型 AI 模型的代码,让它在保证正确性的前提下,尽可能优化运行速度。这本质上是对 AI 研究循环的微缩模拟。

2025 年 5 月,Claude Opus 4 做到了约 3 倍加速;到了 2026 年 4 月,Claude Mythos Preview 直接干到了约 52 倍加速。作为对照,熟练的人类研究员通常需要 4 到 8 小时才能达到约 4 倍。

不要误读这个 52 倍,它不代表真实模型训练成本下降了 52 倍,仅限于该特定测试。但它释放的信号极强:在目标明确、反馈清晰、可反复试错的研究环节,Claude 已经把时间压缩到了人类难以追上的数量级。

这也解释了 Anthropic 为何如此重视 RSI。博客中直指核心:" 递归自我改进不太可能以突然的‘顿悟’时刻发生 …… 相反,我们预计它是一个持续、渐进的过程,AI 逐渐接管更多研发任务。"

它不用每次都提出天才架构,只要能更快试错、更快排障、更快优化,研发飞轮就会被持续推高。

Anthropic 还给了一个工程现场的案例:一次常规升级导致数万训练任务崩溃,工程师仅给 Claude 一段文字描述和集群权限,Claude 便自主排查运行环境,揪出隐藏极深的调试标志并完成修复。

原本需人类两三天的工作,Claude 只用了两小时。

Claude 不只是更快地产出代码,而是在压缩 " 从问题出现到问题解决 " 的时间差。这才是前沿实验室真正关心的加速。

人类还在掌舵,但方向盘开始摇摆

Anthropic 在文章中反复强调,人类目前仍然有一个明显优势:研究品味(Research Taste)。也就是判断哪些问题值得做,哪些结果可信,哪条路线值得继续,哪条路线应该放弃。

这也是 AI 研发中最难被自动化的一环。写代码可以评测,跑实验可以看结果,优化速度可以计时。但 " 下一步该做什么 ",往往不是标准答案题。

不过,Anthropic 也已经开始测试 Claude 在这个环节上的能力。

他们选取了真实研究会话中人类研究员曾经走弯路的 129 个节点,把走弯路之前的上下文交给不同版本的 Claude,让模型判断下一步该怎么做。再由另一个能看到完整结局的 Claude 评估答案。

结果显示,2025 年 11 月的 Opus 4.5,有 51% 的概率给出比当时人类更好的下一步选择。到了 2026 年 4 月,Mythos Preview 的比例提升到 64%。

这个测试当然不能被夸大。样本本身就来自人类曾经做得不够好的节点,裁判也是模型,因此它不是严格意义上的人机公平竞赛。

但它也说明 Claude 涉及到的不只是执行层,而是开始靠近研究判断层。这也是人类角色正在变化的地方。

过去,研究员亲自写代码、跑实验、分析结果、决定下一步。现在,越来越多执行工作可以交给模型,人类更像是在提出问题、设定边界、验证结果。

这听起来像是解放,但也意味着另一种压力:当执行成本大幅下降,真正稀缺的就变成判断力本身。Anthropic 已经感受到了这种瓶颈。

Claude 能更快地产生代码,但代码审查会变成新瓶颈;Claude 能产出更多想法、工具和实验,但组织未必有足够能力消化它们。

瓶颈并不会消失,只会转移到下一个还没有被自动化的环节。这也是 AI 自我加速真正麻烦的地方。它不是把所有问题一次性解决,而是不断把压力推向人类仍然负责的那部分。

三种未来,核心问题只有一个

在这篇博客里,Anthropic 推演了三种未来。但与其说是三种科幻剧本,不如说是三个不同程度的加速场景。

第一种,能力曲线开始变平。

也许现在看起来很陡的指数曲线,最后都会变成 S 曲线。也许 " 研究品味 " 无法靠规模化解决。也许真正的瓶颈不在模型,而在芯片、电力、数据中心和供应链。

如果这个场景发生,AI 研发不会进入完全自我加速,社会也会获得更多适应时间。

但 Anthropic 并不认为这意味着风险消失。它举了 Project Glasswing 的例子:Mythos Preview 在上线最初几周,就发现了全球关键系统中超过一万个高危和严重级软件漏洞。

需要说清楚的是,这些漏洞不是 AI 自我进化制造出来的,而是 AI 主动发现的。

这个例子想说明的是,即便模型能力停在今天,现有 AI 能力扩散出去,也已经足以让很多现实系统承压。网络安全的瓶颈可能不再是 " 找不到漏洞 ",而是 " 修不过来 "。

第二种,是 Anthropic 认为更可能的情况:AI 继续加速研发,但人类仍然掌舵。

在这个场景里,AI 大幅自动化研发流程,人类继续负责方向选择和最终判断。一个很小的团队,可以完成过去大组织才能承担的工作量。科学发现、药物研发、材料、能源,都可能因此被加速。

但同样的能力也会降低危险行动的门槛。更高效的代码生成、自动化实验和长时程 Agent,不只会服务于科研,也可能服务于网络攻击、监控系统和个性化操纵。

更现实的问题是,组织能否消化这种加速。Anthropic 已经看到,代码生成之后,审查成为瓶颈;想法生成之后,决策和筛选成为瓶颈。AI 把一段流程变快,下一段流程就会被暴露出来。

第三种,才是完整意义上的递归自我改进。

也就是 AI 开始设计、训练、迭代自己的继任者。到了这个阶段,AI 进步速度主要取决于算力供给,人类退到监督、验证和审核的位置。

Anthropic 在这里的表述非常谨慎。它没有声称这一定会发生,也没有声称已经发生。但它承认,如果这一幕真的出现,今天的直觉可能不再可靠。因为模型中的偏差、失准和对齐问题,可能会在一代代自我构建中叠加放大,变得越来越难理解。

所以,这三种未来真正共同指向的问题,不是 "AI 什么时候觉醒 ",而是人类还能不能在不断加速的研发链条中保持足够的理解、验证和干预能力。

听起来像治理,落地却是博弈

也正因为如此,Anthropic 才会在文章最后提出:世界应该拥有一种选项,在必要时放缓甚至暂停前沿 AI 开发。

但它并没有把问题说得很清楚。

Anthropic 很清楚,如果只有谨慎的实验室放慢脚步,结果可能只是把领先位置让给更不谨慎的玩家。所以真正有效的暂停,必须是多个国家、多个前沿实验室,在相同条件下共同参与,并且能够相互验证。

这也是为什么,这套主张一出来,就很容易引发反感。

因为它听起来不像一句简单的安全呼吁,更像是一套现实的竞赛规则:要停可以,但必须大家一起停;要减速可以,但必须能确认别人也没有偷偷加速。

这里面当然有合理性。前沿 AI 不是某家公司自己关门就能解决的问题。只要技术竞赛存在,单方面 " 做好人 " 就很可能变成单方面退出牌桌。但这也正是大众不信任的来源。

当一家跑在最前面的公司开始讨论 " 暂停 ",普通人很难不追问一句:这是在为安全负责,还是在为未来的规则制定抢位置?

更何况,Anthropic 不是唯一一个在这个时间点发声的前沿公司。

就在本周,OpenAI 也发布了关于前沿 AI 民主治理的蓝图,他们同样提到,当前系统中已经能看到 RSI 的早期迹象,也就是 AI 研发本身正在被 AI 加速;这种能力可能加剧开发者和国家之间的竞争压力,并带来现有机构难以应对的治理挑战。

Anthropic 和 OpenAI 的表述不完全相同,落点也不同。一个强调多方可验证的减速机制,一个强调民主治理和国家级安全机构。但共同点很明显:它们都在把 RSI 从一个技术问题,推成一个治理问题。

而治理议题一旦成立,竞争的就不只是模型能力,还有规则制定权。

谁来定义什么是危险能力,谁来设计评估标准,谁来触发暂停机制,谁来验证其他玩家是否违规,谁就会在下一阶段的 AI 竞赛中拥有更大的话语权。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论