即将IPO的大模型巨头，劝你暂停AI研究

智东西

编译 | 陈佳

编辑 | 漠影

智东西 6 月 5 日消息，今日，美国 AI 大模型公司 Anthropic 旗下研究机构 The Anthropic Institute 发布报告《当 AI 开始构建自身》，结合公开基准测试与此前从未对外披露的内部数据，论证 AI 已经在加速自身的研发。

Anthropic 判断，能够完全自主设计并训练下一代模型的 AI" 递归自我优化 " 或将早于多数机构的预判到来。

报告披露，截至 2026 年 5 月，并入 Anthropic 代码库的代码中已有超过 80% 由 Claude 编写，而在 2025 年 2 月 Claude Code 开启内测之前，这一比例还停留在个位数。

Anthropic 官宣《When AI builds itself》研究报告发布（图源：X）

这种变化同样体现在人均产出上。据 Anthropic 披露，2026 年二季度 Anthropic 工程师日均交付到生产环境的代码量已达到 2024 年的 8 倍。

在衡量模型独立完成任务能力的外部测评中，AI 可稳定独立处理的任务时长，也从此前每 7 个月翻倍提速到约每 4 个月翻倍。在一项固定的代码提速基准测试中，Claude 的表现在一年内从约 3 倍跳到约 52 倍。

Claude 已经能自己设计实验：在一项 AI 安全课题上，由它驱动的智能体自主提出假设、设计并跑完全部实验，补上了 97% 的性能缺口，而两名人类研究员忙活一周只补上 23%。在真实科研记录中，Anthropic 模型对 " 下一步该怎么走 " 的预判胜过人类判断的比例，升至 64%。

这些数字串起来，指向一个趋势：人在研发每一环能插手的地方都在收窄。Anthropic 坦言，一旦 AI 生成的代码质量追平人工，人类的工作便会收缩至代码审核环节；而当人工审核赶不上 Claude 出代码的速度，人本身就成了新技术瓶颈。

它借爱迪生 "1% 灵感加 99% 汗水 " 的说法点明，真正推动前沿技术的大多是那 "99% 的汗水 " ——扩容、试错、修复、再跑。而如今这 "99% 的汗水 " 恰恰是 AI 最擅长的，且正被 AI 快速自动化。

人类暂时守得住的，只剩选题、判断结果可信度、以及在死胡同前及时收手的研究品味。

Anthropic 推演了三种情景。其一是现有 AI 能力全面普及，增长趋势触顶放缓，靠堆算力和数据换不来顶尖研究者的判断力，技术突破或被卡在芯片、电网这类供给侧上。

其二是效率持续复利、但人类仍握着选题权，百人公司能干出十万人的活、知识工作被改写，但同一套能力也可能被用于全民监控和精准舆论操纵。

其三是最极端的全面递归自我优化，AI 自己造下一代，研发快慢只由算力决定，人退到监督核验的位置。这一情景下 AI 价值观与人类深度对齐问题能否解决，是最大变数。

也正因第三种情景风险最高，Anthropic 罕见地把这篇报告落在了一个政策诉求上：支持全球拥有 " 可核验地减速或暂停 " 前沿研发的选项。

它坦言，单方面踩刹车只会让最不谨慎的玩家追上来、反而更危险，人们真正需要的是一套能让各家彼此确认 " 对方真的停了 " 的核验机制。

但难点恰恰在此，一次模型训练远比一座导弹发射井容易隐藏，抢先突破者能独吞领先优势，偷偷违约的诱惑极大。

Anthropic 拿耗时多年才建成的《中导条约》作比，直言 AI 留给世界的窗口远没这么长，并称未来几个月会把政策制定者、研究人员、同行公司等各方请到一起讨论，再公开结果。

报告原文：

https://www.anthropic.com/institute/recursive-self-improvement

一、Anthropic 划出 AI 自主研发五阶段，下一代 Claude 或由 Claude 自己打造

Anthropic 在文中用一条时间线，复盘了 AI 在其研发流程里一步步从工具走向主力的过程。

AI 自主研发演进五阶段

最早的 2021 到 2023 年，也就是初代 Claude 的研发期，Anthropic 和任何一家普通科技公司没什么两样：人坐在笔记本电脑前，自己手敲代码、自己写文档。

随后的 2023 到 2025 年进入对话机器人阶段，工程师开始借早期聊天机器人打打下手，让它生成一小段代码，再手动复制粘贴回编辑器，AI 还只是流程里的一个帮手。

到了 2025 至 2026 年的代码智能体阶段，情况变了，智能体已经能自己动手写、自己改代码，有时甚至能独立完成整个文件。

而当下所处的，是自主智能体阶段：智能体不光能自己跑代码，还能把需要几个小时的活儿拆出来、分派给别的智能体去干，人更多扮演调度与验收的角色

Anthropic 把最后一个尚未到来的阶段标成 "20XX？"，并称之为研发闭环阶段。未来的智能体或许强到能自己搭建、训练模型，到时下一代 Claude 将由 Claude 自己持续迭代。

这条线演进路线的终点，正对应着 Anthropic 反复提到的 " 递归自我优化 "。

二、AI 独立完成任务时间快速拉长，多项核心测试逼近满分

先看外部公开数据，Anthropic 模型能稳定独立完成的任务时长正快速拉长。这个时长此前大约每 7 个月翻一倍，如今提速到约每 4 个月翻一倍。

具体而言，2024 年 3 月的 Claude Opus 3 只能搞定人类约 4 分钟的软件任务，一年后的 Claude Sonnet 3.7 能处理约一个半小时的工作，再过一年的 Claude Opus 4.6 已能扛起 12 小时的项目。照这个节奏，今年 AI 有望胜任熟练工程师要花好几天的任务，到 2027 年则可能处理人类需要耗费数周的工作。

此外，负责长周期任务测评的 METR 平台数据显示，针对长周期任务完成能力，Claude Mythos Preview 可持续不间断运算至少 16 小时，性能触及 METR 现有测试题库的测评上限。基准测试用于量化模型在特定领域的能力表现，当模型得分逼近满分时即判定为测试饱和。

代码与科研类基准测试同样印证该增长规律。考察真实软件工程能力的 SWE-bench，会给模型一个真实开源代码库和一份漏洞报告，要它写出既能修好问题、又能通过项目原生测试的补丁。短短两年，Anthropic 各大模型的得分就从个位数一路刷到接近满分的饱和线。

三、代码产出曲线两度抬升，工程师日均合并量达 2024 年的 8 倍

Anthropic 把前沿模型研发拆成工程和科研两块：工程落地环节包含代码编写、算力基建部署与模型训练管控；科研环节则负责敲定实验方向、解析实验数据、筛选后续研发思路。

工程这一端，人类只需给出目标、不必再交代具体怎么做，Claude 就能在需求并不明确的情况下自己找出解法。

科研端，面对细则完备的既定实验，Claude 落地执行能力已经持平甚至优于资深研发人员。

研发人均产出数据同样印证这一变化：2021 至 2024 四年间，工程师日均入库代码行数长期保持平稳。

工程师单季度代码产出倍数变化

2025 年 Claude 从仅生成代码片段升级至可自主运行代码，无需人类复制粘贴，人均产出开始上涨。

2026 年模型实现长周期自主运算后，产出增速再度大幅抬升。

2026 年二季度，工程师日均合并代码量达到 2024 年同期的 8 倍，核心原因是代码主体由 Claude 编写，人类仅负责需求统筹与内容审核，不再手动敲码。

Anthropic 也给这个数字泼了冷水，代码行数侧重量化产出体量，无法衡量代码质量。Anthropic 内部绩效核算不以代码行数为考核标准，研发产出提升纯粹源于员工依托 AI 批量生成代码。

四、积压任务开始被清空，AI 正在释放研发产能

代码产出量的暴增与员工体感层面的效率提升对得上。

2026 年 3 月，Anthropic 面向 130 名研究人员做过一次内部调研：在那些原本就要落地的项目上，受访者借助内部模型 Mythos Preview 后，自评产出的中位数达到没有任何 AI 时的 4 倍。Anthropic 坦言实际增幅大概略低于这个自评值，但方向上可信。

Anthropic 称，有数据证明，研发人员借助 Claude 落地了大量原本搁置的工作，包含探索性工具开发、积压已久的代码整改。

2026 年 4 月，Claude 一口气提交了 800 多个补丁，把某一类 API 报错压到原来的千分之一。负责这个项目的工程师估算，同样的工作量交给人，大概要干四年。因为排查他人留下的遗留漏洞本就费时费力，人也很难一次记住那么多陌生的代码上下文。

甚至有 Anthropic 员工说，自己已经快五个月没亲手写过一行代码了。

五、开放式任务成功率半年冲到 76%，自动审查能拦下三分之一历史线上事故

Anthropic 用两条标准衡量 Claude 代码的好坏：一是功能可用，即能跑通；二是代码可读性与可迭代性，即别的工程师看得懂、接得上。

Claude Code 四类任务落地成功率走势

先看能不能跑通。Anthropic 说，过去一年，哪怕是没有标准答案、工程师自己也说不清结果该长什么样的开放式难题，中途被人工修正、推翻或接手的比例也一直在降。

到 2026 年 5 月，Claude 在最高难度的开放式任务上成功率达到 76%，半年里涨了 50 个百分点。

一个典型案例是：某次例行升级让数万个训练任务集体崩溃，工程师只丢给 Claude 一段故障描述和集群访问权限，模型挨个排查在跑的任务、逐项测试环境参数，最后揪出一个冷僻的调试开关才是元凶，完成复现并确认了修复方案，把通常要两三天的活压进了大约两小时。

在代码可读性与可迭代性方面，该维度 AI 与人工仍存差距，但差距快速收窄。Anthropic 内部看法不完全一致，多数人认为 Claude 的代码在 2025 年底还不如人写的，如今大致打平，并预计年内会反超。

基于这个变化，Anthropic 改了自己的代码审查流程：所有待合并的改动，先过一道 Claude 自动审查，专挑漏洞和安全缺陷。

一次回溯分析显示，如果过去每一处改动都先经这道审查，claude.ai 历史线上事故背后的漏洞里，约有三分之一本能在上线前被挡下——而写出这些代码的，正是全球最擅长搭建这类系统的一批工程师。

六、训练代码提速 52 倍，Claude 开始自己设计实验、自己判断方向

每出一款新模型，Anthropic 都会跑同一道题：给 Claude 一段训练小模型的代码，要求在通过同样正确性校验的前提下尽量让它跑得更快。目标和验收标准都提前锁定，Claude 要做的就是反复改写、运行、计时、再改，本质上是一个微缩版的实验闭环。

2025 年 5 月，Claude Opus 4 平均能把代码提速约 3 倍；到 2026 年 4 月，Mythos Preview 做到了约 52 倍——作为参照，一名熟练研究员花 4 到 8 小时通常也就提速 4 倍。

Anthropic 提醒，这个倍数很大程度取决于初始代码有多少优化空间，不能当成真实训练场景的提速，真正有意义的是在同一道题上进行人机对比以及新旧模型之间的横向对比。

更进一步，Claude 开始能自己设计实验了。

2026 年 4 月，Anthropic 公布了首个由 Claude 驱动的智能体端到端独立完成的开放式课题：让一个偏弱的模型可靠地监督更强的模型。

两名人类研究员耗时约一周，补上了约 23% 的性能缺口。AI 智能体则在累计 800 小时、约 18000 美元（约合人民币 12.2 万元）算力开销下补上了 97% 的性能缺口。

Anthropic 还翻出 2026 年 1 到 3 月的真实协作记录，专挑出 129 个人类当时走了弯路的节点，只把跑偏前的信息喂给模型、让它预测下一步该怎么走，再请另一个能看到最终结果的 Claude 来评谁的选择更好。

结果是，2025 年 11 月的主力模型 Opus 4.5 有 51% 的判断优于人类，2026 年 4 月的 Mythos Preview 升到 64%。Anthropic 强调，这些都是刻意挑出的高难节点，算不上人机判断力的对等较量，但足以用作纵向观察 AI 研判能力长进的标尺。

七、99% 的汗水正被 AI 自动化，选题判断成了人类的护城河

把这些证据串起来，Anthropic 的判断是：在研发的每一环，人能插手的地方都在收窄。一旦 AI 代码质量追平人工，人类就会彻底退出写码、只剩审核；可万一审核速度赶不上 Claude 生成代码的速度，人工审核本身就成了新的瓶颈。

实验这边也一样，等 Claude 能独立跑实验，人要回答的问题就只剩 " 这些实验里哪个值得跑 "。简言之：编码、实验落地、数据产出等执行环节几乎不再消耗人力，仅产生算力开销。

针对 " 人类的选题判断才是核心、缺了它 Claude 只是个高级助手 " 这一常见质疑，Anthropic 的回应是：AI 的进步很少靠灵光一现。

科研决策对比：Claude 方案优于人类的样本占比变化

Transformer、混合专家模型这类范式级突破隔好些年才出一个，中间的绝大多数技术进步来自迭代试错：扩容落地、排查故障、修复优化、反复测试，而这套流程恰恰是 Claude 的强项。

爱迪生说天才是 1% 的灵感加 99% 的汗水，如今这 99% 的汗水正越来越多地被自动化。

退一步说，就算 Claude 永远学不会顶尖的科研品味，保守研判现有数据，研发提速的复利效应依旧成立。人类仅耗费少量精力把控顶层选题，剩余全量落地工作交由 AI 承接，单个研究员可统筹的项目体量成倍扩张。

Anthropic 称，眼下人类的相对优势，是选题、判断哪些结果可信、以及在死胡同前及时收手的 " 研究品味 "。

八、Anthropic 给出三种未来情景，AI 递归自我优化内涵最大变数

顺着这条线，Anthropic 推演了三种走向。第一种是增长见顶：现有成熟 AI 技术在全行业大范围落地，算力与数据扩容带来的性能边际收益递减，增长逐步放缓直至停滞。

靠堆算力和数据换不来区分平庸与顶尖研究者的那种判断力，要破局就得有能取代 Transformer 的全新架构。技术瓶颈也可能不在模型，而在芯片产能、电网和带宽这些供给侧。

第二种是 AI 实验室的效率持续复利上涨，但人类依旧牢牢掌握选题和成果判断权。这种局面下，百人公司能干出过去一万甚至十万人的活，知识工作和政务服务被彻底改写；但同样的能力一旦被滥用，也能用于全民监控，或是规模远超任何人类团队的精准舆论操纵。

第三种最极端：AI 实现完整的递归自我优化，自己造自己的下一代。届时研发快慢只取决于算力和算法效率，人退到监督和核验的位置，守着一个越铺越大、由 AI 运行的虚拟实验室。

Anthropic 坦言，该场景下对齐问题能否妥善解决是最大变数。

一种可能是 AI 价值观与人类深度对齐，兼具科研决策能力，自主研发出人类尚未突破的对齐方案，在出现风险时主动暂停迭代。

另一种风险路径是现有偶发的对齐缺陷，随 AI 自主迭代持续累积、不断恶化，最终人类彻底失去管控，且我们来不及搭建核验工具，无法预判风险走向。

一旦 AI 能力全面超越人类并渗透全产业链，具备自主迭代能力的 AI 或将主导全球经济，人力失去市场竞争力后的经济格局无从预判。

但仅靠 AI 递归迭代，无法瞬间颠覆工业生产、社会组织与市场运行规则：AI 无法复刻药物数十年临床积累的真实副作用、无法突破法律章程提前组织选举、无法短期内促成深厚人际羁绊。

即便上游实验室依托算力飞速迭代，普通人感知的社会变革节奏仍受各类现实瓶颈约束。高速自我进化的 AI 与人类社会、人情、治理体系的碰撞走向，仍是无法预判的未知变量。

九、留给全球协调的窗口并不宽裕，Anthropic 主张建立可核验的暂停机制

那该怎么办？Anthropic 的态度是，如果能切实放慢这项技术、给治理和对齐研究多争取些时间，整体利于全球安全。但单方面踩刹车只会让最不谨慎的玩家追上来，反而让所有人更不安全。

在没有全球协调机制的当下，各国政府和企业只能在竞争与地缘压力下艰难权衡。为此，Anthropic 主张世界应当握有 " 可核验地减速或暂停 " 前沿研发的选项，并称 The Anthropic Institute 会联合各方搭建这样一套核验体系，让前沿玩家彼此能确认对方是真的停了或慢了，也防止有人借协调放缓之名暗中抢跑。

它表态，只要这套体系到位、且其他头部机构也以可核验的方式跟进，Anthropic 愿意一同减速或暂停。

难就难在核验本身。一次模型训练远比一座导弹发射井容易隐藏，用的算力和数据又都是通用的，而抢先突破者能独吞领先优势，偷偷违约的诱惑极大。一份站得住脚的暂停协议，还得说清楚什么情况触发、什么情况解除、由谁来裁决。

Anthropic 拿《中导条约》作比，指出这类国际核验机制不是没建成过，但基建加互信往往要磨上几十年，而 AI 留下的窗口远没这么长。

它称，未来几个月会把政策制定者、研究人员、民间机构和同行公司请到一起，专门讨论递归自我优化带来的治理难题并公开成果。这场磋商，AI 公司之外的各方也该有一席之地。

结语：当造车的人开始喊 " 该装刹车了 "

AI 造 AI 的故事讲到这里，值得玩味的，或许是一家正处在竞速最前沿的公司，主动掀开内部账本，承认自己造出的工具正在以超出预期的速度发展，然后转身呼吁全行业考虑 " 踩刹车 "。

当下的 AI 竞赛本就是一场谁也不敢先停的博弈，这是典型的囚徒困境，明知道一起慢下来对所有人都好，却没人敢赌别人也会慢。

来源：Anthropic

宙世代

一起剪

相关标签