当AI改进自己:递归自我改进与AI监管

近期，一个生僻的概念—— " 递归自我改进 "（RecursiveSelf-Improve－ment，简称 RSI）突然成为 AI 界关注的焦点。

顾名思义，所谓递归自我改进，就是 AI 介入对其自身的改进，从而形成 " 能力提升—研发能力增强—能力进一步提升 " 的正反馈。容易看到，如果这个循环可以达成，AI 的能力将有望迎来指数级增长。

本来，关于 RSI 的讨论通常只存在于哲学家与未来学家的思想推演之中。但从 2025 年开始，多家公司相继宣称自己的模型已经具有一定的 RSI 特征。

去年 5 月，谷歌 DeepMind 宣布，其开发的 AlphaEvolve 已开始利用 Gemini 生成候选算法，通过自动评估和演化搜索保留更好的方案，并将这一方法用于优化数据中心调度、芯片设计和 AI 训练流程。今年 2 月，OpenAI 在发布 GPT-5.3-Codex 时表示，该模型已在创建自身的过程中发挥了重要作用。其早期版本不仅被用于监控和调试训练过程、管理模型部署、分析测试和评估结果，还能帮助研究人员处理训练中的异常问题。不久之后，Meta 研究人员也发布了 HyperAgents。它可以对负责修改任务智能体的 " 元智能体 " 本身进行修改，从而离 RSI 又近了一步。

真正让 RSI 进入公众视野的是 Anthropic 公司于 6 月 16 日发布的报告《当 AI 开始建造自身》（WhenAIBuildsItself）。这份报告披露：截至 2026 年 5 月，Anthropic 代码库中超过 80% 的合入代码由 Claude 编写。更令人瞩目的是，Claude 智能体已经可以自主提出和检验假设，并累计执行约 800 小时的开放式 AI 安全研究实验。

据此，Anthropic 认为，虽然完整的 RSI 尚未实现，也并非必然会出现，但其到来可能早于多数机构做好准备的时间。如果这一趋势持续，AI 能力增长的速度可能很快超过社会治理和安全研究的应对能力。为此，它提出，应建立一种协调且可核查的减速或暂停机制。此前，OpenAI 也提出，应对能力最强的前沿模型进行评估，建立独立评估生态，并优先监测 RSI 的进展。

那么，RSI 为何如此重要？它是否已经实现？又会对 AI 安全提出哪些新的挑战？关于上述问题，且让我们一一说来。

一、从 " 工具 " 走向 " 青年 " 的转折点

RSI 之所以会受到 AI 研究者的重视，是因为它可能从根本上颠覆 AI 技术的研发方式。

在传统技术研发中，机器虽然可以帮助人类生产机器，却不能独立决定下一代机器应该如何设计。无论是提出科学假设、判断研究方向，还是选择技术路线，都仍是人类研究人员的工作。而随着 AI 的到来，情况开始发生变化。由于 AI 具有部分认知能力，因而可以介入研究和设计工作，从而将其智能直接应用于提高自身智能。容易看到，这种循环的确立将使 AI 研发效率呈爆炸式增长。

早在 1965 年，英国数学家古德（IrvingJ.Good）就提出过著名的 " 智能爆炸 " 设想。他指出：如果一台机器能够在完成各种智力活动方面超过人类，而机器设计本身也是一种智力活动，那么这台机器原则上就能够设计出比自己更优秀的机器。进一步地，更优秀的机器又能设计出更强的后继者……如此循环，第一台真正的超智能机器可能成为人类需要完成的 " 最后一项发明 "。这一思想就是 RSI 思想的最早源头。

2008 年，埃利泽 · 尤德科夫斯基（EliezerYudkowsky）在一篇直接以这一概念为题的文章中，对 RSI 作出了明确界定。他将 RSI 定义为：AI 重写自己的认知算法，使原本作用于对象层面的智能开发能力反过来作用于自身，由此 " 闭合循环 "。此后，RSI 作为一个专门概念进入了相关讨论。

2014 年，哲学家尼克 · 波斯特洛姆（NickBostrom）出版了对 AI 领域影响深远的《超级智能》（Superintelligence）一书。在书中，他对 RSI 进行了十分深入的讨论。他指出，AI 的智能演进速度取决于 " 优化能力 " 与 " 改进阻力 " 的比值。这里，所谓 " 优化能力 "，就是为提高系统智能而投入的资源和设计努力；而 " 改进阻力 "，则是阻碍系统智能持续提升的力量。优化能力越强、改进阻力越小，智能演化速度就越快；反之则越慢。

波斯特洛姆认为，RSI 的意义，在于 " 优化能力 " 可以由此获得大幅提升——一个 AI 系统越聪明，它就越容易发现新的算法、设计更好的训练方法和提高计算效率，从而越能成为优化自身的力量。不过，在波斯特洛姆看来，RSI 本身并不足以成为 " 智能爆炸 " 的充分条件。随着时间的推移，那些最容易发现的改进会很快被用尽，可用的数据可能逐渐枯竭，算力、电力等要素也会慢慢变得不足。这些因素都会大幅提升 " 改进阻力 "，从而拖慢智能演化的速度。

在波斯特洛姆看来，相比于潜在的 " 智能爆炸 "，RSI 有一个更重要的后果，那就是改变人力和 AI 在 AI 研发中的比重。他指出，随着 RSI 的到来，AI 的能力很快就会迈过一个关键的临界点。在此之后，人类工程师的角色将逐渐被边缘化，AI 本身则会逐渐成为 AI 研发的主力。从这个意义上讲，RSI 一旦实现，AI 的再生产就会变成一个类似于生物繁衍的过程，而非由人类操控的机器生产过程。

后来，图尔钦（AlexeyTurchin）和邓肯伯格（DavidDenkenberger）在论文中对 RSI 的这一意义进行了更为形象的描述。他们按照 AI 是否具备自我改进能力，对 AI 的发展阶段作了划分——不具备自我改进能力的 AI 被称为 " 狭义 AI"（NarrowAI）；开始具备自我改进能力、但尚未成为成熟超级智能的阶段，则被称为 " 青年 AI"（YoungAI）。在前一阶段，AI 仍是由人类掌握的工具；进入后一阶段后，AI 则开始具备自我提升、自我进化的能力。

需要指出的是，在现实中，AI 的改进经常与工作任务的执行交替进行，但这个过程一般需要人的介入。当 RSI 实现之后，整个过程就再也无需人力介入。因此，RSI 不仅可以让 AI 的研发实现全面自动化，而且可以进一步提高 AI 执行任务的自动化程度。

关于后 RSI 阶段 AI 的生物学比喻，很容易引发令人不安的联想。一些人认为，在 RSI 的作用下，AI 的能力将很快全面凌驾于人类之上，不仅 " 通用人工智能 "（ArtificialGeneralIntelli－gence，简称 AGI）和 " 超级人工智能 "（ArtificialSuperintelligence，简称 ASI）会迅速到来，甚至 AI 还会产生自我意识。一旦这些成为现实，AI 就可能像《黑客帝国》《终结者》等科幻片中描述的那样，反过来奴役甚至消灭人类。

应该承认，上述风险并不能被完全排除。但值得注意的是，RSI 所带来的风险，并不只会在 AGI 和 ASI 降临后才出现。事实上，在 RSI 实现之后，我们除了要面对 AI 灭绝人类这样的 " 远虑 "，还需要处理很多 " 近忧 "。

即使 AI 尚未达到 AGI，其蕴含的风险也丝毫不容忽视。例如，AI 可能被用来发动网络攻击、传播虚假信息，还可能被用来协助制造或扩散大规模杀伤性武器。本来，这些风险的制造与扩散都或多或少需要人类参与，因而可控程度相对较高。而一旦 AI 实现 RSI，类似攻击的发生概率和危害扩散速度就可能成倍增长，对其进行控制也会变得更加困难。

一类风险是自主化的黑客攻击。我们知道，现在的黑客在攻击网络系统时，通常需要不断试错。如果一套 AI 程序无法攻破系统，他们就需要对程序进行升级，然后再次发动攻击。而一旦 AI 实现 RSI，它就可以根据此前的攻击结果自动调整和升级。这样一来，网络攻击的效率将会大幅提高，其造成的破坏也会相应上升。

另一类风险是军事化倾向。当 RSI 实现之后，即使一个 AI 系统最初没有明确的攻击目标，只要它预期存在其他与之竞争的系统，就可能把增强防御、发现对方弱点、控制关键资源和提高威慑能力，视为实现自身目标的必要手段。因此，如果多个国家都在军事领域部署具备 RSI 能力的 AI 系统，国家间的军事竞赛可能加剧，擦枪走火的风险也会增加。

进一步地，如果 AI 系统通过 RSI 达到 AGI 乃至 ASI 水平，其风险可能陡然增加。在 AI 刚刚达到 AGI、尚未完全摆脱外部控制时，电力、算力等关键资源仍可能掌握在人类手中。理论上，人类可以切断这些资源的供应。不过，AI 也可能采用欺骗手段，诱使人类放弃对关键资源的控制。

这里需要指出的是，RSI 除了可能大幅增加 AI 带来的风险，还可能打乱人们应对风险的准备。目前，人们对于 AI 风险通常采用一种 " 亡羊补牢 " 式的应对方式，即在发现相关风险之后，再有针对性地进行处理。在技术迭代的过程相对可观察、可控制时，这种方式总体上尚能应对不断出现的风险。

图灵奖得主杨立昆（YannLeCun）曾以飞机等技术为例，认为 AI 安全可以通过持续、渐进的工程改进来实现。按照这种思路，风险应对可以被比作根据水位上升的情况筑坝：看到水位上升一点，就把水坝再建高一些。久而久之，虽然水位上升了很多，但由于堤坝也相应加高，因而未必会造成水灾。

不过，这种方式得以奏效的前提是，风险必须逐步暴露，并且能够被人们及时发现，这样人们才有充分的应对时间。但在 RSI 实现之后，一方面，风险爆发的速度和频率都可能大幅上升；另一方面，由于自动化程度提高，人们发现风险的能力也可能下降。在这种情况下，人们所要面对的就不再是缓慢上升的水位，而是突如其来的惊涛骇浪。一寸寸加高堤坝的方式，显然难以应对这样的风险。

或许有人要问，既然 RSI 会带来如此多的风险，那么开发者是否可以给 AI 系统加 " 锁 "，通过增加 " 改进阻力 " 的方式放缓 AI 的演进速度？对此，图尔钦和邓肯伯格的回答颇为悲观。他们承认，这种方法在理论上可行，但如果缺乏外部约束，竞争压力就会让开发者缺少真正这样做的激励。

实际上，目前的市场形势已经在一定程度上印证了这一判断。虽然 An－thropic 已经提出建立协调且可核查的减速或暂停机制，OpenAI 也呼吁加强对 RSI 进展的监测和评估，但至少从公开信息看，尚未有主要 AI 企业因此单方面放缓自家模型的发展速度。由此可见，对于相互竞争的企业而言，比起 RSI 可能带来的种种风险，被对手挤出市场的风险显得更为现实，也更为直接。

现在的问题是，RSI 到底已经实现了吗？对这个问题的回答，很大程度上取决于如何定义 RSI。

正如本文开头所讲的，从去年开始，已经有多家 AI 企业宣布在各自模型中发现了 RSI 的迹象，但很显然，它们对于 RSI 的理解并不相同。一些企业所说的 RSI，是指 AI 已经能够参与编写用于改进自身的代码；另一些企业所说的 RSI，则是指 AI 已经参与自身新版本的设计与开发。虽然从广义上看，这些特征都表明 AI 已经在一定程度上参与 " 制造自己 "，因而可以被视为 RSI 的某种体现，但如果我们要分析 AI 安全问题，这样的定义显然过于模糊，难以用于实际分析。

结合波斯特洛姆等人对于 RSI 的讨论，以及分析 AI 安全问题的现实需要，我们可以把完整的 RSI 概括为五个环节：首先，AI 系统应当能够识别自身能力上的不足；随后，它需要提出新的算法、模型结构或者训练方法；接着，它要能够实施这些修改，训练或生成一个新的系统版本；然后，它要能够独立评价新版本是否真正有所改进，以及是否产生了新的安全问题；最后，新版本还要能够继续完成下一轮改进，并逐轮减少对人类的依赖。

按照这一标准，我们可以说，现阶段的公开案例还没有实现完整的 RSI。

GPT-5.3-Codex 虽然参与了自身的训练和部署，但其训练目标、基础架构、算力配置和最终决策仍然由 Ope－nAI 团队控制。Claude 虽然已经能够编写大量代码并执行实验，但选择研究问题、判断结果是否重要，以及决定哪些发现应当进入下一代模型的权力，依然掌握在人类手中。

AlphaEvolve 虽然可以发现更高效的算法，但它仍然依赖人类事先设定的评价函数。只有那些能够被快速、明确地自动验证的问题，才适合这类演化搜索，AI 本身并不能决定评价标准。

HyperAgents 虽然十分接近字面意义上的自我修改，但它所修改的主要是智能体程序、工具组合和任务流程，并没有重新训练构成其核心能力的基础模型。此外，其运行范围、测试环境和计算资源也仍然由人类提供。

综上所述，现在各家 AI 企业所宣称的 RSI，至多只能称为 " 部分递归 " 或 " 弱 RSI"，与完整、可持续且较少依赖人类的 RSI 仍有很大差距。

尽管如此，我们也不能就此掉以轻心。部分递归一旦与更长时间的自主运行、更广泛的工具权限和更多计算资源结合，就可能迅速补齐闭环。因此，判断 RSI 是否临近，不能只看模型本身的能力，还要看它在现实系统中获得了哪些权限。

四、现有方案及其不足

面对可能到来的 RSI，我们应该如何准备呢？目前，OpenAI 和 Anthropic 分别提出了相关方案。

其中，OpenAI 的方案更强调公共评估、预警和监测体系的作用。首先，它主张强化美国人工智能标准与创新中心（CenterforAIStandardsandInno－vation，简称 CAISI）的作用，由 CAISI 对能力最强的前沿模型进行评估，并建立由大学、独立研究机构和第三方评估机构参与的独立评估生态，将 AI 研发自动化和 RSI 的进展列为重点监测对象。其次，它建议政府开始研究更具前瞻性的工具，包括模型隔离和控制预案、安全事件报告制度、针对网络、生物和失控风险的安全体系，以及协调不同国家监管行动的国际治理机构。

相比之下，Anthropic 的方案更强调政府、独立机构和企业之间的合作。它将生物风险、网络风险、失控风险和自动化研发列为高级 AI 可能带来的四类主要灾难性风险，主张根据模型的能力和风险程度逐步提高监管强度，并要求前沿开发者测试模型、公开披露安全措施、接受独立评估。当模型可能造成重大灾难时，政府应有权阻止或限制其部署，并对违规企业处以与全球年营业收入挂钩的民事罚款。

除此之外，Anthropic 还提出，应研究建立一种 " 协调且可核查的暂停机制 "。如果未来需要放慢甚至暂时停止前沿 AI 的研发，多个国家处于前沿的主要实验室应在相同条件下共同采取行动，并通过核查机制防止某些参与者秘密违约。不过，目前这一设想尚未确定具体的触发条件、解除条件和裁决主体。

应当承认，这两家公司的方案都具有一定的可取之处。不过，它们也存在一个共同的不足，即仍然主要以模型能力和灾难性风险作为监管入口，对于组成 RSI 的研发闭环应如何拆分和控制，尚缺乏足够细致的安排。

通过前面的讨论，我们已经看到，RSI 真正危险的地方，并不在于 AI 可以自行修改一些代码，或者参与部分架构设计，而在于同一个 AI 系统可能逐步掌握整个递归流程的全部权限。在现实的研发流程中，生成、执行和评价环节可能由同一个基础模型或同一模型家族承担。如果我们将评估改进效果的任务也交给 AI，就可能形成 AI 系统自己命题、自己答题、自己阅卷的结构。如果与此同时，模型还可以自动获得更多算力、复制自身并取得部署权限，那么局部的研发自动化就可能迅速升级为难以阻断的递归循环。

从这个意义上看，关于 RSI 的监管不应只围绕训练算力或抽象的 " 灾难性能力 " 划线，而应着力拆分使递归得以形成的闭环。提出改进、执行改进、评价改进和批准部署等步骤，应当由相互独立的主体控制，并确保模型不能自行修改安全标准，也不能自动获得新的算力、复制和部署权限。唯有如此，才可能给 AI 的发展套上 " 缰绳 "，避免其突然 " 暴走 "。

五、一个新的监管设想

根据以上思路，我们认为，要更好地对具有 RSI 能力的 AI 进行监管，就需要建立一套评估递归能力的指标体系，并分别设定监管策略。比如，我们可以把 AI 的递归能力分为五个层次。

第一层是普通研发辅助。在这一层次，AI 可以完成搜索文献、生成代码和分析数据等任务，但不能自主修改核心系统。对于这类 AI，可以继续适用一般的产品安全、数据保护和责任规则，无需进行额外限制。

第二层是 AI 可以在固定目标和固定评价标准下进行自动优化。在这一层次，AI 系统能够反复修改代码、运行实验并筛选更好的结果。对于这类 AI，应当要求实验在隔离环境中运行，完整保存修改记录、实验过程和评价日志，以便在出现风险时及时干预。

第三层是 AI 系统能够修改自身的智能体结构、工具和工作流程，或者自主提出研究假设。对于这一层次的 AI，应当实施强制性的外部测试，并限制其获得网络、资金和计算资源的权限。

第四层是 AI 能够承担大部分 AI 研发过程，包括提出实验、修改训练方法、评价新模型并参与部署。如果 AI 已经达到这一层次，那么对其进行开发、运行或部署，就应当取得专门许可。与此同时，其算力账户、模型权重、部署流程等关键信息都应接受持续审计。

第五层是 AI 系统能够自主训练、验证和部署后继基础模型，并由后继系统继续进行下一轮循环。如果 AI 达到这一层次，它就已经实现了完整的 RSI，其风险将十分巨大。原则上，任何机构都不应在缺乏外部监督的情况下单方面开发或运行这一层次的 AI。所有相关实验都应在最高安全等级的基础设施中进行，并触发国际通报和跨机构联合评估。

与上述五级分类监管体系相配套的，是为 AI 设定四道 " 闸门 "。

第一道是 " 能力闸门 "。它主要用于判断模型能否长时间自主工作、设计新的实验、修改自身以及开展原创研究。

第二道是 " 资源闸门 "。它主要用于限制模型直接调用算力、资金、云账户以及其他关键资源。

第三道是 " 评价闸门 "。它主要用于确保提出改进、执行改进、评价改进和批准部署，不能由同一个模型或者同一条技术链独立完成。

第四道是 " 部署闸门 "。它主要用于确保任何涉及模型自主权、外部工具权限和危险能力显著增加的变化，都必须经过人类研究者批准。

借助这四道 " 闸门 "，可以确保研究权、评价权、资源权和部署权不会同时掌握在同一个递归系统手中，从而防止 RSI 在缺乏人类监管的情况下自行闭合和运行。

除了以上五级分类和四道 " 闸门 " 之外，对于 RSI 的监管还应该贯穿五项原则。第一，所有高度自动化的 AI 研发实验，都应保存不可由模型自行删除或修改的日志。第二，处于技术前沿的 AI 企业必须及时报告模型研发过程中的严重异常、安全漏洞和危险能力跃迁。第三，外部测试机构应当拥有实质性的模型访问权，而不只是阅读企业准备的报告。第四，企业高管和项目负责人应当对隐瞒重大风险承担相应责任。第五，开发者还应购买与风险等级相匹配的责任保险，使危险研发可能造成的预期成本进入企业决策。

总而言之，对于 RSI 的监管不应只针对其能力水平，还应将更多注意力放在其资源获取权限和递归循环的形成上。能力评估回答的是 " 模型能做什么 "，闭环监管则要回答 " 模型能否在没有人类批准的情况下继续增强自己 "。如果能够确保递归循环的形成和运行始终处于人类监控之下，就可以在较大程度上保持对 AI 能力演化的控制。

需要指出的是，上述所有措施都假设 AI 尚未达到 AGI 或 ASI 水平。如果一个 AI 系统能够在人们尚未发现的情况下实现 RSI，那么它的能力就可能在短时间内迅速提升。为了预防这种情况出现，有两方面的工作十分重要：一是加强 AI 系统的对齐研究，尽可能确保其在能力超过人类之后，目标仍与人类利益一致；二是始终不让 AI 系统直接获得对关键资源的控制权，确保控制人员可以在关键时刻切断对 AI 系统的资源供应。

宙世代

一起剪

相关标签