四位AI科学家谈:AI学会自进化后,我们该如何应对?

作者 | 山竹

出品 | 锌产业

大概是在一周前，正在筹备上市的 Anthropic 在官方博客更新了一篇文章，文章标题是《When AI build itself》。

这篇文章发布当天，关于 AI 安全问题再次被拉回到舆论漩涡中心。

Anthropic 在这篇文章中讨论的是一个名为 "AI 自进化 " 的问题，并指出，"AI 已经能够参与到为自己构建更强大的模型的工作中，这远比我们预想的要更快。"

说起来，AI 自进化并不是什么新鲜的技术，甚至可以说，自从 AI 技术出现的第一天，人们就已经在思考，如何让 AI 参与到自我进化的过程中。

就像具身智能领域大家现在在畅想的，用人形机器人造人形机器人那样。

实际上，AI 科学家们一边在恐惧 AI 拥有了自进化能力，一边也在研究、乃至利用这样的自进化能力。

曾在 Meta 裁员风波中受到广泛关注的田渊栋（原 Meta FAIR 团队研究总监），就在今年年初官宣创业，创业公司名字正是 Recursive Superintelligence（RSI），目标直指 AI 自进化。

也正是这样一家公司，刚在前不久完成了 6.5 亿美元融资，估值达到 46.5 亿美元（约 315 亿元），成为又一家被一众巨头追捧的硅谷 AI 明星团队。

那么，究竟什么是 AI 自进化？自进化会不会导致 AI 失控？人类又该如何与 AI 共生？

就现在正在发生的 AI 自进化，也是今年智源大会的一个主要议题，我们在今年智源大会上，看到了四位年轻的 AI 科学家关于这一议题的思考和预言。

或许，从他们的视角，能够让我们窥见 AI 自进化的未来走向，也能让我们在 AI 焦虑之中，寻得一些应对的灵感。

这次被智源大会邀请来讨论这一问题的几位 AI 科学家是：

西湖大学工学院人工智能系特聘研究员林涛；

NeoCognition 联合创始人谷雨；

前腾讯混元 Frontier 专家研究员王琰；

伦敦大学学院博士、布里斯托大学助理教授杨梦月。

以下为四位嘉宾对话内容，我们进行了不改变原因的总结和梳理：

什么是 AI 自进化？

问：现在很多 AI 系统都会反思，也会改 Prompt，听起来都有一些自我改进的味道，如果要更严格地定义，什么是 AI 的自进化？

林涛：我觉得自进化应该是一个多层级的进化，它可以是外脑的进化，也可以是内脑的进化。

最重要的是，AI 要能自己认识到自己的局限，并且同时去进化自己的外脑与内脑，或者在进化外脑的时候，把更多外部能力内化，进一步实现内脑的进化。

谷雨：我觉得 RSI（recursive self improvement，递归自我进化）最重要的是两个维度，一个是 Proactiveness，一个是 Learning。

Learning 是如何让 AI 拥有可靠的持续学习和在线学习算法，另外一个问题是自进化，Agent 要知道自己需要朝什么地方进化。

所以自进化要分别解决两个问题：

一个是 what 层面的 Metacognition（元认知），你要知道自己缺什么、需要什么、应该怎么选；

另一个是 how 层面，也就是学习算法具体如何实现。

王琰：至少在今天这个时间点来看，和传统的 SFT、RL 相比，如果系统可以更少地依赖人类，它其实就已经实现自进化了。

杨梦月：现在说的 RSI 其实是 self improvement 再往前进一步，它不只是能力得到了强化，还要看 " 进化能力 " 本身是不是也能变得更强。

一个重要问题是，Recursive 公司（Recursive Superintelligence）联创团队 Jeff Clune、Tim Rocktaschel 两位成员的研究方向是 Open-endedness。

那么，什么是 Open-endedness？

在一个开放世界里，是否有一个 Agent 拥有自我提问能力，它是否能发现自己的知识边界、系统边界、记忆边界在哪里，它要突破自己的边界做提问。

要摆脱人类进行自我进化，包括达到进化能力的进化，它的提问能力很重要。

问：在今天这个时间节点，AI 最有价值、最可能先成熟的自进化部分是什么？

王琰：不知道大家有没有感觉到，2025 年 1 月之后模型的迭代加速了。

其实就是因为基模领域这些最熟悉 AI 能力上限的人，已经不写代码了，这已经是发生在基模训练中的事实。

而且能够明显感觉到，基模迭代速度在加快，包括 Claude、GPT，以及国内这些基模的迭代速度都在加快，你不能说这完全是自进化，但确实已经有 AI 在迭代 AI 了。

至于哪个领域最先成熟，我感触最深的就是基模训练领域，虽然旁边有人给它指定方向，但其实基模本质已经在自进化。

问：如果不改变模型参数，只去进化一些其他的组成部分，基模是否可以实现足够强的能力跃迁？

王琰：肯定可以。

其实改一改 Prompt，就能实现更好的效果。

例如有时候我在想，我交给实习生的工作为什么他们做不到，我要来他们的 prompt 看后发现，是他们的 Prompt 写的不好。

我只要重新写一个效果更好的 Prompt，把规则写得清楚一些就能实现更好的效果。

既然我能做到这件事，比我更高维度的硅基生物也能做得更好，即使不改变模型参数。

问：林老师怎么看？

林涛：这应该是一个迭代过程，我们要有更好的 harness（驾驭工程），也就是外脑，发挥出当前模型的上限；

随着越来越多人有自己的 harness，这些程序又可能被用来训练出更强的基模；

在更强基模的基础上，我们会发展出更强的 harness、更好的外脑，这也是一个迭代的过程。

问：那你认为现在综合资源做哪一块是最先成熟的？

林涛：我觉得做 harness 是最容易的。

谷雨：我更倾向于用统一视角看待 harness、skill。

从统一视角来看，它们都是长期记忆，只是角度不同。

例如 harness 是一种 Meta-level（元认知）的长期记忆，skill 更多是一种 workflow 或过程知识的长期记忆，模型参数更多可能是 intuition（直觉）的长期记忆。

如果让我说要优先做哪一个，从学术研究角度很难说，它们都很重要，它们是相辅相成、互相促进的。

从公司角度来说，存在很多现实因素，更容易起步的是 harness，有了 harness 你可以有你的产品，有了产品你可以获得用户，有了用户你就会有数据、形成闭环，这是一个非技术角度的看法。

杨梦月：我自己更关注记忆（memory）层面的进化，因为我的研究方向是如何理解规则和因果。

现在大家会感觉到，模型能力越来越强，有一点在覆盖 harness 的能力，慢慢吞噬 harness、达到上限。

所以未来的发展很难说，可能基模越来越强，harness 方向的提升可能会微乎其微。

AI 先在哪个环节自进化？

问：AI 自进化发生在什么时候最恰当？

谷雨：关于 harness 我先补充一句，harness 可能被模型进步所蚕食，但还是得看在什么方面，我认为有一些模块还是必须要有。

例如保证模型安全性和可验证性的模块，这是概率模型永远不能取代的部分。

关于自进化发生的时机，我觉得可以理解为 Learning+Long-Term Memory（LTM，长期记忆）。

对人来说，每一次推理、每一次解决问题都是学习机会，人并不是搜集了一堆问题后，再基于这些问题进行静态学习。

如果相信人的学习是一种高效方式，我觉得智能体也一样。

你会希望 Agent 不浪费每一次推理机会，因为每一次推理都有机会得到 learning signal，这和强化学习的宏观哲学是一致的，但现在主流深度学习还处在模型参数更新阶段，很难做到 online learning 的 setting。

所以要真正实现这件事，需要一些新的学习算法，例如基于非参数的更新。

问：这里是不是会有系统 1 和系统 2 的区别？

谷雨：确实。

例如如果将非参数的东西视为系统 2，因为它更显式、更慢，但它也保留了转化到系统 1 中的可能性，包括基于学到的非参数规则产生更多数据，就像林老师说的外脑到内脑的转化。

王琰：我也做过很多 TTT，也就是 Test-Time Training（测试时训练）的工作，也很关心 TTT 这一系列工作。

我认为，模型在预测下一个 token 的时候，重要的是学到每一个 token 的更新梯度。

未来我们一定能找到一种训练算法，让训练算法本身能够让模型学会每个 token 的梯度如何更新，这才是真正端到端的思想。

林涛：从模型训练角度来看，它可以先从 harness 影响到后训练，通过后训练提升模型性能后得到更强模型，更强模型又可以反馈到前训练阶段，提升基模能力，从而形成闭环。

所以它时时刻刻都在进化，只是以不同尺度、不同方式在进化。

杨梦月：我也认为自进化是时时刻刻都在发生的，并且延伸到所有环节中。

例如如何产生一个 trajectory（轨迹）。

如果让 GPT 为某个问题生成答案，它其实是在推理，推理过程是创造和组合的过程，而创造和组合的过程就是在向环境、人类进行提问，所以前向设计本身就有机制设计的进化。

此外，当我得到一个 reward（奖励），例如人类给模型的反馈，得到反馈后如何更新轨迹，这也会让整个流程逐步提升。

问：设计自己的 Benchmark 是否也是 AI 自进化的一个标志？

杨梦月：我们现在是否可以有一个增长式的 Benchmark，甚至是一个增长式、自我进化式的世界模型？

现在很多 Benchmark 都是固定的，给一个固定数据库进行测试，这样无论如何都可以找到一个模型，在固定数据库基础上做很好的训练。

要通往 AGI，我们确实需要动态评测，去适应它当前的能力，对它做逐步增长式的评测。

王琰：我们以前刚做生成的时候是没有 Benchmark 的，那时候就是由人来评测。

我不确定的是，这个事情是否能用 Benchmark 来评测，因为肯定没有办法用静态 Benchmark 来评测。

动态 Benchmark 到底能不能评测也不确定，因为两个都是自进化的 Agent，是否最后又会回到人来评测这条老路上来，我不确定。

但顺着这个观点看，有可能它根本不能用 Benchmark 来评测。

问：自动化评测方法会很难设计？

王琰：对。

现在就有很多榜上的模型训练得很好，但是一上线，在 Agent workflow 里就会出现卡死等问题，必须用线上的数据飞轮再训一下才能好。

所以 AI 自进化后再如何评测，无法确定。

现在静态 Benchmark 已经有很大局限性了，开始自进化后，还能不能评测都是个问题。

谷雨：我很同意王老师的观点。

当一个系统足够复杂之后，很难用简单指标量化，对人来说也一样，你很难用一个简单指标评价一个人是好人还是坏人，一旦一个东西能够被简单指标量化，就很容易被 hack。

但另一方面，我觉得当前 AI 还没有复杂到这种程度，Benchmark 还是能够领导我们前进的。

这里涉及两个问题：

第一，AI 是否应该自己不断发现新的 Benchmark，还是由人来设计。

我认为还是需要由人来设计，因为 Benchmark 代表了一种目标，这个目标还是要由人来提供的。

第二，人提供 Benchmark 之后，如何做评测。

这对自进化来说和过去很不同，之前的 Benchmark 有静态训练集和测试集，看的是最终准确率，但对于自进化的 AI 而言，更重要的是趋势。

这又回到我刚才说的，大模型的学习 = 推理 + 长程记忆。

大模型每次做推理都是一个学习机会，所以如果做一个 Benchmark，应该有一个二维曲线，横轴是它做了多少任务，纵轴是性能表现，理想状态下应该不断向上提升。

自进化评测背后更大的哲学是：智能是什么？

我很喜欢一位 AI 研究员说过的一句话——智能并不在于你会做多少事，而在于你是怎么会做这些事的。

之前的评测主要看大模型最终掌握了什么技能，自进化研究的是大模型如何掌握这些技能，看的是学习过程。

如何学习，才是自进化最核心的部分。

林涛：关于智能，我之前也被一个说法触动到：

真正的智能，应该是我们在意的那些能力单位时间的增长速度。

这也在一定程度上反映了智能到底是什么。

在这个基础上，我会觉得模型和 Benchmark 应该协同进化。

目前还是由人来定义 Benchmark 是否已经到瓶颈，是否应该设计更新、更强的 Benchmark，并基于新的 Benchmark 找到当前模型漏洞，进而推动模型训练。

未来一个重要点是，可以用一些半自动化方式实现更有意义的 Benchmark 发现，并且至少先把后训练环节跑通，让半自动化发现的 Benchmark 来提升模型初步能力。

AI 会不会失控？

问：在 AI 自进化过程中，如何判断 AI 是否学偏，甚至进化到无法控制的地步？

王琰：来一个悲观点的观点，几年之后，人类可能只能在没有网络的地方生存。

现在 AI 的进化速度太恐怖了，AI 失控不是一个很遥远的事情，安全不在于技术，而在于人性能否克制住。

林涛：这也是为什么我刚说需要一个半自动化的 Benchmark 的原因，以及一定需要在有人参与的半自动化的 benchmark 下实现 AI 自进化。

至少在一定程度上可以给它一些约束，使得它不会突破我们人类想定义的一些标准。

杨梦月：我们说的 AI 可信度、安全性、可解释性，本质上是需要其内部是可见的。

例如大模型做一个决策，它到底为什么要做这个决策，大模型做一个预测，它到底为什么要做这个预测。

所以我们现在在做的一件事是，希望所有大模型组件之间能够有一套规则，这套规则要直接显示在人类面前，来告诉你它为什么要做这个决策。

白盒这件事以后会很重要，包括刚说的 AI 到底能不能控制这个问题，首先需要知道它里面是如何做决策的，才能去控制它。

问：如果要实现在 RSI 中对于安全的控制，在因果的角度还有哪些东西需要做？

杨梦月：传统的因果论是在概率统计学上进行的，它本身形成的因果发现、因果推断就不适用于大模型时代。

所以现在我们是又返璞归真了，回到因果本身定义上去。

例如三层因果结构阶梯，到底这些基本概念在 RSI 系统、基模或 harness 中，它到底应该变成一个怎样的形式，我们应该用怎样的约束条件去学到它，这是我们现在正在努力的目标，但这件事并不简单。

为什么现在大家说世界模型、物理理解很难做，因为此前的物理信息机器学习、因果机器学习这些方法天然不适用于现在大模型的 Scale Up（纵向扩展）方案。

所以我们需要回到这些方法定义上，看有哪些工具可以解决这些问题。

谷雨：首先是 AI 可控性、AI 是否可以受人控制，这个我没什么想法。

马云也说过，对于他控制不了的事情，他不愿多想。

如果这个事情真的来了，我是没有办法改变这一点的。

所以我更多想要讨论一下在短期内，更具体的 AI 如何变得更可控。

我觉得除了刚才杨老师说的可解释性、因果关系的发掘以外，还有两个维度：可靠性（reliability）、可验证性（verifiability）。

可靠性就是，模型或智能体在做一件事时，这次做对了，下次还得做对，不能是随机的；

可验证性是，模型或智能体做错一件事时，它得知道自己做错了，而不能是它自己交付的任务都不知道做得是对还是错。

我觉得这是短期内对于智能体落地而言，很现实的两个指标。

问：在自进化过程中，AI 的进化和人的进化如何协同？

林涛：就我个人而言，我已经把大部分工作流用 AI 替代了，并且随着 AI 越来越强，我也会用 AI 来替代我更多的原始工作流。

这确实提升了我的效率，也有时间用 AI 帮我思考更多东西，这在一定程度上是我基于 AI 的某种进化。

因为我是训模型的，在基模训练过程中，一定程度上提升了 AI 的进化，但我觉得不是特别多，未来可以进一步探索人如何更高效的进化，让 AI 进化得更好。

杨梦月：作为教职人员，我在带学生的过程中明显感觉到了，学生用 AI 工具用得越来越多了，但是现在一个很重要的问题是，你究竟能否驾驭这些 AI 工具。

因为 AI 可以进行非常大量的内容输出，有的时候你太相信它，可能本身的信念、对科研的感知会被绕到一个很奇怪的层面。

基础打得很扎实的学生，利用这些 AI 工具可以很快出一些高质量工作；

基础打得没那么扎实的学生，无法驾驭这些 AI 工具，反而会被误导。

我们和 DeepMind 一些研究员有过交流，他们内部鼓励用 AI 工具做事，但他们现在会说谁能把这些 AI 工具用好，很取决于人对于这些工具的了解程度到底有多少。

现在很重要的是，大家在面对能力越来越强的 AI 工具，还是不要放弃基本观念、基础知识的学习，也要知道一些事情在哲学层面是如何推导过来的，这才能在 AI 给你提供错误信息的时候，你能辨识出来，这很重要。

问：AI 会倒逼人进化吗？

杨梦月：这是肯定的。

我明显能够感受到，AI 正在使人形成一种分流，越是基础打的扎实的人，通过 AI 越能达到一个顶部的状态。

如果你只是通过 AI 工具帮助你完成任务，它最后出来的东西可能成了外部镀了一层金、本质上不太行的状态，但很多人还没意识到这件事。

王琰：未来有杨老师说的这种意识的人，会为自己的孩子创造一个无 AI 的环境，在这个环境中让孩子成长。

没有这种意识的人，很可能完成作业就是他们的目标，最快的方法就是用 AI。

我有这个意识是，我渐渐发现我的实习生在做事的时候，初期他们很快完成了这件事，但后面有很多问题他们发现不了，等我发现这些问题问他们的时候，他们会说，王老师你等十分钟我告诉你为什么（继续找 AI 给答案）。

实际上，他们根本不知道整个项目在做的是什么，没有全局思维，跟不上我的节奏。

如果没有 AI，他们必须要从零开始学习这个知识，例如我们是基于 deepseek 进行研究的，他们首先要将 deepseek 的论文看完，现在他们会和 Claude 说：

你将论文看完，并在 LighteningIndex（轻量级索引）上实现一个 MemoryIndex（内存索引）。

既然他们是这样完成工作的，就导致，我原来因为体力因素无法完成的工作，现在可以直接通过这种方式来完成，不再需要这些实习生。

本质原因，一是他们认知提升速度变慢了，二是这样的 AI 助手对于我这样的管理者反而效率更高。

谷雨：我和王老师很有共鸣，最近我们公司内部很喜欢段永平老师的一句话，慢就是快。

你用 vibe coding，你冲的很快，冲完之后你的理解没跟上，可能导致你的软件越来越失控，反而需要花更多时间来整理它。

对于这个问题，我觉得可以有两个视角：

第一，如果我们把 AI 当作工具来看，人和工具向来都是共同演进的关系，因为工具决定了人掌握什么样的能力。

可能几千年前人需要的能力，现在来看都不重要了，现代人会的能力都是由当前这些工具决定的。

从工具角度来看，AI 与人一定是共生的关系，共同演进。

第二，如果 AI 不是一个工具，而是像人一样平等的物种，甚至会凌驾于人之上，那未来就不是共同进步的关系了。

可能未来人只要躺平就好了，悲观点的话，可能人要给 AI 打工。

RSI 是新范式吗？

问：AI 自进化是现有技术路径的延续，还是新的技术范式？

林涛：目前来看，AI 很自然地走到了 AI 自进化，只是说现在 Agent 的成熟让这件事变得更简单，但这不代表其中存在核心差异。

王琰：我觉得它就是下一阶段。

我们现在每个人用的模型都是共享的参数，最终每个人一定会有一块独有的参数区，现在这件事不难做，只是 infra 不支持，而且太耗成本，但最终这不会成为太大的障碍。

未来可能每个人会有个 LoRA，如何加载自己的 LoRA，未来就会有新的付费模式，多付点钱你加载的 LoRA 就会大一些，免费用户只能用基模。

如果这样的 infra 成立，每个人自己的 LoRA 会执行个人的任务，只需要将前向推理的 Delta 规则做好，其实就是一个很好的自进化学习范式了。

这就相当于基模已经建好，RL 是传统学习和监督学习的一个中间阶段，我们只需要给它任务、奖励和环境。

这其中，任务其实就已经是奖励机制，例如模型执行任务出结果后，我说 " 干得好 " 或 " 干得太蠢了 "，这自然就成了奖励机制。

我觉得这是不远的将来会发生的变化。

谷雨：关于这个问题，我觉得是量变引起质变，它可能既是现有技术范式的延续，又是新的机会。

现在的一个共识是，具体量变的维度是 AI 所做任务的长程程度，随着 AI 做的任务越来越长程，它就越来越接近一种新的范式。

例如，最开始 AI 只能做单轮次的对话，后来发展到多轮、长文推理、Deep Research，最终可能会出现 lifelong level。

届时天然就需要你在做这类任务时，AI 需要不断发现自己的不足、不断地提升自己，自然就成了 RSI 或 self improving。

杨梦月：其实 self improving 并不是一个很新的概念，包括几年前 LLM 刚出来的时候，我们已经在做一些类似的工作，现在也被归类到了 self improving 的范畴。

我也同意现在是量变引起质变的时刻，但是我的评价标准不是长程任务，因为我觉得长程任务更多是 planning 层面的东西，另外还需要一些精致的操作。

Agent 是一个很宽泛的概念，例如现在具身的 Agent，它除了长程任务规划，还需要完成每一个动作的能力。

它是一个综合的东西，是否能适应新系统，是否每个精致的操作都可以顺利完成，其实每个过程都可以通过 self improving 来完成。

其实 self improving 只是一种技术手段，大家最终的目的都是想通往 AGI。

问：未来 5-10 年，RSI 技术成熟、AI 自进化可控可部署，它最先改变的会是什么？

林涛：我觉得会改变一切。

包括你可能一出生就会有一个随身 AI 设备，帮你一起理解这个世界，并且慢慢地构建出属于你的数字人，参与到你生活的各个方面。

这基本是 5 年内可以畅想的事实。

谷雨：我也同意改变是方方面面的，不会是具体某一个场景。

我希望看到的改变是，未来 5-10 年，如果 Agent 能取代我就挺好的，因为创业挺累的、有点像躺平了。

王琰：更有可能发生的是资本家用 AI 取代了更多人。

我感觉这是一个自然而然会发生的事，现在没有被取代，是因为人类的工资还没有 token 贵，但我希望看到这一切不要发生。

我希望 AI 可以让我们从一周五天工作制变成三天工作制，一天工作八小时变成一天工作四小时，生产出的更多物品变得更便宜。

杨梦月：从一个哲学视角来看，人类存活在这个世界上需要有价值。

我每天醒来刷小红书或推特看到又出现一个新东西，发现我现在做的东西又要被 AI 取代，我其实会担心 AI 这样的取代，我做的研究有什么意义？

所以我觉得 AI 还需要给人留一定思考空间，让人类思考本身对于世界的价值究竟是什么，我希望它进步得慢一点。

宙世代

一起剪

相关标签