Agent 真的能自我进化吗？我们造了一把它骗不过去的尺子

我们用 GDPevo，衡量出 AI 自进化的真实价值。

作者丨 PrismShadow AI

编辑丨岑峰

为什么 " 自进化 " 突然成了所有人都在抢的赛道？

想象一下，你有一个新入职的员工。他一开始什么都不会，需要你手把手教。但几周后，他开始自己总结经验、优化工作流程，甚至能独立应对从未见过的新问题。

如果把这个场景里的员工换成 AI，这就是眼下人工智能领域最前沿、也最令人兴奋的方向：自进化 Agent（Self-evolving Agent）。

先说一句这两年在 AI 圈被反复验证的 " 铁律 "：在 AI 时代，一件事一旦能被清晰地评估、又能被自动化地去做，那它离被做到极致就不远了。围棋是这样，写代码是这样，做数学题也是这样——只要有一把靠谱的尺子，模型就能顺着这把尺子一路爬到顶。自进化 Agent 做的，就是这样的事情。

那么下一个被这把尺子盯上的，是什么？

越来越多人把答案押在了自进化（Self-evolution）上。所谓自进化，说白了就是 Agent 能像人一样 " 越干越熟练 "：做完一批任务，它会自己总结经验、更新内部状态，下次遇到相似的活儿，干得更准、更快、更省。学术上和它沾亲带故的概念还有持续学习（Continual Learning）和递归自我改进（Recursive Self-Improvement，RSI）。

这件事为什么现在这么火？因为它戳中了当前 Agent 最别扭的一个点：今天的 Agent 大多是 " 一次性 " 的——这一单做得再漂亮，经验也带不到下一单去，每次都从零开始。而自进化想做的，是让 Agent 真正 " 长记性 "。资本已经先一步用脚投票了：围绕 AI 自进化的创业公司，比如 [ NeoCognition ] ( https://neocognition.io/ ) 、 [ Recursive ] ( https://www.recursive.com/ ) 等，在 2026 年募到了数十亿美元的资金。

但这里有个被很多人跳过的前提：想优化自进化，你得先能测量自进化。 回到开头那条铁律——如果连 " 这个 Agent 到底有没有进化、进化了多少 " 都说不清，那后面所有 " 更强的进化策略 " 都是空中楼阁。这正是我们想动手解决的地方。

痛点：真实的企业活儿，几乎没人能给 " 进化能力 " 打分

评估听起来简单，真到了企业场景就处处是坑。发票审核、展会事务、保险合规、信贷审批……这些 " 值钱的活儿 "（和 GDP 直接挂钩）有几个共同特点：规则又多又碎、藏在一堆上下文里、还经常需要把好几条规则揉在一起判断。偏偏就是这类任务，几乎没有专门的基准能评估 Agent 的自进化能力，更别提自动化地评估了。

更要命的是评估自进化时一个绕不开的陷阱：在测试集上训练。如果你拿去 " 喂经验 " 的训练样本和最后考核的测试样本长得太像，那 Agent 只要把答案背下来就能拿高分——这压根不是进化，是作弊。一把会被轻易糊弄的尺子，比没有尺子还危险。

于是我们做了 GDPevo。据我们所知，这是第一个在具有真实经济价值（GDP 相关）的任务上、专门评估 Agent 自进化能力的基准。

它有两个身份：既是一套自动化的基准构建流程，又是这套流程跑出来的产物——一份开箱即用的基准。目前它覆盖客户关系管理（CRM）、企业资源计划（ERP）和金融（Finance）三大场景，一共 120 个真实企业任务。每个任务都缠着好几条复杂规则，Agent 必须先从过往样本里 " 学到东西、改进自己 "，才有可能答得让人满意。

这套基准是怎么 " 自己长出来 " 的

构建一个企业级的自进化基准，我们主要跟两个硬骨头死磕。

难点一：让 AI 来造题，跑赢 " 数据泄露 "

第一个想法是——构建过程必须能端到端全自动。人只负责设计一遍流程，剩下没完没了地跑流程、出题、批改，全交给 AI（这套思路和 [ Loop Engineering ] ( https://addyosmani.com/blog/loop-engineering/ ) 是一脉相承的）。

这么做有两个实打实的好处。其一，能跑赢数据泄露：基准这东西最怕被模型 " 背 " 过去，但只要我们出新题的速度比模型记住泄露答案的速度快，基准就永远领先半步、永远有效。其二，可扩展（Scalable）：基准的大小不再被人力卡脖子，它能自己往大里长。

GDPevo 数据流水线：从种子场景 → 多 Agent 任务工厂 → 质量审核 → 发布

具体怎么跑（见上图）：人设计流程，Agent 持续不断地执行。我们先从公开的真实业务基准里取种子场景—— [ GDPval ] ( https://arxiv.org/abs/2510.04374 ) 、 [ SOP-Bench ] ( https://arxiv.org/abs/2506.08119 ) 、 [ JobBench ] ( https://arxiv.org/abs/2605.26329 ) ，再批量生成候选任务组。每个任务组会搭一个共享环境，配 5 个训练样本 + 5 个测试样本，每个样本都自带一份基于规则的评分脚本。接着，一个专门的 Agent 来校准难度，确保 " 进化后 " 的表现明显高于 " 进化前 " ——把那些根本测不出进化能力的样本筛掉，让基准聚焦在真正需要跨任务自我进化的活儿上。

最后，6 个互相独立的 Reviewer Agent 端到端审计每一组数据，至少拿到 5 票通过才会被采用。这些 Reviewer 的存在就是为了防止造题的 Agent 偷懒——检查文件结构全不全、该藏的规则有没有真的埋进去。一路筛下来，最终 12 个任务组、120 个任务通过了考验，组成了今天的这套基准。

难点二：用 " 规则杂交 " 逼出真本事，而不是死记硬背

第二个硬骨头，就是前面提到的 " 在测试集上训练 " 陷阱。训练集和测试集得有关联，但又不能太像——理想状态是：Agent 能把训练集里的规则泛化到测试集，而不是把训练集背下来。

我们的解法叫规则杂交，灵感来自遗传算法里的交叉进化。做法分两步：

第一步，把规则拆碎、藏进训练集。 我们先把复杂的业务逻辑拆成一条条 " 元规则 "，再分散藏到训练样本里。比如在 CRM 里，我们会埋下 " 赞助商身份的优先级 " 和 " 黑名单策略 "；在 ERP 里，则藏进 " 供应商风控规则 " 和对应的应对措施。关键在于——这些规则被打散到 5 个训练样本中，每个样本只露出一部分。

第二步，把规则重新组合成测试题。 5 个测试样本被设计成这些规则的组合，比如让 " 优先级 " 和 " 黑名单 "同时触发。这样一来：没有自进化能力的 Agent，只能看到一地散落的碎规则、拼不出全貌；而真正会自进化的 Agent，能把这些碎片归纳成规律、再迁移到全新的任务上。一道题，就把 " 背答案 " 和 " 学规则 " 分得清清楚楚。

我们怎么给 Agent 打分

评估环节，我们守两条规矩：分数必须可复现；成本和准确率，一样重要。

规矩一：规则打分，不用 LLM-as-a-Judge

GDPevo 用的是确定性的规则打分器，而不是让一个大模型来当裁判（LLM-as-a-Judge）。每个分数都由多个具体的打分点（rubrics）拼成。这带来两个好处：第一，分数是可复现的——同一份答案跑十遍，得分都一样；第二，每一次失败都是可追溯的——你看到的不是一句含糊的 " 总体还行 "，而是清清楚楚地告诉你哪条规则没过、扣了几分。

这种可追溯性，直接把基准变成了一个 Agent 诊断工具。你可以反过来读 Agent 的操作记录，定位它到底栽在哪一步，再拿这些短板当作下一轮优化的靶子。

规矩二：成本和准确率，同等重要

一个好的自进化策略，不该只是 " 越来越准 "，还得 " 越来越省 " ——就像一个人活儿越干越熟，时间更短、效果更好。所以每次测试，我们都会同时记录总 Token 消耗和任务准确率两笔账。详细的过程日志还能帮我们复盘 Agent 的行为、定位问题，反哺策略优化。

极高易用性：一句话就能跑评估，不用学任何框架

整个评估不依赖任何评估 SDK，是纯自然语言驱动的。你用 Claude Code 或 Codex 打开一个评估工作区（其实就是个装着 Markdown 指南和说明的文件夹），然后用自然语言描述一句 " 我要跑什么实验、想要什么样的图 "，整套评估流程就能自动跑完、直接吐出结果报告和图表——全程不用写一行适配代码，也不用啃任何框架文档。

结果：今天的 Agent，已经会 " 无师自通 " 了

我们在 12 个任务组、共 120 个任务上，测了三个不同的 Agent。每个任务跑 3 遍取平均，对比三种方案：

base（不进化）：Agent 不碰训练集，直接上手做测试题。

fewshot（少样本进化，类似 SFT）：Agent 先把训练集的题目和标准答案过一遍、归纳经验，再去做测试题。

reflect（反思进化，类似 RL）：Agent 先不看答案、自己硬做训练题，然后被告知对错，借此反思总结出规则，再去做测试题。

三个 Agent 给出了高度一致的结论：自进化能把测试集准确率提升约 17 – 22%，而且其中两个 Agent（Claude Code 和 Codex）连 Token 消耗都更低了——又准又省，鱼和熊掌兼得。

几个亮眼的单点，拿 " 运营建模（operational financial modeling）" 这个场景举例：Codex 从 42.76% 飙到 92.47%，花的 token 还比基线少；Claude Code 的 fewshot 直接干到 100%（起点是 51.76%）；Panofy 的 reflect 也冲到了 92.47%（起点 62.39%）。

三个 Agent 的整体表现（12 个任务组均值）大致如下：

说白了，这组数据传递了一个挺鼓舞人的信号：当前的 Agent 已经具备了一定的自进化能力——它们真的能从过往经验里学到东西，并把这份本事迁移到全新的任务上。这个发现，和已有的一些工作（ [ 1 ] ( https://trinkle23897.github.io/learning-beyond-gradients/ ) 、 [ 2 ] ( https://www.recursive.com/articles/first-steps-toward-automated-ai-research ) ）也是不谋而合的。

GDPevo 是一颗种子，不是一个结果

这个项目里完整的流程、产物和结果，全部对外开放。我们特别欢迎你带上自己的 Agent、或者自己的业务场景，来一起玩。

我们的目标从来不是再搞一个排行榜，而是给 " 自进化 Agent" 这件事添一把柴。我们真心希望，能借这个项目让 Agent 的自进化真正实现规模化，最终把人从重复劳动里解放出来。

GitHub 开源项目：https://github.com/Prism-Shadow/GDPevo

博客链接：https://prism-shadow.github.io/GDPevo/blog.html

雷峰网 ( 公众号：雷峰网 ) 正在策划自进化 Agent 相关主题的圆桌讨论。如果你对自进化 Agent 的技术实现或者安全把控等有一定心得且愿意分享，欢迎添加微信：MS_Yahei（备注：自进化 Agent）

上车，带你看遍全球 AI 顶会精华

可独家畅览：

专家演讲 PPT

大会报告全文

热门论文解读

学术新星访谈

扫描上方二维码

或点击「阅读原文」关注专区。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

宙世代

一起剪

相关标签