雷锋网 昨天
Agent 真的能自我进化吗?我们造了一把它骗不过去的尺子
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

我们用 GDPevo,衡量出 AI 自进化的真实价值。

    作者丨 PrismShadow AI

    编辑丨岑峰

                                                                                                       

01

为什么 " 自进化 " 突然成了所有人都在抢的赛道?

想象一下,你有一个新入职的员工。他一开始什么都不会,需要你手把手教。但几周后,他开始自己总结经验、优化工作流程,甚至能独立应对从未见过的新问题。

如果把这个场景里的员工换成 AI,这就是眼下人工智能领域最前沿、也最令人兴奋的方向:自进化 Agent(Self-evolving Agent)。

先说一句这两年在 AI 圈被反复验证的 " 铁律 ":在 AI 时代,一件事一旦能被清晰地评估、又能被自动化地去做,那它离被做到极致就不远了。围棋是这样,写代码是这样,做数学题也是这样——只要有一把靠谱的尺子,模型就能顺着这把尺子一路爬到顶。自进化 Agent 做的,就是这样的事情。

那么下一个被这把尺子盯上的,是什么?

越来越多人把答案押在了自进化(Self-evolution)上。所谓自进化,说白了就是 Agent 能像人一样 " 越干越熟练 ":做完一批任务,它会自己总结经验、更新内部状态,下次遇到相似的活儿,干得更准、更快、更省。学术上和它沾亲带故的概念还有持续学习(Continual Learning)和递归自我改进(Recursive Self-Improvement,RSI)。

这件事为什么现在这么火?因为它戳中了当前 Agent 最别扭的一个点:今天的 Agent 大多是 " 一次性 " 的——这一单做得再漂亮,经验也带不到下一单去,每次都从零开始。而自进化想做的,是让 Agent 真正 " 长记性 "。资本已经先一步用脚投票了:围绕 AI 自进化的创业公司,比如 [ NeoCognition ] ( https://neocognition.io/ ) 、 [ Recursive ] ( https://www.recursive.com/ ) 等,在 2026 年募到了数十亿美元的资金。

但这里有个被很多人跳过的前提:想优化自进化,你得先能测量自进化。  回到开头那条铁律——如果连 " 这个 Agent 到底有没有进化、进化了多少 " 都说不清,那后面所有 " 更强的进化策略 " 都是空中楼阁。这正是我们想动手解决的地方。

02

痛点:真实的企业活儿,几乎没人能给 " 进化能力 " 打分

评估听起来简单,真到了企业场景就处处是坑。发票审核、展会事务、保险合规、信贷审批……这些 " 值钱的活儿 "(和 GDP 直接挂钩)有几个共同特点:规则又多又碎、藏在一堆上下文里、还经常需要把好几条规则揉在一起判断。偏偏就是这类任务,几乎没有专门的基准能评估 Agent 的自进化能力,更别提自动化地评估了。

更要命的是评估自进化时一个绕不开的陷阱:在测试集上训练。如果你拿去 " 喂经验 " 的训练样本和最后考核的测试样本长得太像,那 Agent 只要把答案背下来就能拿高分——这压根不是进化,是作弊。一把会被轻易糊弄的尺子,比没有尺子还危险。

于是我们做了  GDPevo。据我们所知,这是第一个在具有真实经济价值(GDP 相关)的任务上、专门评估 Agent 自进化能力的基准。

它有两个身份:既是一套自动化的基准构建流程,又是这套流程跑出来的产物——一份开箱即用的基准。目前它覆盖客户关系管理(CRM)、企业资源计划(ERP)和金融(Finance)三大场景,一共  120 个真实企业任务。每个任务都缠着好几条复杂规则,Agent 必须先从过往样本里 " 学到东西、改进自己 ",才有可能答得让人满意。

03

这套基准是怎么 " 自己长出来 " 的

构建一个企业级的自进化基准,我们主要跟两个硬骨头死磕。

难点一:让 AI 来造题,跑赢 " 数据泄露 "

第一个想法是——构建过程必须能端到端全自动。人只负责设计一遍流程,剩下没完没了地跑流程、出题、批改,全交给 AI(这套思路和 [ Loop Engineering ] ( https://addyosmani.com/blog/loop-engineering/ ) 是一脉相承的)。

这么做有两个实打实的好处。其一,能跑赢数据泄露:基准这东西最怕被模型 " 背 " 过去,但只要我们出新题的速度比模型记住泄露答案的速度快,基准就永远领先半步、永远有效。其二,可扩展(Scalable):基准的大小不再被人力卡脖子,它能自己往大里长。

  GDPevo 数据流水线:从种子场景 → 多 Agent 任务工厂 → 质量审核 → 发布

具体怎么跑(见上图):人设计流程,Agent 持续不断地执行。我们先从公开的真实业务基准里取种子场景—— [ GDPval ] ( https://arxiv.org/abs/2510.04374 ) 、 [ SOP-Bench ] ( https://arxiv.org/abs/2506.08119 ) 、 [ JobBench ] ( https://arxiv.org/abs/2605.26329 ) ,再批量生成候选任务组。每个任务组会搭一个共享环境,配  5 个训练样本 + 5 个测试样本,每个样本都自带一份基于规则的评分脚本。接着,一个专门的 Agent 来校准难度,确保 " 进化后 " 的表现明显高于 " 进化前 " ——把那些根本测不出进化能力的样本筛掉,让基准聚焦在真正需要跨任务自我进化的活儿上。

最后,6 个互相独立的 Reviewer Agent  端到端审计每一组数据,至少拿到  5 票通过才会被采用。这些 Reviewer 的存在就是为了防止造题的 Agent 偷懒——检查文件结构全不全、该藏的规则有没有真的埋进去。一路筛下来,最终  12 个任务组、120 个任务通过了考验,组成了今天的这套基准。

难点二:用 " 规则杂交 " 逼出真本事,而不是死记硬背

第二个硬骨头,就是前面提到的 " 在测试集上训练 " 陷阱。训练集和测试集得有关联,但又不能太像——理想状态是:Agent 能把训练集里的规则泛化到测试集,而不是把训练集下来。

我们的解法叫规则杂交,灵感来自遗传算法里的交叉进化。做法分两步:

第一步,把规则拆碎、藏进训练集。  我们先把复杂的业务逻辑拆成一条条 " 元规则 ",再分散藏到训练样本里。比如在 CRM 里,我们会埋下 " 赞助商身份的优先级 " 和 " 黑名单策略 ";在 ERP 里,则藏进 " 供应商风控规则 " 和对应的应对措施。关键在于——这些规则被打散到 5 个训练样本中,每个样本只露出一部分

第二步,把规则重新组合成测试题。  5 个测试样本被设计成这些规则的组合,比如让 " 优先级 " 和 " 黑名单 "同时触发。这样一来:没有自进化能力的 Agent,只能看到一地散落的碎规则、拼不出全貌;而真正会自进化的 Agent,能把这些碎片归纳成规律、再迁移到全新的任务上。一道题,就把 " 背答案 " 和 " 学规则 " 分得清清楚楚。

04

我们怎么给 Agent 打分

评估环节,我们守两条规矩:分数必须可复现成本和准确率,一样重要

规矩一:规则打分,不用 LLM-as-a-Judge

GDPevo 用的是确定性的规则打分器,而不是让一个大模型来当裁判(LLM-as-a-Judge)。每个分数都由多个具体的打分点(rubrics)拼成。这带来两个好处:第一,分数是可复现的——同一份答案跑十遍,得分都一样;第二,每一次失败都是可追溯的——你看到的不是一句含糊的 " 总体还行 ",而是清清楚楚地告诉你哪条规则没过、扣了几分。

这种可追溯性,直接把基准变成了一个  Agent 诊断工具。你可以反过来读 Agent 的操作记录,定位它到底栽在哪一步,再拿这些短板当作下一轮优化的靶子。

规矩二:成本和准确率,同等重要

一个好的自进化策略,不该只是 " 越来越准 ",还得 " 越来越省 " ——就像一个人活儿越干越熟,时间更短、效果更好。所以每次测试,我们都会同时记录总 Token 消耗任务准确率两笔账。详细的过程日志还能帮我们复盘 Agent 的行为、定位问题,反哺策略优化。

极高易用性:一句话就能跑评估,不用学任何框架

整个评估不依赖任何评估 SDK,是纯自然语言驱动的。你用 Claude Code 或 Codex 打开一个评估工作区(其实就是个装着 Markdown 指南和说明的文件夹),然后用自然语言描述一句 " 我要跑什么实验、想要什么样的图 ",整套评估流程就能自动跑完、直接吐出结果报告和图表——全程不用写一行适配代码,也不用啃任何框架文档。

05

结果:今天的 Agent,已经会 " 无师自通 " 了

我们在 12 个任务组、共 120 个任务上,测了三个不同的 Agent。每个任务跑 3 遍取平均,对比三种方案:

base(不进化):Agent 不碰训练集,直接上手做测试题。

fewshot(少样本进化,类似 SFT):Agent 先把训练集的题目和标准答案过一遍、归纳经验,再去做测试题。

reflect(反思进化,类似 RL):Agent 先不看答案、自己硬做训练题,然后被告知对错,借此反思总结出规则,再去做测试题。

三个 Agent 给出了高度一致的结论:自进化能把测试集准确率提升约 17 – 22%,而且其中两个 Agent(Claude Code 和 Codex)连  Token 消耗都更低了——又准又省,鱼和熊掌兼得。

几个亮眼的单点,拿 " 运营建模(operational financial modeling)" 这个场景举例:Codex 从  42.76% 飙到 92.47%,花的 token 还比基线少;Claude Code 的 fewshot 直接干到  100%(起点是 51.76%);Panofy 的 reflect 也冲到了  92.47%(起点 62.39%)。

三个 Agent 的整体表现(12 个任务组均值)大致如下:

说白了,这组数据传递了一个挺鼓舞人的信号:当前的 Agent 已经具备了一定的自进化能力——它们真的能从过往经验里学到东西,并把这份本事迁移到全新的任务上。这个发现,和已有的一些工作( [ 1 ] ( https://trinkle23897.github.io/learning-beyond-gradients/ ) 、 [ 2 ] ( https://www.recursive.com/articles/first-steps-toward-automated-ai-research ) )也是不谋而合的。

06

GDPevo 是一颗种子,不是一个结果

这个项目里完整的流程、产物和结果,全部对外开放。我们特别欢迎你带上自己的 Agent、或者自己的业务场景,来一起玩。

我们的目标从来不是再搞一个排行榜,而是给 " 自进化 Agent" 这件事添一把柴。我们真心希望,能借这个项目让 Agent 的自进化真正实现规模化,最终把人从重复劳动里解放出来。

GitHub 开源项目:https://github.com/Prism-Shadow/GDPevo

博客链接:https://prism-shadow.github.io/GDPevo/blog.html

雷峰网 ( 公众号:雷峰网 ) 正在策划自进化 Agent 相关主题的圆桌讨论。如果你对自进化 Agent 的技术实现或者安全把控等有一定心得且愿意分享,欢迎添加微信:MS_Yahei(备注:自进化 Agent)

上车,带你看遍全球 AI 顶会精华

可独家畅览:

专家演讲 PPT

大会报告全文

热门论文解读

学术新星访谈

扫描上方二维码

或点击「阅读原文」关注专区。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 人工智能 自动化 ai时代
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论