量子位 5小时前
Skills刚火,就有零Skill的Agent来了…
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Skills 刚爆火,又有新的 Agent 范式来搅局了……

根本不用 Skills,也不需要上 GitHub 翻项目、找工具。直接把需求丢给 Agent,它能一边干活,一边给自己造装备。

是的,完全不需要人类伺候,也不用给 AI 师傅递板手、搬梯子。

工作中遇到啥需要用的装备,Agent 能自己直接「进化」出来。

以 Gemini 3 Pro 为后端,在地狱级评测 HLE(Humanity ’ s Last Exam)上一骑绝尘,仅次于 GPT5.2-Pro 智能体。

在几个高难评测集里,比官方未披露方法的含工具使用的结果,高了将近20 分

甚至还是One take,一口气跑出来的。

这是刚刚新发的一篇论文。

会自己造工具的 Agent

发现这篇论文,还是因为前几天刷到了个 demo。

第一眼看上去,只是个很普通的交互场景:用户有个任务需求,丢给了 Agent 一串 Prompt。

找找 2023 届毕业生中,哪些州的 ACT 考试参与率达到或超过 50%,且平均综合分数在 20 分及以上。并给出这些州中,各州学生达到科学基准的比例。

然后 Agent 开始做分析、规划任务,挑选可能会用到的工具。

目前为止,一切都还很正常。

但说实话,感觉这个 demo 选的任务不是很好,太开放,不像是现有工具能一次解决的,估计得迭代对话不少次。

嚯!果然出问题了,工具不够用,干不下去。

诶,等一下……

它怎么开始自己造工具了??用错了还能修复?

有点过于魔幻了啊。感觉就像动物园里,前一秒还躺着剥香蕉的猩猩,转头一看,一个跟头翻起来,开始钻木取火了。

我赶紧把论文翻出来,从头到尾扒了一遍,

不看没事,这一看,扒出来一堆更让人细思极恐的细节。

这家伙,居然靠这种方式,在只有一次答题机会的 5 个评测集中,造了 128 个工具!!

是的,白手起家,从 0 开始,一个一个捏到了 128。

简直是天崩开局。

更惨的是,研究人员还一上来就把它扔进了地狱级的 Benchmark — HLE(Humanity ’ s Last Exam)上,和基于 GPT、Claude、Gemini 的这些 Agent 怪物同台竞争。

不过,意料之外的事情发生了。

遇到「打」不过的题目,这家伙居然会自己造武器

一路边打怪,边合成装备。

等把 HLE 两千多道题刷完,它已经悄悄攒了 97 把大宝剑。

这还没完,它又背着这九十多把大剑,前往了更多样的 Benchmark 试炼场——DeepSearchQA、FinSearch Comp、XBench

还是故技重施,继续造工具,继续打怪升级。

一直刷到将近 4000 道题时,它突然停了,不造装备了。

趋势上也有迹可循,下面这条曲线,前期增速很快,后面明显开始出现边际效应递减。

最终,工具数量稳定收敛在 128 个。

像是知道这些已经够用了一样。

按特定顺序的工具数量随处理的 query 数统计图

这点非常关键。说明前面的工具不是乱造的,而是真的具备可复用性

所以在积累到 128 个工具时,Agent 才会突然发现:旧工具已经可以覆盖绝大多数新任务,没必要继续扩张。

再看这张图更直观——两种策略下的 Agent 性能统计对比,ZS 代表从零工具起手,WS 代表前面说的按数据集顺序的知识迁移策略。

在 WS 策略下可以明显看到:旧工具越多,新工具越少。甚至在最后两个 XBench 阶段直接归零。

下面这张图更有意思,这是这个 Agent 最爱用的 50 个工具。

排名第一的是「网页搜索」,断崖式第一。

后面跟着的也都很眼熟:内容获取、计算器、文件下载、学术论文搜索、PDF 处理……

简直和人类的工作习惯一模一样啊,都是些通用的基础工具。而且复用率非常高,马太效应极其明显。

这么看来,它可能真不是为了造工具而造工具,而是真的像人一样,在工作过程中沉淀出了一套方法论,并且能在不同任务之间迁移。

实验结果也印证了这一点。

这只会自己造工具的 Agent,在刚刚说的那五项 Benchmark 上,几乎全部一骑绝尘。

全方位碾压基于 Gemini 3 Pro 的 Agent,在需要复杂检索与推理的任务中,甚至能高出十余个百分点。

原位自进化框架

怎么做到的?

研究团队用了一种全新框架,叫原位自进化(In-situ Self-evolving Agent)。

第一眼没太看懂,但隐约感觉是个很性感的概念。

仔细研究了一下,发现行业其实一直在做自进化(Self-evolving Agent),但和原位自进化是两件事。

普通自进化,大都发生在训练阶段。高度依赖高质量外部监督信号,必须有专家提前选定进化领域,一个模型出题或标注好答案,再让新模型基于这些标注题目,开始最大化目标函数的进化。

这种模式呢,往往是基于一个长期目标做优化,可以从根本上重塑模型的大脑。

最常见的交付结果,就是现在各种模型厂商在做的:炼丹,发一款新模型上来炸场。

但缺点也很明显。

工程量巨大,反馈链路极长,因此只能在训练阶段完成。一旦上线,就没有「进化」这一说了。

而原位自进化,是一种发生在推理阶段的自进化。

不需要外部监督,也没有真值,光靠模型推理时的内部反馈,以及上一次交互中积累的经验,就能蒸馏出可复用的通用技能。

换句话说,只要上线,模型就能做到「边做边学」。

读到这里,肯定有读者要问了:

这难道就是 AI 行业一直苦苦追寻的明珠,自主学习吗?

只要训一次,后面就能在线上不断习得新能力,甚至抵达智能爆炸的奇点,实现 ASI。

事实上,在 2025 年的云栖大会上,阿里 CEO 吴泳铭就曾指出:

ASI 一定会到达,并且此前的一个关键节点,就是 AI 能够自进化。

但值得注意的是,行业在谈 ASI 的这种自进化时,更多还是指参数层面。

而原位自进化关注的是另外三件事:工作流、记忆、工具

肯定不是那么「终极」的解决方案,但也更现实可行,马上就能开始干。

记得几周前参加大模型清华论剑时,也听到姚顺雨提过类似观点:

自主学习其实已经发生了,ChatGPT 会根据对话过程不断拟合聊天风格,Claude 的 Agent 代码库 95% 都是模型自己写的。

云玦科技的 Agent,正是采用的这种现在就能落地的「原位自进化」,但他们走的路线比较特殊——工具优先。

团队认为,工作流路线,容易对少数任务过拟合,思路一旦固化,很难泛化;

而记忆路线,又绕不开 LLM 天然存在的幻觉问题,一旦 Token 上来,偏差会像雪球一样越滚越大。

从第一性原理出发,工具才是最符合直觉的进化载体。

首先,工具直接决定了 Agent 的能力边界

人类基于地球资源制造的一切奇观,都是以新的生产工具为基础。AI 也一样,积累再多上下文,没有铲子,也只能坐在金矿上发呆。

其次,工具执行天然自带高质量监督信号,不需要人类标注

工作流好不好、记忆靠不靠谱,很主观;但工具能不能用,直接看代码报没报错就行。这就是所谓的二元判别信号(Binary Feedback)。

并且,通过形式化验证的代码,可以最大程度保证安全性,放心让 Agent 去执行 API 调用、数据库读写这些底层操作。

也不用担心会不会捡了芝麻丢西瓜。待工具基本收敛后,再去补齐工作流和记忆,依然来得及。

基于上述思考,团队以「工具优先」为理念,打造了一支可实现原位自进化的 Agent 军团

由四个角色组成——

首先是管理者(Manager),负责统筹大局。

在收到用户需求后,它会分析任务、拆解目标,并与现有工具库对齐,看看有没有现成工具可用。

如果发现能力不足,管理者就会指挥工匠(Tool Developer),现场捏一个工具,并立刻在当前上下文中完成配置。

准备就绪后,执行者(Executor)会拿这些工具开始处理任务。

如果发现还是搞不定,它会暂停执行,向管理者汇报。

管理者收到信息后,重复前面的流程,继续补工具、补能力,直到任务能完整跑通为止。

任务完成后,交给整合者(Integrator),对执行历史和中间结果进行整合,生成最终回答。

还有最后一步。

对话结束后,系统会对整个过程进行复盘,更新自己的工具库,并将迭代过程蒸馏、沉淀为可复用的方法论。

为了能更好地监测 Agent 的进化情况,团队还引入了个叫「测试时收敛」(Test-Time Convergence)的定量指标,作用和传统优化中的 Training Loss 类似,方便直观感受 AI 的学习情况。

听上去简直是个完美的解决方案,但在实际操作中遇到了问题。

如果严格按这条路线来,进化流程非常长,而且 Agent 必须一个任务跑完,才能进化一次,效率实在太低。

于是,团队引入了Parallel batch

别一个一个跑了,直接把一批相似任务打包在一块,一起丢给 Agent。

等着一整个 Batch 跑完后,Agent 就能得到一个巨大的经验包,一次性喂饱知识库。

至此,一只能从零开始自我进化的 Agent,诞生了。

无需任何事先训练,完全依靠工具的自进化来拓展能力,还在各种 Benchmark 上取得媲美 SOTA 的成绩。

最后再划个重点——

这套能媲美 SOTA 的自进化框架,还是开源的。包括上述实验的所有日志数据,评测脚本和结果,也都向社区开放。

又是一套可以直接落地部署的开源方案。

又是一项来自中国团队的研究。

只花了 15 万元实验经费的研究团队

这支团队来自云玦科技,这是前阿里巴巴集团副总裁彭超创办的 AI 公司,剑指可穿戴通用智能体。

而这篇论文的通讯作者,正是云玦科技的联合创始人兼 CTO ——齐炜祯

齐炜祯曾任中关村人工智能研究院研究员、中关村学院大模型博士培养方向导师。现在虽然投身 AI 创业,但仍以兼职身份担任中关村学院的科研共建导师。

他是 MTP 架构(ProphetNet)的第一作者。这套多词元预测方法,在 Meta 研究机构 FAIR 2024 年的高影响力论文 Better & Faster Large Language Models via Multi-token Prediction 中,齐炜祯第一作者研发的 ProphetNet,被明确视为提出多 Token 预测架构的原创来源和定义出处。

工业界也在为这项研究背书,DeepSeek V3、Qwen-3-Next 等多款主流大模型,当将其作为核心预训练方法。

量子位听说,DeepSeek 今年年底即将发布的新架构论文,依然会引用这项工作,Qwen 3.5 大概率也会继续沿用。

齐炜祯本科就读于中科大,最早学的是物理,后来转向计算机。

本科毕业后,他成为中科大与微软亚洲研究院的联培博士生,在这里积累了大量偏工程落地、以实际应用为导向的科研经验。

ProphetNet 就是其中之一,除此之外,他还是Visual ChatGPT的核心作者。

该项目开源仅一周就收获了 3 万 Star,开创性地定义了以 LLM 为中心的、调用多模态工具以完成复杂视觉任务的 Agent 范式。

在推理优化方面,他是业界首批提出KV Cache 优化(EL-Attention)的学者,其核心思想与后来 DeepSeek 提出的 MLA 等高效推理部署算法高度一致。

谷歌学术显示,齐炜祯的论文引用数已超过 3000,h-index 为 17。

这篇论文的一作有两位,都是在云玦科技实习期间参与的这项工作。李昊天,哈工大博士生,杨释钧,中科大硕士生,他们在此之前都有多段大厂的实习经历。

还听说个有意思的事。

论文里的所有数据集和实验结果都是 One take,完全靠同一个架构,一口气跑出来的。

这当然说明了这项工作的稳健性。但事实是,就算结果不好,也只能认栽。

团队只设定了 15 万元的研究经费,也就只够跑一次完整的推理实验。

也正因为如此,他们最开始也没法选择那些依赖大量人类标注、需要反复调参的方案。

只能赌一把。

赌原位自进化,赌「工具优先」,赌 Agent 能自己涌现出通用能力。

开源阵营的又一核武器

对于 To C 场景来说,AI 始终面临着「开放性、可控性、经济性」的不可能三角

LLM 虽能处理开放性问题,但幻觉始终是硬伤,这在金融、医疗等场景下是不可容忍的。更别说,还要时刻面对防不胜防的提示词注入攻击。

成本同样是个大问题。完全依赖大参数模型的 CoT 推理,在 To C 服务动辄亿级日调用量的背景下,得烧出来个天文数字。

为了解决这个问题,垂直 Agent 应运而生。

提前把流程给设计好,工具也是固定的,以换取极低的成本和极高的安全性。

但代价也很明显:几乎没有自由度,Agent 只能处理像「预定机票」这样的标准化需求。

可真实世界的人类需求,永远是高度发散的。就拿订机票这件看似没什么技术含量的事来说:

老板想订去巴黎的机票,但他护照快过期了,先帮我查一下签证加急流程,再决定要不要订。

这还只是一个例子,不同长尾场景下需要的新 Context 千差万别,不可能每个都能提前覆盖到。

而一旦用户意图超出了预设流程的边界,系统要么瘫痪,要么陷入死循环。

想要同时兼顾安全性、低成本,又能处理开放性需求,唯一的路,只能是让 Agent 在真实工作中学习。

这正是这篇论文给出的答案——「工具优先」的原位自进化。

能力边界的问题,可以交给工具集来解决;可控性,也能通过代码的执行反馈来约束。

甚至工作流也能自进化,通过模拟大量长尾场景,靠自我博弈与经验蒸馏,不断生成新的策略组合,探索各种工具组合路径。

而一旦某条路径被反复验证有效,它还会被「固化」为静态模板。遇到用户请求,Agent 可以优先匹配这些模板,如果合适,直接填参数执行即可,无需再跑一遍昂贵的大模型推理。

关键是,这套能「越用越好用」的自进化架构,是开源的。

从工业角度来看,这个项目还和常规的 AI 开源项目不太一样。

事实上,今天虽然已经有很多开源模型,但开源阵营的整体声势,远没达到当年 Linux 在互联网时代那种级别

没办法,Linux 的飞轮太容易转起来了,只要代码不报错,通过审核就能合并上线。

所以,就算 Linux 最开始只有 1000 个社区成员,他们每天能贡献的代码量也是相当恐怖的;而 Linux 每一次进化,又会吸引更多开发者参与,这是典型的网络效应

AI 很难这么做,反馈路径太严格,对数据质量的要求极高。

这种时候,用户增长基本对模型能力没什么贡献,最多能反映出个宏观偏好,还会持续消耗昂贵的推理算力。

这也是为什么 MiniMax CEO 以及不少 AI 创业者都认为:AI 产品的用户太多,未必是好事

但这个问题,并非没有解法。

Skills 的爆火已经证明——

开源始终是一座金矿,只是需要合适的工具去开采。

Skills 是开始,原位自进化,走向 Zero Skill,或许是下一步。

以 DeepSeek 为代表的一众开源模型,已经在全球范围内铺开了足够大的市场。

如果能用原位自进化,赋予其「越用越好用」的动态优势,再去和闭源模型正面掰手腕,甚至弯道超车——

不是不可能。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

take ai 考试 act 香蕉
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论