开源框架实现样本效率提升数十倍!
同样的任务,以前要上千次的评估,现在 150 个样本就能完成。
Transformer 作者 Llion Jones 带着自己的初创公司 Sakana AI,又来搞事情了。(doge)
最新推出的开源框架——ShinkaEvolve,可以让 LLM 在自己写代码优化自己的同时,还能同时兼顾效率,be like 为进化计算装上一个 " 加速引擎 "。
主要通过三项架构创新,在数学优化、智能体设计、竞争性编程等多个任务上证明了其性能优势。
可以说,性能比肩谷歌的AlphaEvolve,但样本更高效,而且还开源!
下面是更多具体细节。
三大创新技术的引入
想象一下,如果要让 LLM 通过进化计算找到问题的最优解,需要走多少步?
以 AlphaEvolve 为例,首先生成一个猜想,然后跑实验验证、吸取教训,再提出更好的猜想……循环往复,不断逼近真理。
这样下来即使是最简单的一个实验也要花费巨大资源,计算成本昂贵且耗时严重。
而 ShinkaEvolve 框架则针对上述问题,实现了性能与效率的双重程序进化,其核心在于三大关键技术:
平衡探索与利用的亲本抽样技术
该技术通过分层策略与多方法融合保障进化方向的有效性。
框架在已评估程序的基础上,利用 " 岛群模型 " 将种群分为独立子群并行进化,子群之间也会定期迁移知识,并保留最优解以保障独特性。
具体来说,就是在抽样时先均匀抽取岛群 ID,再结合 top-K 优质解与随机样本选取亲本及启发程序,并通过幂律抽样(按适应度分配概率)与加权抽样(融合性能与新颖性)的多策略模式,平衡已知的良好解决方案和探索新想法。
代码新颖性拒绝抽样
为减少 LLM 生成重复或低新颖性变异体的无效计算,框架采用嵌入相似度筛选 +LLM 判优的二级过滤机制。
即首先通过嵌入模型对程序可变异部分进行编码,计算与现有程序的余弦相似度,如果超过阈值(如 0.95)则调用额外 LLM 评估其语义独特性,最终仅保留真正具有新颖性的候选解,以确保探索效率。
基于多臂老虎机的 LLM 集成选择策略
针对不同 LLM 在任务与进化阶段的性能差异,框架基于UCB1 算法动态调度模型。
也就是为每个 LLM 设置两个评价指标:记录使用次数的访问计数器,和评价预期表现的得分估计。
然后当模型产生新的改进时,通过对比改进幅度,即时更新评分,再借助指数函数对显著改变强化贡献权重,并归一化得分,实现动态选择当下最合适的 LLM。
最终整个框架的运行围绕着抽样、变异、反馈形成闭环,为 LLM 进化计算提供了全新的降本增效范式。
实现样本效率的数量级提升
另外研究人员还在四个领域(数学优化、Agent 设计、竞赛编程、LLM 训练)中分别设置对比实验,以验证 ShinkaEvolve 框架的性能。
首先是在数学优化问题上,实验要求将 26 个圆放置在一个单位正方形内,使得它们的半径之和最大化,同时确保没有圆重叠,并且所有圆都完全包含在正方形边界内。
结果表明,ShinkaEvolve 仅需要 150 次评估,而 AlphaEvolve 则需要数千次评估,显著提升了样本效率。
同时,整个进化过程呈现出三个不同的阶段,包括快速发现基本的半径优化策略的快速改进阶段、持续获得增量收益的探索阶段,以及最终的收敛阶段,最终突破了空间利用率与半径总和的平衡瓶颈。
在Agent 设计上,实验针对 2024 年 AIME 竞赛的 30 道数学推理问题,提出以gpt-4.1-nano为基础模型,最多调用 10 次 LLM 查询。
实验发现 ShinkaEvolve 的框架设计显著优于模型基线,包括简单的单查询代理和复杂的多数投票方法。
其中 7 次 LLM 查询即产生最大性能,另外在低污染的 2023 年和未见过的 2025 年 AIME 竞赛题上也同样表现稳定,且适配 gpt-4.1-mini、o4-mini 等多种模型。
另外在ALE-Bench 竞争性编程基准测试上评估 ShinkaEvolve,观察其在动态规划、图论和组合优化等问题上的解决能力。
结果显示,10 道 AtCoder 竞赛题的平均得分提升2.3%,其中 ahc039 任务从第 5 名升至第 2 名,且具备竞赛获奖潜力。相关代码的优化也多聚焦细节改进,未依赖大规模重构。
研究人员还在混合专家 (MoE) 负载均衡损失函数的任务上评估 ShinkaEvolve,要求以 556M 参数 MoE 进化负载平衡损失(LBL),2.7B 参数 MoE 验证泛化性,最终平衡交叉熵损失与专家均衡性。
结果发现 ShinkaEvolve 产生的新 LBL,在 7 个下游任务上均表现出更高的准确率、更低的困惑度,而且随着正则化系数 λ 增大,优势则更显著。
最终实验充分证明,该新框架可有效实现样本效率的数量级提升,以及跨不同领域任务的广泛适用性,其开源特性也将进一步降低技术使用门槛。
论文链接:https://arxiv.org/abs/2509.19349
代码链接:https://github.com/SakanaAI/ShinkaEvolve
参考链接:
[ 1 ] https://x.com/SakanaAILabs/status/1971081557210489039
[ 2 ] https://sakana.ai/shinka-evolve/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
❤️ 企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦