Transformer作者初创公司最新成果：开源新框架突破进化计算瓶颈，样本效率暴涨数十倍

开源框架实现样本效率提升数十倍！

同样的任务，以前要上千次的评估，现在 150 个样本就能完成。

Transformer 作者 Llion Jones 带着自己的初创公司 Sakana AI，又来搞事情了。（doge）

最新推出的开源框架——ShinkaEvolve，可以让 LLM 在自己写代码优化自己的同时，还能同时兼顾效率，be like 为进化计算装上一个 " 加速引擎 "。

主要通过三项架构创新，在数学优化、智能体设计、竞争性编程等多个任务上证明了其性能优势。

可以说，性能比肩谷歌的AlphaEvolve，但样本更高效，而且还开源！

下面是更多具体细节。

三大创新技术的引入

想象一下，如果要让 LLM 通过进化计算找到问题的最优解，需要走多少步？

以 AlphaEvolve 为例，首先生成一个猜想，然后跑实验验证、吸取教训，再提出更好的猜想……循环往复，不断逼近真理。

这样下来即使是最简单的一个实验也要花费巨大资源，计算成本昂贵且耗时严重。

而 ShinkaEvolve 框架则针对上述问题，实现了性能与效率的双重程序进化，其核心在于三大关键技术：

平衡探索与利用的亲本抽样技术

该技术通过分层策略与多方法融合保障进化方向的有效性。

框架在已评估程序的基础上，利用 " 岛群模型 " 将种群分为独立子群并行进化，子群之间也会定期迁移知识，并保留最优解以保障独特性。

具体来说，就是在抽样时先均匀抽取岛群 ID，再结合 top-K 优质解与随机样本选取亲本及启发程序，并通过幂律抽样（按适应度分配概率）与加权抽样（融合性能与新颖性）的多策略模式，平衡已知的良好解决方案和探索新想法。

代码新颖性拒绝抽样

为减少 LLM 生成重复或低新颖性变异体的无效计算，框架采用嵌入相似度筛选 +LLM 判优的二级过滤机制。

即首先通过嵌入模型对程序可变异部分进行编码，计算与现有程序的余弦相似度，如果超过阈值（如 0.95）则调用额外 LLM 评估其语义独特性，最终仅保留真正具有新颖性的候选解，以确保探索效率。

基于多臂老虎机的 LLM 集成选择策略

针对不同 LLM 在任务与进化阶段的性能差异，框架基于UCB1 算法动态调度模型。

也就是为每个 LLM 设置两个评价指标：记录使用次数的访问计数器，和评价预期表现的得分估计。

然后当模型产生新的改进时，通过对比改进幅度，即时更新评分，再借助指数函数对显著改变强化贡献权重，并归一化得分，实现动态选择当下最合适的 LLM。

最终整个框架的运行围绕着抽样、变异、反馈形成闭环，为 LLM 进化计算提供了全新的降本增效范式。

实现样本效率的数量级提升

另外研究人员还在四个领域（数学优化、Agent 设计、竞赛编程、LLM 训练）中分别设置对比实验，以验证 ShinkaEvolve 框架的性能。

首先是在数学优化问题上，实验要求将 26 个圆放置在一个单位正方形内，使得它们的半径之和最大化，同时确保没有圆重叠，并且所有圆都完全包含在正方形边界内。

结果表明，ShinkaEvolve 仅需要 150 次评估，而 AlphaEvolve 则需要数千次评估，显著提升了样本效率。

同时，整个进化过程呈现出三个不同的阶段，包括快速发现基本的半径优化策略的快速改进阶段、持续获得增量收益的探索阶段，以及最终的收敛阶段，最终突破了空间利用率与半径总和的平衡瓶颈。

在Agent 设计上，实验针对 2024 年 AIME 竞赛的 30 道数学推理问题，提出以gpt-4.1-nano为基础模型，最多调用 10 次 LLM 查询。

实验发现 ShinkaEvolve 的框架设计显著优于模型基线，包括简单的单查询代理和复杂的多数投票方法。

其中 7 次 LLM 查询即产生最大性能，另外在低污染的 2023 年和未见过的 2025 年 AIME 竞赛题上也同样表现稳定，且适配 gpt-4.1-mini、o4-mini 等多种模型。

另外在ALE-Bench 竞争性编程基准测试上评估 ShinkaEvolve，观察其在动态规划、图论和组合优化等问题上的解决能力。

结果显示，10 道 AtCoder 竞赛题的平均得分提升2.3%，其中 ahc039 任务从第 5 名升至第 2 名，且具备竞赛获奖潜力。相关代码的优化也多聚焦细节改进，未依赖大规模重构。

研究人员还在混合专家 （MoE） 负载均衡损失函数的任务上评估 ShinkaEvolve，要求以 556M 参数 MoE 进化负载平衡损失（LBL），2.7B 参数 MoE 验证泛化性，最终平衡交叉熵损失与专家均衡性。

结果发现 ShinkaEvolve 产生的新 LBL，在 7 个下游任务上均表现出更高的准确率、更低的困惑度，而且随着正则化系数 λ 增大，优势则更显著。

最终实验充分证明，该新框架可有效实现样本效率的数量级提升，以及跨不同领域任务的广泛适用性，其开源特性也将进一步降低技术使用门槛。

论文链接：https://arxiv.org/abs/2509.19349

代码链接：https://github.com/SakanaAI/ShinkaEvolve

参考链接：

[ 1 ] https://x.com/SakanaAILabs/status/1971081557210489039

[ 2 ] https://sakana.ai/shinka-evolve/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦！我们正在寻找 AI+ 时代领航者点击了解详情

❤️‍ 企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签