英伟达Agent超越人类GPU专家！连续7天自主进化，优化算子性能碾压FlashAttention-4

还得是英伟达！一出手，GPU 开发变天了。

英伟达最新发布智能体变异算子AVO（Agentic Variation Operator），直接刷屏社媒，原因很简单——

7 天时间，无需人工干预，自动进化出超越几乎所有人类 GPU 专家的注意力机制优化方案。

什么概念呢？

同一款 GPU 上，AVO 方案性能超出官方加速引擎 cuDNN 3.5%，比当前公认最强的 FlashAttention-4 还快了 10.5% 。

更厉害的是，优化后能直接复用，30 分钟就能适配到另一种注意力机制上，而运算速度依旧遥遥领先。

要知道，目前人类专家对这类底层算子的优化已逼近硬件极限，结果现在智能体还能将这个极限再往上调一调。

用第一作者许冰的话说，就是：

这或许是软件领域首次出现超人类智能的实质性迹象。

这一最新成果迅速在社交媒体上被热议，不少网友认为：

这就是 GPU 编码的AlphaGo 时刻。

连续 7 天的搜索量已经相当于博士生一年的工作量。

AVO 的核心设计

其实除了人类专家，也有人尝试用大模型辅助优化代码，比如 FunSearch、AlphaEvolve。

但大模型只负责生成代码，具体选哪个、怎么测都得由人类决定，所以最终效果并不理想。

那如果试着放开手，将代码优化的全部流程都统一交给 Agent 自己做呢？

而这就是AVO。

不同于传统变异算子，AVO 直接将变异过程重构为一个自主导向的智能体循环，包括查阅现有迭代情况、领域专属知识库，以及修改测试验证等。

就像一个真正的资深工程师那样，自动化all in 一切。

具体操作流程包括四步：

1、前置分析与调研：

Agent 首先查阅进化谱系，对比多个历史版本的性能分析数据，然后找出当前核函数的性能瓶颈。

同时结合领域知识库，确定可行的优化方向，保证优化策略符合硬件底层逻辑。

2、迭代式编辑：

Agent 将基于分析结果实现代码修改，随后调用评分函数测试修改后的候选解。

若候选解没能通过正确性校验或性能无提升甚至下降，智能体将自主诊断问题根源，并调整优化思路重新修改，反复执行这一循环，直至得到满意的候选解。

3、提交新版本：

仅当候选解通过所有正确性校验，且性能持平或优于当前最优版本时，才会将其作为正式提交版本加入进化谱系。

4、优化策略的动态适配：

Agent 可根据搜索进度自主调整优化方向。

早期步骤多基于知识库做结构性修改；后期步骤则更多基于评分函数的性能反馈和谱系历史规律，做微架构调优，比如寄存器分配、指令调度，最终逐步实现从粗粒度改进到细粒度抠性能。

除此之外，AVO 还能实现 7 日无人工干扰的稳定优化，具体针对长时程自主优化的两大核心问题（搜索停滞和无效循环）进行了结构设计。

AVO 引入了自监督机制，能够实时监测进化过程。一旦检测到上述两种情况时，就会自动触发干预，为 Agent 引导出多个新的候选优化方向，以全新视角继续优化。

人类专家级的全自动硬件底层优化能力

随后，研究人员在英伟达最新的Blackwell B200 GPU上对 AVO 展开系统性测试，分别验证其在多头注意力（MHA）和分组查询注意力（GQA）上的性能表现，并通过进化轨迹分析拆解 AVO 的自主优化过程。

其中基线选择注意力核函数的两大顶尖专家优化方案cuDNN 9.19.1和FlashAttention-4。

前者作为英伟达闭源的官方注意力核函数，代表 GPU 厂商专家的优化水平，后者是最新的开源顶尖注意力核函数，代表社区专家的优化水平。

在MHA性能验证中，AVO 优化后的核函数在因果注意力场景实现全配置领先。

所有测试的序列长度下，均超越 cuDNN 和 FA4，性能增益范围为相比 cuDNN 增加 0.4% 到 3.5%、相比 FA4 增加 5.0% 到 10.5%。

非因果注意力场景中，短序列（4096/8192）性能与两大基线持平，长序列（16384/32768）可实现稳定增益。

尤其是在 BF16 精度下，最高峰值能达到 1668 TFLOPS 的吞吐量，刷新了 B200 GPU 上注意力核函数的性能纪录。

而将优化后的 MHA 核函数自主适配到GQA时，AVO 只花费了30 分钟就完成了全部代码适配，全程没有人类工程师参与。

适配后的 GQA 核函数也在所有测试配置中全面超越 cuDNN 和 FA4。

换言之，AVO 发现的并非针对 MHA 的定制化优化，而是基于硬件底层的通用微架构优化策略，能够适配注意力机制的不同变体，泛化性极强。

最后，研究人员对 AVO 在 7 天内生成的40 个正式提交的核函数版本都进行了系统性分析，发现 AVO 其实一共自主探索了500 余个候选优化方案，探索规模之大，是人类工程师无法匹敌的。

同时性能提升呈现离散阶跃式，来自于 5 个核心的架构级优化拐点，如 QK-PV 交织掩码、单遍 softmax 重构、无分支累加器缩放、校正 /MMA 流水线重叠、寄存器跨 warp 组重平衡，其余版本则是通过微架构优化实现性能的复合式提升。

而优化收益出现边际递减现象，也符合工程优化规律。

总的来看，AVO 已然具备人类专家级的硬件底层优化能力，而且完全自动化、无需人工干预。

作者许冰称之为盲编码，并断言：

盲编码是软件工程的未来，而人类的认知能力是瓶颈。

参考链接：

[ 1 ] https://x.com/bingxu_/status/2036983004200149460

[ 2 ] https://arxiv.org/abs/2603.24517

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

龙虾时代，Skill 会吃掉 APP 吗？

3 月 31 日（周二）14:00，量子位攒了个局，一起来找答案。

AI 时代的产品人，可能都该来听听

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪