还得是英伟达!一出手,GPU 开发变天了。
英伟达最新发布智能体变异算子AVO(Agentic Variation Operator),直接刷屏社媒,原因很简单——
7 天时间,无需人工干预,自动进化出超越几乎所有人类 GPU 专家的注意力机制优化方案。

什么概念呢?
同一款 GPU 上,AVO 方案性能超出官方加速引擎 cuDNN 3.5%,比当前公认最强的 FlashAttention-4 还快了 10.5% 。
更厉害的是,优化后能直接复用,30 分钟就能适配到另一种注意力机制上,而运算速度依旧遥遥领先。
要知道,目前人类专家对这类底层算子的优化已逼近硬件极限,结果现在智能体还能将这个极限再往上调一调。
用第一作者许冰的话说,就是:
这或许是软件领域首次出现超人类智能的实质性迹象。

这一最新成果迅速在社交媒体上被热议,不少网友认为:
这就是 GPU 编码的AlphaGo 时刻。

连续 7 天的搜索量已经相当于博士生一年的工作量。

AVO 的核心设计
其实除了人类专家,也有人尝试用大模型辅助优化代码,比如 FunSearch、AlphaEvolve。
但大模型只负责生成代码,具体选哪个、怎么测都得由人类决定,所以最终效果并不理想。
那如果试着放开手,将代码优化的全部流程都统一交给 Agent 自己做呢?
而这就是AVO。

不同于传统变异算子,AVO 直接将变异过程重构为一个自主导向的智能体循环,包括查阅现有迭代情况、领域专属知识库,以及修改测试验证等。
就像一个真正的资深工程师那样,自动化all in 一切。

具体操作流程包括四步:
1、前置分析与调研:
Agent 首先查阅进化谱系,对比多个历史版本的性能分析数据,然后找出当前核函数的性能瓶颈。
同时结合领域知识库,确定可行的优化方向,保证优化策略符合硬件底层逻辑。
2、迭代式编辑:
Agent 将基于分析结果实现代码修改,随后调用评分函数测试修改后的候选解。
若候选解没能通过正确性校验或性能无提升甚至下降,智能体将自主诊断问题根源,并调整优化思路重新修改,反复执行这一循环,直至得到满意的候选解。
3、提交新版本:
仅当候选解通过所有正确性校验,且性能持平或优于当前最优版本时,才会将其作为正式提交版本加入进化谱系。
4、优化策略的动态适配:
Agent 可根据搜索进度自主调整优化方向。
早期步骤多基于知识库做结构性修改;后期步骤则更多基于评分函数的性能反馈和谱系历史规律,做微架构调优,比如寄存器分配、指令调度,最终逐步实现从粗粒度改进到细粒度抠性能。
除此之外,AVO 还能实现 7 日无人工干扰的稳定优化,具体针对长时程自主优化的两大核心问题(搜索停滞和无效循环)进行了结构设计。
AVO 引入了自监督机制,能够实时监测进化过程。一旦检测到上述两种情况时,就会自动触发干预,为 Agent 引导出多个新的候选优化方向,以全新视角继续优化。
人类专家级的全自动硬件底层优化能力
随后,研究人员在英伟达最新的Blackwell B200 GPU上对 AVO 展开系统性测试,分别验证其在多头注意力(MHA)和分组查询注意力(GQA)上的性能表现,并通过进化轨迹分析拆解 AVO 的自主优化过程。
其中基线选择注意力核函数的两大顶尖专家优化方案cuDNN 9.19.1和FlashAttention-4。
前者作为英伟达闭源的官方注意力核函数,代表 GPU 厂商专家的优化水平,后者是最新的开源顶尖注意力核函数,代表社区专家的优化水平。

在MHA性能验证中,AVO 优化后的核函数在因果注意力场景实现全配置领先。
所有测试的序列长度下,均超越 cuDNN 和 FA4,性能增益范围为相比 cuDNN 增加 0.4% 到 3.5%、相比 FA4 增加 5.0% 到 10.5%。
非因果注意力场景中,短序列(4096/8192)性能与两大基线持平,长序列(16384/32768)可实现稳定增益。
尤其是在 BF16 精度下,最高峰值能达到 1668 TFLOPS 的吞吐量,刷新了 B200 GPU 上注意力核函数的性能纪录。

而将优化后的 MHA 核函数自主适配到GQA时,AVO 只花费了30 分钟就完成了全部代码适配,全程没有人类工程师参与。
适配后的 GQA 核函数也在所有测试配置中全面超越 cuDNN 和 FA4。
换言之,AVO 发现的并非针对 MHA 的定制化优化,而是基于硬件底层的通用微架构优化策略,能够适配注意力机制的不同变体,泛化性极强。
最后,研究人员对 AVO 在 7 天内生成的40 个正式提交的核函数版本都进行了系统性分析,发现 AVO 其实一共自主探索了500 余个候选优化方案,探索规模之大,是人类工程师无法匹敌的。

同时性能提升呈现离散阶跃式,来自于 5 个核心的架构级优化拐点,如 QK-PV 交织掩码、单遍 softmax 重构、无分支累加器缩放、校正 /MMA 流水线重叠、寄存器跨 warp 组重平衡,其余版本则是通过微架构优化实现性能的复合式提升。
而优化收益出现边际递减现象,也符合工程优化规律。
总的来看,AVO 已然具备人类专家级的硬件底层优化能力,而且完全自动化、无需人工干预。
作者许冰称之为盲编码,并断言:
盲编码是软件工程的未来,而人类的认知能力是瓶颈。
参考链接:
[ 1 ] https://x.com/bingxu_/status/2036983004200149460
[ 2 ] https://arxiv.org/abs/2603.24517
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
龙虾时代,Skill 会吃掉 APP 吗?
3 月 31 日(周二)14:00,量子位攒了个局,一起来找答案。
AI 时代的产品人,可能都该来听听

一键关注 点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦