英伟达23人梦之队，让AI用7天干翻了自己的GPU专家

AI 在 7 天内自主完成了通常需要专家数月甚至数年的 GPU 内核优化，而且结果比自己家的王牌产品还快 10%——今天，学术预印本平台 arXiv 上发布了一项被视为可能彻底改变软件和芯片优化方式的突破性研究。

这一研究由 NVIDIA 组建的一支 23 人的顶级团队完成，名为《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》（AVO：用于自主进化搜索的智能体变异算子）。

简单来说，AVO（Agentic Variation Operators，智能体变异算子）是让 AI 自己当起了 " 程序员 + 架构师 + 测试员 " 的合体，去探索人类工程师可能永远想不到的底层代码优化方案，最终在英伟达最新的 Blackwell（B200）GPU 上，写出了比当今最顶尖人类专家团队（如 cuDNN 和 FlashAttention-4）编写的代码还要快 10% 以上的高性能计算内核。

值得注意的是，其核心开发者许冰在 X 上表示，他一开始根本不懂 GPU 编程，也由此开启了这一段 " 盲编码 " 的探索——也许，" 不懂 " 才是最大的优势，人类的认知反而会成为进化的局限。

再见！传统进化算法的局限

想象一下，你有一套非常精密的计算程序（比如现在最火的 AI 模型中的 " 注意力机制 "），这套程序要在显卡（GPU）上跑得飞快。为了达到这个目标，专业的程序员们通常要花费几个月甚至几年时间，手动调整代码、优化内存访问、设计特殊算法，最终才能比通用版本快个 20%、30%。

但这些手工优化有个大问题：太慢了、太依赖个人经验了。硬件在变、算法在变，每次都需要重新优化。

为了自动化这个过程，科学家们想到了 " 进化算法 "：就像生物进化一样，随机生成一批代码，测试哪个跑得快，保留快的，变异出下一代，不断重复。但这个方法有个致命缺陷：变异操作是 " 盲目的 " ——传统进化算法中的 " 变异 " 就是简单的随机修改、交换代码片段。这就好比你想让猴子打出莎士比亚的作品，纯靠随机敲键盘是不行的。

而且，传统的进化算法和 " 大模型辅助设计 " 思路，通常把 AI（大语言模型）限定在一个固定的流程里。比如，人类设定好规则（" 变异 " 和 " 交叉 "），让 AI 生成一堆代码候选方案，然后由人类或另一个程序来筛选和测试。

AVO 的革命性在于，它彻底颠覆了这个关系。它不再把 AI 当作流程中的一个 " 候选生成器 "，而是将整个变异过程本身，交给一个自主的智能体循环来完成。这个智能体拥有更高的权限和更全面的视角，它可以：

查阅整个进化家谱：查看当前所有代码版本的优劣和历史。

调用领域知识库：学习特定领域（如 GPU 硬件架构）的专门知识。

分析执行反馈：根据代码的实际运行性能数据，进行自我诊断。

基于这些信息，这个智能体可以自主完成提出修改、修复错误、批判方案、验证结果等一系列完整动作。这就像一个不知疲倦、知识渊博且具备批判性思维的全栈工程师，在持续地重构和优化代码。

实战成绩：在最难优化的战场上击败人类冠军

为了证明 AVO 的强大，研究团队选择了一个公认的 " 硬骨头 " 作为测试场：注意力机制（Attention）的计算内核。这是驱动当今所有大语言模型（如 ChatGPT、Gemini）的核心组件，也是全球顶尖工程师和科学家投入巨资、激烈优化的焦点。英伟达的 cuDNN 和 Tri Dao 团队的 FlashAttention 系列，就是这一领域的标杆。

在让 AVO 在最新的 NVIDIA Blackwell ( B200 ) 显卡上运行 7 天后，实验的结果惊人：

超越 cuDNN：AVO 形成的多头注意力（Multi-Head Attention，MHA）计算内核，在测试的各项配置中，性能超越了 cuDNN 高达 3.5%。cuDNN 是 NVIDIA 自家工程师花了多年打磨的闭源库，AVO 一个 AI 系统跑了 7 天就超越了它。这相当于学生超越了老师，而且这个老师已经是全世界最好的。

超越 FlashAttention-4：比学术界最先进注意力计算方法 FlashAttention-4 快 10.5%。这种程度的提升已经可以称之为革命性的突破了。

迁移能力：更神奇的是，AVO 优化好的代码还能举一反三——在 MHA 上进化 7 天的成果，迁移到 GQA（Grouped-Query Attention，分组查询注意力）只需 30 分钟就能获得 7%-9% 的提升。说明 AVO 学到的不是死记硬背的特定优化，而是通用的优化策略和思维方式。

微架构级别的深度优化：AVO 发现的优化不是简单的换个算法，而是深入到 GPU 寄存器分配、warp 调度、流水线时序的微架构级别。这说明 AI 已经具备了理解硬件底层行为的能力。

这意味着什么？

传统方法像是在填空题里选答案，而 AVO 像是在开放题中自由发挥，可以探索各种可能性。而且，AVO 不是靠猜什么优化有用，而是真正运行代码、测量性能，用数据驱动进化。同时，智能体会从每次尝试中学习，失败的尝试也有价值，告诉它这条路不通。

AVO 让 AI 像真正的程序员一样，会学习、会思考、会测试，最终写出了比人类专家还快的代码。这是 AI 优化自身能力的重要一步。

从其进化结果来看，对 AI 硬件优化意味着：更快的大模型训练，如果注意力机制计算能加速 10%，整个大模型训练都能更快；降低硬件门槛，同样的硬件能跑更大的模型，或者同样的模型能用更便宜的硬件；解放专家，不再需要顶尖优化工程师花费数月手工调优。

从这一 AI 研究方向而言，这篇论文证明了一个重要观点：AI 不仅可以用来自动化任务，还可以用来自动化优化本身。未来可能会有更多 "AI 优化 AI" 的场景。

结语

这篇论文全部 23 位作者涵盖了 AI 编译器、高性能计算、计算机视觉、生成式 AI 等多个顶级子方向—— AI 智能体编程先锋（Terry Chen, 许冰）、 AI 编译器之父（陈天奇）、NVIDIA 研究 VP（Ming-Yu Liu）、 GPU 内核专家（John Tran, Andrew Kerr）、注意力机制专家（Ali Hassani）、学术界权威（Humphrey Shi, Luis Ceze），以及系统工程支撑团队。

这是一个从理论到工程、从学术到产品全链路覆盖的顶级团队。AVO 不是一篇试试看的探索性论文，而是 NVIDIA 精心布局的战略级成果。

从更宏观的视角看，AVO 代表了 AI 研发范式的又一次进化。它不再满足于让 AI 生成内容或遵循指令，而是赋予其长期的、目标导向的、具备反思能力的自主探索权。它也为我们打开了一扇门：未来，在芯片设计、编译器优化、算法创新等需要极度专业知识和创造力的领域，自主进化的 AI 智能体可能成为人类最得力的 " 共研者 "。它们可以不知疲倦地探索人类思维难以触及的 " 微观架构 " 组合空间，加速我们迈向更强大、更高效计算未来的进程。

或许，这项研究正像一颗投入湖面的石子，其涟漪将逐渐扩散至整个计算产业的每一个角落。

论文地址 https://arxiv.org/pdf/2603.24517v1

宙世代

一起剪

相关标签