你说巧不巧,就在大家把目光都盯在 GPU 和 NPU 上的时候,英特尔和 AMD 这对当了半辈子冤家的芯片巨头,悄悄搞了个大动作。
6 月 19 日,x86 生态系统咨询小组(EAG)正式发布了 ACE 规范 1.15 版本。ACE 全称 AI Compute Extensions,翻译过来就是「AI 计算扩展指令集」。说白了,这是一套专门给 x86 CPU 准备的原生 AI 加速指令。
讲道理,这事儿比你想的重要得多。
先聊点背景。2024 年的时候,英特尔和 AMD 做了个让所有人意外的决定——成立 x86 生态系统咨询小组(EAG)。你没看错,这两家打了大半辈子架的公司,居然坐下来一起商量 x86 架构怎么演进。
原因其实不难理解。AI 时代来了,服务器也好,PC 也好,都跑 AI 负载。但 x86 指令集在 AI 计算上一直有点「先天不足」,全靠 AVX-512 这类向量指令硬撑。问题是 AVX-512 这些年被两家搞得五花八门——英特尔的实现和 AMD 的兼容性参差不齐,软件开发者想支持吧,又怕踩坑,最后谁都不想碰。
所以 ACE 从设计第一天就说清楚了:英特尔和 AMD 都得支持,而且以后不会轻易废弃。这话翻译成人话就是——你放心写代码,不用担心换了一代 CPU 就不能跑了。

ACE 到底干了件什么事?
技术上讲,ACE 的核心思路其实很直白。
深度学习模型跑起计算来,最频繁的操作是什么?矩阵乘法。Transformer 架构里,注意力机制就是一堆矩阵运算。传统 CPU 做矩阵乘法效率有多低呢——这么说吧,GPU 一秒钟能干完的活,CPU 可能要磨蹭半天。
ACE 的思路是在现有 AVX 向量指令的基础上,新增了一种叫「图块寄存器」(tile register)的东西。你把它想象成 CPU 内部专门给矩阵运算准备的一块「工作台」,数据从 AVX 寄存器搬上这个工作台,然后啪一下算完,再搬回去。这样就避免了一次一次地从内存取数据,性能和能效直接起飞。
另外 ACE 还整合了 AVX10 框架下的格式转换指令。你懂的,现在 AI 模型用的数据类型五花八门—— FP32、BF16、FP16、INT8、FP8,甚至还有 MX 联盟那套 MX FP6、MX FP4。ACE 从 1.15 版本开始全支持了:
基本上你叫得上名的低精度格式,它都包了。我个人觉得这一步很重要——模型量化趋势越来越猛,CPU 要是不原生支持这些格式,靠软件模拟只会越来越卡。

AMD Zen 6/Zen 7 的路线图
最让我感兴趣的是 AMD 的部署计划。根据这次公布的信息:
翻译一下就是:Zen 6 先在数据层面打好地基,Zen 7 就直接上引擎了。这个节奏我个人觉得挺合理的——先让软件开发者有东西可以适配,硬件再跟上,而不是硬件先出了发现没人用。
这件事为什么对开发者很重要?
你可能觉得,CPU 跑 AI?那不是 GPU 的事吗?
这么说吧。不是所有 AI 场景都需要 GPU。
比如你在做推理服务,如果是小模型、低并发、对延迟敏感的场景,用 CPU 反而更方便——不需要等 GPU 显存调度,没有 PCIe 传输延迟,部署成本也低得多。ACE 就是让 CPU 在这些场景下不再「凑合着用」,而是真正有硬件加速能力。
再比如做 AI 应用的客户端——本地跑个小模型摘要、关键词提取、意图识别,要是 x86 CPU 能高效搞定,谁还非得去调云端 API 啊?
开发者最关心的兼容性方面,ACE 走了和 AVX-512 完全不同的路。EAG 从设计之初就强调英特尔和 AMD 共同承诺支持,而且保证未来不会随便废弃指令集。说实话,光冲这一点就比 AVX-512 那堆混乱的兼容矩阵靠谱多了。
一点个人的感慨
英特尔和 AMD 能坐下来一起搞这个,本身就很说明问题。AI 带来的变化不仅仅是模型参数越来越大,而是整个计算架构都在被重塑。GPU 吃肉,CPU 至少也得喝点汤——但更重要的是,CPU 在 AI 这件事上本来就有自己不可替代的位置。
ACE 1.15 只是一个开始。等 Zen 6、Zen 7 真出来的时候,你再回过头来看这篇,估计会发现现在说的还只是冰山一角。
你觉得 CPU 跑 AI 到底有没有戏?你在项目里试过用 CPU 做推理吗?评论区来聊聊。
作者声明:作品含 AI 生成内容


登录后才可以发布评论哦
打开小程序可以发布评论哦