不用独显也能跑AI Intel和AMD罕见达成共识

快科技 6 月 22 日消息，Intel 与 AMD 共同发布完整 ACE CPU 扩展规范，这套面向 AI 运算的全新指令集落地 x86 架构，通过优化矩阵乘法实现更高能效与计算密度，大幅降低 CPU 本地运行 AI 模型的门槛。

日常 AI 推理大多依靠 GPU 完成，但轻量化模型、低延迟任务或是无独显设备，更适合直接在 CPU 运行，但传统 AVX10 向量指令并非为矩阵运算打造，执行 AI 核心矩阵乘法时功耗高、效率偏低。

ACE 基于现有 AVX10 寄存器拓展，新增专用硬件单元处理矩阵计算，无需重新设计底层架构，厂商适配成本更低。

官方数据显示，同等输入向量规模下，ACE 计算密度是 AVX10 的 16 倍，单条指令可完成更多计算，减少指令调度开销，内存带宽利用率同步提升，同时功耗控制更出色，不过 16 倍计算密度不代表直接 16 倍提速，最终性能取决于两家处理器后续硬件设计。

该指令集跨厂商通用，开发者仅需编写一套代码，就能适配 Intel、AMD 全系支持 ACE 的 CPU，不用针对不同 AVX 版本做多套适配，PyTorch、TensorFlow 等主流 AI 框架均可无缝兼容，数据格式覆盖 INT8、FP8、BF16 等 AI 常用类型，还原生支持 OCP MX 块缩放格式，填补 AVX10 的功能空白。

对于开发者而言，部分临时 NPU 算力需求可转移至 CPU 处理，无需适配各家规格不一的 NPU 硬件，未来新一代 x86 处理器将搭载 ACE 扩展，笔记本、台式机、服务器无需依赖独显，就能流畅运行各类本地 AI 任务，进一步拓宽端侧 AI 落地场景。

宙世代

一起剪

相关标签