
据 Tom's hardware 报道,处理器大厂英特尔与 AMD 于当地时间 6 月 20 日公布 x86 构架下的 ACE(AI Compute Extensions)规范,为 CPU 端的 AI 与机器学习运算建立更统一的技术基础。
报道称,这份由英特尔与 AMD 共同公布的的规范,重点锁定矩阵乘法与低精度数据格式处理,目标是在不完全依赖 GPU 的情况下,让 x86 处理器更有效率地执行 AI 工作负载。
ACE 的设计是在既有 AVX10 向量架构上,加入专门用于矩阵乘法的硬件单元及相关数据搬移、处理机制,使矩阵运算不再仅依赖通用向量指令‘绕路’完成。相比传统做法,ACE 能以更贴近矩阵数据流的方式处理乘加运算;在相同输入向量数量下,ACE 在理论上可比 AVX10 提供多达 16 倍的运算量(但实际加速效果仍取决于各厂商的具体硬件实现),同时降低指令开销与内存带宽压力。
这项规范也着眼于软件生态的统一性。由于 ACE 被设计为与硬件实现无关,PyTorch、TensorFlow 等框架有望用更一致的程序路径来支持不同的 x86 平台,而无需再针对各家 CPU 不同的 AVX 指令集支持程度,分别维护多套实现代码。ACE 原生支持多种机器学习常用的数据型态(包括 INT8、INT32、FP8、FP16、FP32、BF16),并原生支持 Open Compute Project 的 MX 内存块缩放(block-scaled)格式。开发者也能在部分需要即时反应的 AI 工作中,将原本常交由 NPU 处理的工作复原至 CPU 上执行,进而受益于 x86 上更一致的目标指令集。
随着 ACE 规范与相关产品逐步成熟,x86 平台在 AI PC 与服务器上的角色,可能不再只是配置运算,而是开始提供更具一致性的 CPU 端 AI 加速能力。
编辑:芯智讯 - 林子


登录后才可以发布评论哦
打开小程序可以发布评论哦