生成式 AI 的浪潮,正从云端走向端侧,而端侧 AI 是生成式 AI 普及的关键。
然而,端侧设备普遍对功耗更为敏感,如何在提供足够 AI 性能的同时保证低功耗?
Arm 的妙招是将专用的矩阵加速单元直接嵌入 CPU。Arm 终端事业部产品管理副总裁 James McNiven 说," 它使端侧 AI 推理可以直接在 CPU 上完成,从而大幅减少数据在 CPU、NPU 或 GPU 之间的传输延迟。"
今年 9 月,Arm 发布了集成第二代 Arm 可伸缩矩阵扩展 ( SME2 ) 新技术的 Arm Lumex CSS 平台,相比前代 CPU AI 性能提升高达五倍,能效也优化了三倍。
在近日举行的 Arm Unlocked 2025 AI 技术峰会深圳站,Arm 终端事业部产品管理副总裁 James McNiven 进一步解析了 Arm 全新的 Lumex CSS 平台,集成了基于 Armv9.3 架构的 CPU 集群、搭载第二代可伸缩矩阵扩展 ( SME2 ) 技术的处理器、Mali G1-Ultra GPU、先进的系统 IP,以及针对 3 纳米工艺节点优化的量产级物理实现方案。
可以看到,Arm 全新平台的升级都是为了加速端侧 AI 的爆发。可以预见,凭借着 Arm 正在推进的 " 平台优先 " 战略,Arm 依旧会是生成式 AI 浪潮里,消费电子、汽车及基础设施等关键领域的领导者。
Arm 启用全新命名体系 Lumex,CPU 用「妙招」大幅提升 AI 性能
Arm 今年发布新一代产品不再延续此前的命名方式,而是启用了 Arm Lumex 的新命名方式。
"Lumex 源自拉丁语,意为世界之光,象征着引领人们前行,促进光与人之间更深层的互动,与移动终端作为我们生活中关键且主要的互动设备概念相似。"James McNiven 告诉雷峰网," 我们也广泛听取了包括来自中国市场的生态伙伴反馈,其中包括过往的命名方式确实较为复杂,产品迭代的辨识度不高。因此,我们希望通过此次更名,让品牌体系更加清晰易懂。"
James 强调,Arm Lumex CSS 平台再次实现了两位数的每时钟周期指令数 ( IPC ) 性能提升,这是 Arm 连续第六年实现两位数增长,意味着在相同功耗下可获得显著的性能提升。
与连续六年实现 IPC 两位数同样值得关注的是,在 CPU 中直接嵌入了专用的矩阵加速单元第二代可伸缩矩阵扩展 ( SME2 ) ,在进一步解析 SME2 之前,先介绍全新的 CPU。
新一代计算平台更名为 Lumex 之后,CPU 也不再延续此前 Cortex 的命名方式,而是采用更简明的 C1 命名体系。C1 CPU 集群均基于 Armv9.3 架构而设计,根据不同客户、市场需求有 Arm C1-Ultra、Arm C1-Premium、Arm C1-Pro、Arm C1-Nano 四个层级。
Arm C1-Ultra 能提供最高的旗舰级设备峰值性能,可实现最高 25% 的单线程性能提升;Arm C1-Premium 专为次旗舰市场打造,它的性能在接近 C1-Ultra 的同时,整体面积缩减约 35%。
" 当任一设备采用了 C1-Ultra 或者是 C1-Premium,该设备就可以被称为 Lumex 设备。"James 表示。
Arm C1-Pro 是新一代的 Cortex-A700 系列,Arm C1-Nano 是新一代的 Cortex-A500 系列。
虽然 Arm C1 CPU 的性能层级不同,但都深度集成了 SME2,这是专为加速矩阵运算和相关负载而设计,非常适合移动设备等对功耗和响应速度要求极高的场景。
相比 SME1,SME2 的性能提升达 5 倍,能效提升 3 倍,在低延迟、高实时性应用场景中展现出独特优势。
那为什么在 CPU 中增加矩阵加速是一个在端侧满足 AI 计算需求的 " 妙招 "?James 对雷峰网说," 首先,对延迟极为敏感的场景而言,在 CPU 内实现矩阵加速,可以显著提升应用的计算效率,特别是在快速 AI 推理场景中,无需再将任务回传至 NPU,避免了可能导致的内存访问延迟。其次,几乎所有设备都会搭载 CPU,且 Arm CPU 被广泛采用在绝大多数的移动设备上,这为开发者带来了极大的便利性。他们无需针对不同的 NPU 架构进行适配,也无需为不同设备重新设计计算逻辑(因为某些终端甚至并不具备 NPU),更可免除考虑安全模型等其他因素。"
当然,为 CPU 增加矩阵加速的能力大幅提升其 AI 性能,目的并非要替代 GPU 或者 NPU 在处理 AI 负载时的作用,而是可以根据负载的类型选择最合适的计算单元,为用户提供最佳的 AI 体验。
语音识别就非常适合使用 SME2 进行加速,这类任务对响应速度要求极高、数据量相对较小,在 CPU 上直接执行不仅能显著提升流畅度。
目前,Arm 已经与包括支付宝、淘宝等移动应用伙伴合作,基于 SME2 的集成,优化用户体验。vivo 与 OPPO 也推出支持 SME2 的设备。Arm 也与腾讯 GiiNEX 针对 SME2 展开游戏方面的合作。腾讯的初步测试结果显示,启用 SME2 后性能提升达 2.5 倍。Google 也确认未来将在 Android 系统版本中支持 SME2。
不过,为 CPU 增加矩阵加速能力并非 Arm 独有的妙招,RISC-V 也在采用这样的方式满足生成式 AI 的需求,那 Arm 的优势是什么?
James 表示,"Arm 的最大优势在于,我们的 CPU 架构已应用于全球约 99% 的智能手机之中。对于开发人员来说非常容易统一目标,直接可以部署。"
GPU 性能双位数提升,神经技术明年商用
与 CPU 性能持续两位数提升一样,Arm 的 GPU 也已经连续四年实现了双位数的性能与能效提升。与 C1 GPU 命名体系对应,Arm GPU 的命名为 "Mali G1"。
Mali G1-Ultra 是旗舰级 GPU,能够在更低功耗下完成包括照片、视频在内的大多数推理任务。在各类图形基准测试中,Mali G1-Ultra 较前代产品实现了 20% 的性能提升,并引入第二代光线追踪单元,在跨平台光线追踪性能测试 Solar Bay Extreme 上,Arm 最新的光线追踪单元将实现两倍性能提升。
Arm 将光线追踪性能实现两倍提升的最终目标,是能够在游戏中实现更加全面、自然的光照效果——从局部光照逐步迈向全场景光照。这将为游戏团队带来更大的创作空间,使他们能够在同一款游戏中整合更多的光线追踪组件,从而实现更高质量、更具沉浸感的照明表现。
在 GPU 层面更值得期待的是 Arm 在今年 8 月发布的 " 神经技术 ",这一新技术将被用于明年面世的终端设备。
James 介绍,神经技术是 Arm 未来的重要发展方向。这项技术能帮助开发者更充分地将 AI 能力应用于图形处理,无论是图像放大、去噪还是新内容生成,都将带来更加真实与沉浸的视觉体验。目前,已有多个开发者社区和游戏工作室在与 Arm 共同推进这一方向。
当然,Arm 面向 Vulkan 的开放 Arm ML 扩展能让开发者更轻易地将 AI 作为图形管线的原生部分整合到移动端渲染。
加速端侧 AI 爆发的关键——开发者友好
Arm 全新的 Lumex CSS 平台在 CPU 与 GPU 层面都实现了两位数性能提升,也带来了显著的 AI 性能增强。
要让这些性能被充分释放,开发者友好的生态至关重要,Arm 对此投入巨大。
" 为了让开发者更好地发挥 SME2 的潜能,自去年起,我们在 KleidiAI 软件库的基础上,进一步扩大其功能范围。KleidiAI 专为加速 AI 应用而设计,已与业界主流的 AI 框架实现深度集成。这意味着无论是旧架构还是最新支持 SME2 的架构,开发者都能获得一致的性能加速体验。"James 表示。
面向 GPU,Arm 推出了全球首个全面开放的神经图形开发套件,旨在将 AI 渲染集成到现有的工作流程中,使得开发者能够在硬件面世前一年就能着手进行开发。这一开发套件在今年八月的发布时就已得到六家主要游戏工作室的支持,最近又有一家新的游戏工作室完成了集成测试。
除了更好的性能和开发者友好的生态,端侧 AI 的爆发也面临其它技术挑战。James 认为,在系统级 IT 设计中,必须确保 CPU 与 GPU 之间,以及它们与存储系统之间的高效互连。优化数据互连以实现更高效的数据流,是当前面临的主要挑战之一。Arm 通过优化互连架构,进一步降低数据传输过程中的延迟,实现更快速的内部内存访问。
另一个突出的挑战在于,AI 应用几乎每隔数月甚至是数周就会出现新的应用形态,涉及不同的数据类型、运算符与指令集。Arm 新推出的 C1 CPU 提供了高度灵活的计算引擎,可以生成并执行几乎任意类型的运算符,处理各种类型的数据。
另外,和所有 AI 参与者一样,Arm 也要面对各种不同的场景。Arm 的策略是通过微架构来实现不同细分市场的差异化需求。比如 Arm C1 CPU 的四个层级的产品,既能为客户提供丰富的选择,也能让他们更方便地为目标市场 " 定制 " 适配方案。
在消费电子领域之外,Arm 还有面向汽车行业的 Arm Zena CSS 计算平台、面向基础设施的 Arm Neoverse CSS 计算平台,还有即将发布的面向 PC 市场的 Arm Niva 平台。
Arm 正通过从云端到边缘再到端侧的全线计算平台,加速生成式 AI 的普及。


登录后才可以发布评论哦
打开小程序可以发布评论哦