公众号记得加星标⭐️,第一时间看推送不会错过。
当前,AI 技术正从 " 云端集中式计算 " 加速向 " 端侧分布式部署 " 转型,移动终端已成为承载用户智能体验的核心载体。
随着 AI 终端元年正式开启,消费电子设备领域迎来从 " 功能叠加 " 到 " 智能重构 " 的深刻变革。无论是从实时响应的 AI 影像增强、本地运行的轻量化大模型,还是沉浸式移动游戏与多模态交互智能助手,用户对 " 低延迟、高流畅、长续航 " 的端侧 AI 需求日益迫切,端侧 AI 也已从附加功能跃升为定义产品竞争力的核心底座。
但行业快速发展的背后,端侧计算的核心矛盾愈发凸显:一方面,传统架构难以承载高密度 AI 任务,语音助手延迟、大模型推理和影像处理卡顿、游戏画质与续航失衡等体验痛点频发;另一方面,芯片设计复杂度飙升导致开发周期拉长,厂商在 " 性能兑现 " 与 " 快速上市 " 之间难以兼顾,这些都成为制约创新的关键瓶颈。尤其是进入到 AI 智能体新时代,不断扩大人工智能计算的应用边界,对效率和延迟提出更高要求。
而这些痛点在本周的一场 Arm 发布会上得到了最优解。Arm 宣布推出全新 Arm Lumex 计算子系统(CSS)平台,通过集成搭载第二代可伸缩矩阵扩展(SME2)技术的高性能 CPU、GPU 及系统 IP,精准破解端侧 AI 的性能瓶颈与开发困境,为消费电子设备 " 更智能、更高效、更个性化 " 的体验升级按下加速键。
Arm 高级副总裁兼终端事业部总经理
Chris Bergey
正如 Arm 高级副总裁兼终端事业部总经理 Chris Bergey 所言:"AI 已不再仅仅是一项技术功能,它已成为下一代移动与消费技术的支撑底座 ",Lumex CSS 平台的推出正是 Arm 顺应行业智能化浪潮、助力伙伴突破发展桎梏的关键布局,推动端侧 AI 真正从 " 可用 " 走向 " 好用 "。
Lumex CSS 平台:
为移动终端量身打造的端侧 AI 全栈方案
据介绍,Arm Lumex CSS 平台是一套专为旗舰级智能手机及下一代个人电脑打造的先进计算平台,核心目标是通过技术创新全面优化端侧 AI 性能,其核心组件包括:
新一代搭载 SME2 技术的 Armv9.3 CPU 集群:包括 Arm C1-Ultra 和 Arm C1-Pro,为旗舰设备提供支持;
Arm C1-Premium:专为次旗舰市场打造,可提供一流的面积效率;Arm C1-Nano:专注极致性能,聚焦可穿戴设备和超小型设备领域;
Arm Mali G1-Ultra GPU:配备新一代光线追踪技术,在实现先进的图形和游戏体验同时,还可提升整体 AI 性能;
Arm C1-DSU:Arm 迄今为止最灵活、高能效且具多种电源模式的 DynamIQ Shared Unit ( DSU ) ;
针对 3nm 工艺节点优化的物理实现;
跨软件栈的深度集成,为使用 KleidiAI 软件库的开发者提供无缝的 AI 加速体验。
Chris Bergey 强调,移动计算已步入 AI 定义的新时代,我们需要协同设计、优化的集成平台来来应对。从性能层面看,Lumex CSS 平台优势显著。
Arm C1 CPU 集群:集成 SME2 技术,
构建全层级端侧 AI 算力底座
作为 Arm Lumex CSS 平台的核心算力载体,全新 Arm C1 CPU 集群依托 Armv9.3 架构实现全方位突破,既延续了 Arm 在性能与能效上的优势,更通过 AI 原生设计为端侧智能注入新活力。
Arm 终端事业部产品管理总监 Ronan Naughton 在分享中指出,该 CPU 集群的核心亮点在于全系列 CPU 内置第二代可伸缩矩阵扩展(SME2)技术——从旗舰级 C1-Ultra 到能效型 C1-Nano,均能借助这一特性加速 AI 工作负载,实现端侧 AI 性能最高 5 倍提升、能效最高 3 倍优化,无论是实时语音识别、大语言模型交互,还是计算摄影,都能在低延迟、低功耗下流畅运行。
Arm 终端事业部产品管理总监
Ronan Naughton
据介绍,在性能梯度布局上,Arm C1 CPU 集群精准覆盖不同设备需求:C1-Ultra 作为 Arm 迄今性能最强的 CPU,单线程峰值性能较 Cortex-X925 提升 25%,成为旗舰设备支撑生成式 AI、高画质游戏等严苛场景的核心;C1-Premium 通过 35% 的面积优化,将旗舰级性能辐射至次旗舰市场;C1-Pro 针对功耗敏感场景优化,较 Cortex-A725 能效提升 12%,同时实现 16% 的持续性能提升,适配日常多任务处理;C1-Nano 的能效较 Cortex-A520 提升 26%,同时面积极小,成为可穿戴设备等资源受限场景的理想选择。
值得关注的是,配合全新 C1-DSU,整个集群还能实现最高 26% 的功耗降低,进一步延长设备续航。
基于上述技术创新,SME2 技术的价值已在实际场景中充分验证:语音类工作负载延迟降低 4.7 倍,经典大语言模型任务性能提升 4.7 倍,音频生成速度提升 2.8 倍。
同时,SME2 技术的价值不仅在于速度的提升,更在于释放出传统 CPU 无法企及的 AI 驱动功能。例如,在搭载 SME2 的单个核心上运行神经摄像头降噪功能,可以在 1080P 分辨率下实现帧率超 120fps,或在 4K 分辨率下实现帧率达 30fps。这使得智能手机用户即使身处光线最暗的场景,也能捕捉到更锐利、清晰的图像,进而在日常设备上获得更流畅的操作交互与更丰富的使用体验。
正如 Ronan Naughton 所强调的:"C1 CPU 集群的设计初衷,就是让 AI 性能贯穿所有产品层级,从旗舰手机到可穿戴设备,都能具备应对现代 AI 任务的算力底气。"
这种 " 全层级覆盖 +AI 原生优化 " 的设计,不仅让合作伙伴能灵活配置从旗舰到入门级设备的 CPU 方案,更通过 KleidiAI 与主流框架的无缝集成,让开发者无需额外适配即可激活 SME2 性能,真正实现 " 硬件创新 + 软件易用 " 的双重价值,为端侧 AI 的规模化落地提供坚实算力底座。
Mali G1-Ultra GPU:
双重突破,重塑移动端图形与 AI 体验
作为 Arm Lumex CSS 平台的核心图形与 AI 算力单元,全新 Arm Mali G1-Ultra GPU 凭借全维度技术突破,既实现桌面级手游体验落地,又为端侧 AI 提供强劲加速,重新定义移动 GPU 的性能与能效边界。
截至目前,搭载 Arm GPU 的芯片出货量已逾 120 亿颗;而 Mali G1-Ultra 的推出,更是 Arm 与生态伙伴持续合作的进阶成果。
Arm 终端事业部产品管理副总裁
James McNiven
据 Arm 终端事业部产品管理副总裁 James McNiven 介绍,在核心性能上,Mali G1-Ultra 相较前代 Immortalis-G925 实现多重突破:图形层面,依托第二代光线追踪单元(RTUv2),光线追踪性能提升两倍,启用硬件光追的游戏帧率提升 40%,主流图形基准测试性能提升 20%,能够为主流游戏带来桌面级光照、反射与阴影效果。
在 AI 层面,Mali G1-Ultra 通过新的 FP16 矩阵计算路径,AI 与机器学习网络推理速度提升 20%,同时能效优化 9%,显著增强实时应用响应速度。且 RTUv2 采用单光线模型、独立硬件单元设计,支持非一致性光线处理,空闲时可断电节能,平衡性能与续航。
此外,Mali G1-Ultra 还改进了内存、调度和开发者工具,使 Arm 生态系统能够在不牺牲功耗或效率的情况下,扩展视觉和智能性。
这种 " 游戏与 AI 双优 + 全层级覆盖 " 的设计,为合作伙伴打造差异化设备提供充足空间,推动移动终端向 " 更沉浸、更智能 " 方向迈进。
当下手游已占据全球游戏市场 83% 的用户份额,"Mali G1-Ultra 的设计初衷,就是让移动设备既能承载 AAA 级游戏的视觉张力,又能成为端侧 AI 的高效算力载体。" James McNiven 强调说。
软件生态:零门槛激活硬件性能,
加速端侧 AI 规模化落地
在硬件性能实现突破的基础上,Arm Lumex CSS 平台通过 " 硬件能力软件化、开发体验极简化 " 的软件生态设计,让 CPU 的 SME2、GPU 的图形与 AI 算力优势轻松落地,同时破解端侧 AI 开发的碎片化难题,为生态伙伴与用户创造双重价值。
James McNiven 强调,软件领域的核心支撑是 KleidiAI 软件库。作为连接硬件与开发者的 " 桥梁 ",KleidiAI 继承了 Arm 十余年来的 CPU 创新技术,已无缝集成至 PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN、微软 ONNX Runtime 等主流 AI 框架,覆盖安卓与 Windows Arm64 双系统。
这意味着开发者无需修改代码,依托现有框架开发即可自动调用 SME2 加速能力:例如在 ONNX Runtime 上实现最高 2.6 倍的 AI 推理提速,在 Stable Audio 音频生成模型上实现 2.8 倍的速度提升,真正做到 " 零适配成本,全场景性能增益 "。
正如 James McNiven 所言:" 开发者的首选是 CPU,因为它具备全场景可用性与灵活编程性,而 Arm 的软件创新,就是让 CPU 的 AI 性能追近 GPU,同时保留其易用性。"
从实际效果看,SME2 结合 KleidiAI 后,C1-Pro CPU 在小型 AI workloads(如 MobileNet v2 图像分类)上性能甚至超越 Mali G1-Ultra GPU,在大型网络中也大幅缩小与 GPU 的差距;同时,通过 libyuv 库集成 SME2 内核,图像处理性能提升 3 倍,进一步拓展了端侧 AI 的应用边界。
据悉,该平台还通过 " 预硅验证 + 全栈生态就绪 " 保障落地效率:设备上市首日即可通过预硅方案兑现 SME2 性能,配合自上而下的遥测功能,开发者能快速定位性能热点;目前谷歌上千款应用、微软 365 Copilot 等已完成适配,意味着用户拿到设备就能直接享受软件加速带来的流畅体验。
能够看到,这种 " 硬件 + 软件 + 生态 " 的协同模式,不仅降低端侧 AI 开发门槛,更推动 AI 体验从旗舰向中端设备规模化覆盖,助力移动计算真正迈入 "AI 优先 " 的软件生态新阶段。
Arm Lumex CSS,
引领移动计算迈入 "AI 优先 " 时代
面对端侧 AI 需求爆发与移动设备能效约束的双重挑战,Arm Lumex CSS 平台不是简单的 IP 模块组合,而是 Arm 为端侧 AI 时代量身打造的 " 全栈钥匙 ",通过硬件架构的深度革新与软件生态的无缝协同,构建了面向下一代智能终端的全栈解决方案,其核心价值体现在硬件性能突破与软件生态降本的深度协同。
" 更关键的是,平台具备从智能手机到平板、笔记本电脑的跨设备扩展性,更让这份技术的价值覆盖更广泛的终端场景,推动整个移动计算领域向 AI 优先的方向迈进。" James McNiven 强调。
SME2 无疑是本场发布会提及次数最多,同时也是 Arm Lumex 的 AI 技术筹码。Chris Bergey 指出,预计到 2030 年,SME 与 SME2 技术将为超 30 亿台设备新增超 100 亿 TOPS 计算能力,推动端侧 AI 性能实现指数级跃升。另一个在 GPU 的 AI 加码则是在 Mali G1-Ultra 引入新的矩阵乘法单元 FP16 指令,为端侧关键 AI 工作负载性能提速。
未来,Arm 将以 Lumex CSS 平台为核心,持续深化与全球生态伙伴的协作,凭借架构迭代、制程优化与生态赋能,帮助客户缩短研发周期、聚焦差异化创新,为移动计算产业的智能化升级注入持久动力。
技术的推新重在用户体验
在这场发布会上,不再是传统芯片设计厂商站台,取而代之的是 vivo 跟支付宝分享各自与 Arm 在赋能端侧 AI 的合作,更进一步显示 Arm Lumex 是直入用户需求所设计。vivo 高级副总裁、首席技术官施玉坚表示:" 作为业界首家与 Arm 成立联合实验室的终端品牌,目前 vivo 计算加速平台 VCAP 已全面支持 SME2 指令集,可对使用视觉、语音、文本 AI 算法进行处理的多项高负载任务,实现显著的性能加速。以典型的端侧任务为例,SME2 可帮助 vivo 在全局的离线翻译等真实场景中,实现额外 20% 的性能提升,突破过往最优方案上限。"
vivo 还透露,Arm 最新一代的高性能计算技术以及 SME2 等先进特性,将引入 vivo 即将发布的全新 X 系列旗舰产品上,推动 AI 移动体验更上一层楼。
支付宝终端技术负责人翁欣旦也表示:" 在 Arm、支付宝与 vivo 的三方密切协作下,支付宝已在 vivo 新一代旗舰智能手机上完成了基于 Arm SME2 技术的大语言模型推理验证,在预填充 ( prefill ) 与解码 ( decode ) 阶段的性能分别超 40% 和 25% 的提升,这一成果标志着 CPU 后端能力的重大突破。"
此外,对于中国 OEM 厂商与应用开发者而言,AI 性能的兑现往往受限于 " 框架适配难、优化成本高 " 等,若要激活硬件的 AI 算力,需针对不同芯片、不同框架进行大量代码修改。对此,Arm Lumex 的 KleidiAI 软件库彻底解决了这一问题:它已深度集成至阿里巴巴 MNN、谷歌 LiteRT、微软 ONNX Runtime 等市场主流的 AI 框架,开发者无需修改代码即可激活 SME2 技术的加速能力。可见,Arm 在软件生态的突破也成为助力合作伙伴打造差异化竞争力的关键。
整体来看,这种 " 硬件创新 + 软件降本 + 生态协同 " 的模式,既降低了 OEM 厂商的自研门槛,让其将资源集中于系统生态与用户体验创新。
Arm Lumex CSS 平台对移动终端产业的影响力,早已超越单一产品层面,正在推动整个产业链的价值重构,未来更将以持续的技术突破重塑移动计算的竞争格局,致力于为产业链从 " 规模扩张 " 向 " 体验引领 " 转型持续注入核心驱动力。
结语
根据弗若斯特沙利文数据预测,全球端侧 AI 市场规模预计将从 2025 年的 3219 亿元增长至 2029 年的 12,230 亿元,复合年增长率高达 39.6%。
在这场从 " 云端集中 " 到 " 端侧分布 " 的 AI 浪潮中,Arm 全新 Lumex CSS 平台的发布,不仅是一次技术升级,更标志着其从传统 IP 供应商向 " 全栈解决方案 " 提供商的再一次跨越。值得注意的是,Arm 提供合作伙伴灵活选择使用 Lumex 的方式,他们可直接采用 Arm 交付的平台,并借助为其需求定制的先进物理实现方案,从而获得缩短产品上市时间和快速兑现性能价值等双重优势;或者,合作伙伴也可根据他们的目标市场,选用 RTL 形式进行设计配置,并自行完成核心模块的硬化工作。
话说回来,这份转型的核心,是 Arm 精准捕捉到行业痛点与深层需求:通过 SME2 技术为 C1 CPU 集群注入 5 倍 AI 性能,以 Mali G1-Ultra GPU 实现 " 桌面级游戏 + 高效 AI" 双突破,再借 KleidiAI 软件库打通 " 零代码适配 " 的最后一公里,Lumex CSS 平台不仅破解了端侧计算 " 性能与能效难平衡、开发与上市难兼顾 " 的核心矛盾,更构建起 " 硬件革新 - 软件降本 - 生态协同 " 的完整价值闭环。
在 AI 重塑一切的时代,Arm 正以 Lumex CSS 为支点,一边为客户搭建 " 低门槛、高回报 " 的创新舞台,一边推动整个移动产业从 " 规模扩张 " 向 " 体验引领 " 转型。未来,随着架构迭代与生态协同的持续深化,Arm 必将在端侧 AI 的浪潮中释放更大能量,成为全球智能终端产业升级的核心驱动力,真正实现 " 让 AI 体验惠及每一台设备、每一位用户 " 的愿景。
* 免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
登录后才可以发布评论哦
打开小程序可以发布评论哦