雷锋网 04-10
Arm全新NPU性能提升4倍,支持Transformer,边缘生成式AI时代指日可待
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

生成式 AI 在经历了火热的百模大战之后,开始进入落地阶段。

以工业机器视觉、可穿戴设备和消费者机器人为代表的边缘应用,无疑是生成式 AI 落地的重要场景。

本周,Arm 宣布推出了性能相比前代提升 4 倍的 Arm Ethos-U85 神经网络处理器 ( NPU ) ,这是一款硬件支持 Transformer 架构和卷积神经网络 ( CNN ) 的 AI 加速器,能够以高能效实现边缘侧 AI 推理。

Arm 物联网事业部业务拓展副总裁马健表示,"生态系统中的开发者在树莓派设备上评估运行包括 LLaMA 等在内的大模型。边缘部署大模型和生成式 AI 用例指日可待,Arm 已经为此做好准备。"

全新 NPU 原生支持 Transformer  

Ethos-U NPU 系列是 Arm 推出的 AI 微加速器,主要是满足边缘边缘 AI 和嵌入式 AI 的市场需求,此前已经发布了 Ethos-U55、Ethos-U65,并且已经有多个量产产品。

本周最新发布的 Ethos-U85,与上一代产品相比,Ethos-U85 性能提升 4 倍,同时能效提高了 20%,可以满足工厂自动化和商用或智能家居摄像头等物联网应用不断攀升的性能需求。

Ethos-U85 的主要特性包括:

单周期支持从 128 到 2048 个 MAC 单元的配置——在 1GHz 时,算力可支持从 256 GOPS 到 4 TOPS。

支持 int8 权重和 int8 或 int16 激活。

支持 Transformer 架构网络,以及 CNN 和 RNN。

硬件原生支持 2/4 稀疏性,使吞吐量翻倍。

内部 SRAM 为 29 至 267 KB,多达六个 128 位 AXI5 接口。

支持权重压缩,采用标准和快速权重编码器。

支持扩展压缩。

对于 Arm 来说,设计出一款高性能的产品难度不大,关键在于产品的定义,Ethos-U85 相比此前同系列产品一个明显的不同是支持 Transformer 模型。

具体实现上,Ethos-U85 除了支持 Ethos-U55 和 Ethos-U65 目前支持的算子,通过支持 TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR 和 ARGMAX 等运算,Ethos-U85 实现了对 Transformer 模型和 DeeplabV3 语义分割网络的原生硬件支持。

更高的性能往往意味着更高功耗,为了兼顾性能和能效,更好满足边缘和端侧 AI 应用的需求,Ethos-U85 通过支持元素级算子链化提升效率。

通过链化将元素级运算与先前的运算相结合,SRAM 不必先写入再读取中间张量。由此减少 NPU 和内存之间数据传输量,提高 NPU 的效率。

相比 Ethos-U65,链化是 Ethos-U85 在效率提升上的新功能之一,此外还有快速的权重编码器、优化的 MAC 阵列能效,以及提升的元素效率。

参考设计加速边缘生成式 AI 落地

目前,Arm Ethos NPU 系列产品已有逾 20 家授权许可合作伙伴,Alif Semiconductor 和英飞凌是全新 Arm Ethos-U85 NPU 的早期采用者。

对于大量边缘设备的开发者来说,基于 Arm Ethos-U85 NPU 开发和设计产品依旧有比较高的开发门槛。

降低 AI 开发门槛最一个直接的方式就是提供参考设计。

与 Ethos-U85 同时推出的是 Arm Corstone-320 物联网参考设计平台。这一全新的参考设计平台集成了 Arm 最高性能的 Cortex-M CPU —— Cortex-M85、Mali-C55 ISP 和全新的 Ethos-U85 NPU。

除了 IP,Corstone-320 物联网参考设计平台还有软件套件,包括固件、所有 IP 的驱动程序、中间件、实时操作系统 ( RTOS ) 和云集成、ML 模型和参考应用程序。

有了配套的软件套件,软件开发者能够轻松选择其特定细分市场所需的组件,并使用所选开发工具为该设备构建物联网堆栈。开源应用程序演示了关键词识别、语音识别和目标识别用例。

还附带了仿真 Corstone-320 完整系统的 Arm 虚拟硬件 ( Arm Virtual Hardware ) ,以及单独的 CPU 和 NPU 的固定虚拟平台 ( FVP ) 模型,能简化开发并加速产品设计,支持软硬件并行协同开发。

"为了支持中国广大的物联网嵌入式开发者,我们将 Arm 虚拟硬件落地在了百度云上,正在实现与百度 BML 和 EasyDL 工具链的组合,使基于 Arm 技术的 AI 开发可以在百度飞桨 ( PaddlePaddle)上变得更加容易,且实现软硬件协同开发。" 马健说," 在基于 Arm 最新 IP 量产芯片就绪之前,就可以预先做软件应用的开发以及 AI/ML 算法的开发和优化。"

Arm 在软件和生态方面还有一个显著的优势,那就是 Arm 在数据中心、云、边、端都有统一的工具链支持,开发者可以使用已经熟知的工具链,具有投资复用、上手容易等优势。

Corstone-320 能够加速语音、音频和视觉系统,比如智能家居、智能零售、智能工业制造领域的 AI 落地。

即便 Corstone-320 中的 Cortex-M85 不满足边缘 AI 的需求,Arm 也支持从基于 Cortex-A 的系统直接驱动 Ethos-U85 的功能,大幅增加 Ethos-U85 的适用范围。 

如何应对碎片化和 RISC-V 挑战?

性能提升 4 倍的全新 NPU 和全新的参考设计平台,是 Arm 能够对外提供的能力。

但要在边缘市场落地生成式 AI,依旧面临着模型成熟度、边缘 AI 平台的开发,以及生态链对大模型量化和部署支持的问题。

还有不可避免的边缘市场碎片化的问题,以及 RISC-V 的竞争。

马健说,"Arm 始终聚焦软件生态标准以及硬件标准的投入,帮助整个生态减少碎片化。"

比如,Arm 建立了 SystemReady 标准,以实现在不同的 Arm 计算平台和芯片平台上,有标准的软件包。

另外,Arm 还创立了 PSA Certified 认证标准,让通过 PSA Certified 认证的产品和系统有最基本的安全和合规的保证。

AI 方面,Arm 提供标准的生态工具以及软件工具链。

" 期待未来通过大模型和多模态,物联网碎片化问题可以得到更好的改进。AI 会从单一功能到多功能,甚至是向通用 AI 的方向演进。" 马健也表示。

至于如何应对 RISC-V 在边缘 AI 市场的竞争?

马健对雷峰网说,"我们的战略一直非常简单,专注做好最优秀的产品,使产品更加易用,以及持续打造强大的生态系统。历史经验告诉我们,只要我们专注做好这三件事情,整个行业就能够以互相合作的方式来共同前进,我们会继续坚持这一策略,在 AI 甚至未来的其他市场上取得更大的成功。"

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

arm ai cnn 神经网络 物联网
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论