智东西 04-15
Arm推出新一代AI加速器,性能提升4倍,还有全新物联网参考设计平台
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

芯东西(公众号:aichip001)

作者 |   ZeR0

编辑 |   漠影

芯东西 4 月 15 日报道,国际半导体设计与软件平台公司 Arm 于 4 月 9 日宣布推出其迄今性能最高且能效最佳的 Ethos NPU 产品—— Arm   Ethos-U85 神经网络处理器(NPU),以及全新物联网参考设计平台 Arm Corstone-320。

Arm Ethos-U85 NPU 性能提升 4 倍,可为边缘侧和端侧设备上采用 Transformer 架构的现有和未来工作负载提供支持,适用于工厂自动化和商用或智能家居摄像头等高性能边缘 AI 应用。

Corstone-320 集成了前沿的嵌入式 IP 和虚拟硬件,可加速语音、音频和视觉系统的部署,例如实时图像分类和目标识别,或在智能音箱上启用具有自然语言翻译功能的语音助手。

Arm 物联网事业部业务拓展副总裁马健(Chloe Ma)在技术媒体沟通会上分享说,两款新品满足了边缘 AI 用例对更高性能计算的需求,为最新的 AI 模型、框架提供了原生支持,并沿用 Arm 软件与 AI 开发者已经熟知的工具链,具有投资复用、上手容易等优势。

目前,全球约有 90% 的 AI 都运行在基于 Arm 架构的 CPU 上,这些持续投入使 Arm 成为全球最普遍的 AI 计算平台之一。

随着边缘 AI 的持续扩展,物联网生态链上下游的芯片与系统供应商、算法软件开发者与集成商们越来越汇聚于 Arm 计算平台。在马健看来,只有 Arm 计算平台才能提供 AI 从云到端、现代敏捷开发和部署流程中所需的特性和功能,实现基于量产验证的一致架构,并采用统一工具链的 AI 转型。

一、Ethos-U85 NPU:提供高能效边缘推理能力,性能提升 4 倍

Arm Ethos-U85 NPU 是 Arm Ethos-U 产品线中第三代面向边缘 AI 的 NPU 产品,也是迄今为止性能和能效最强的 Ethos NPU。

与上一代产品相比,Ethos-U85 性能提升 4 倍,能效提高 20%,可在主流网络上实现高达 85% 的利用率,专为搭配基于 Cortex-M 或 Cortex-A 的系统一同运行而设计,并容忍高 DRAM 延迟。

Ethos-U85 内部 SRAM 为 29~267KB,多达 6 个 128 位 AXI5 接口。该 NPU 单周期支持从 128 到 2048 个 MAC 单元的配置,在 1GHz 时,算力可支持从 256GOPS 到 4TOPS。

它支持元素级算子链化。通过链化将元素级运算与先前的运算相结合,使 SRAM 不必先写入再读取中间张量,由此可凭借 NPU 和内存之间数据传输量的减少,提高 NPU 的效率。

相比于 Ethos-U65,链化是 Ethos-U85 在效率提升上的新功能之一,其他还有快速的权重编码器、优化的 MAC 阵列能效、提升的元素效率。

精度方面,它支持 int8 权重和 int8 或 int16 激活,硬件原生支持 2/4 稀疏性,使吞吐量翻倍。

Ethos-U85 支持与上一代 Ethos-U 系列产品相同的软件工具链 , 即使用 TFLmicro 运行时,以实现无缝的开发者体验,并支持 TensorFlow Lite 和 PyTorch 等 AI 框架,未来预计将支持面向边缘设备的 PyTorch 运行时 ExecuTorch。

该 NPU 可用于与 Ethos-U55 和 Ethos-U65 相同的系统配置流程,并支持从基于 Cortex-A 的系统直接驱动 Ethos-U85 的功能。

除了 Ethos-U55 和 Ethos-U65 目前支持的算子,通过支持 TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR、ARGMAX 等运算,Ethos-U85 涵盖了对 Transformer 模型和 DeeplabV3 语义分割网络的原生硬件支持。

Ethos-U85 不仅提供卷积神经网络(CNN)所需的权重矩阵乘的运算,还支持 Transformer 架构网络的一个基本组成部分——矩阵相乘,有助于优化大模型边缘落地微调的时间、提升模型泛化。

在视觉和生成式 AI 用例中,Transformer 架构对于理解视频、填充图像的缺失部分或分析来自多个摄像头的数据以进行图像分类和目标检测等任务非常有效。

Ethos-U85 支持的算子将在 NPU 上进行加速,对于特殊算子不支持的情况,部分算子将调用 CMSIS-NN 库实现在 Cortex-M 系统上进行加速。如在 tinyLlama 的用例中,该模型算子可完全映射到 Ethos-U85,没有算子回退到 CPU。

迄今 Arm Ethos NPU 系列产品已有逾 20 家授权许可合作伙伴,Alif Semiconductor 和英飞凌是全新 Arm Ethos-U85 NPU 的早期采用者。

二、Corstone-320:全新物联网参考设计平台,加速语音、音频和视觉系统部署

Arm Corstone-320 物联网参考设计平台集成了 Arm 最高性能的 Cortex-M CPU —— Cortex-M85、Mali-C55 ISP 和全新 Ethos-U85 NPU,并提供软件、工具和支持,包括 Arm 虚拟硬件。

Mali-C55 集成了高分辨率图像处理能力(可支持 4800 万像素的图像分辨率)、能效、可配置性及高图像质量,适用于广泛的物联网视觉应用。

同时高度可配置的直接内存访问控制器 DMA-350 可实现高效的数据移动,从而提高系统性能和能效,并支持 Arm TrustZone 技术。

Cortex-M85 还集成了指针验证和分支目标识别 ( PACBTI ) 安全技术,可抵御返回导向编程 (ROP)和跳转导向编程 ( JOP ) 的安全漏洞攻击。

总的来说,Corstone-320 带来了以下优势:

1)提高性能和能效:通过提升计算吞吐量,为各种物联网设备和用例提供合适的算力;提高可持续性,以及延长电池续航时间。

2)改善内存带宽:对数据宽度和内存通道等内存带宽方面进行改善,从而为像素流提供全系统范围的互连带宽。

3)一系列电源模式:包括睡眠模式、待机模式和电源岛。

4)降低设计成本,并缩短工程时间:通过 " 开箱即用的 "Corstone-320,设计人员和工程师能够立即启动 SoC 设计。

5)更多的安全功能:包括启动时和运行时的安全机制,都集成至系统中。

6)可观察性:内置了所有组件的全面调试和跟踪功能。

7)改进的灵活性:设计针对不同的细分市场、设备和用例中进行定制。

8)一系列的软件支持:包括大量开源软件等一系列的软件支持,可降低总体成本和复杂性。

其软硬件结合特性将使开发者能够在物理芯片就绪前便启动软件开发工作,从而加速推进产品进程,为日益复杂的边缘 AI 设备缩短上市时间。

Corstone-320 套件还涵盖了技术参考手册、配置和渲染脚本以及验证报告,以便 ASIC 开发者能根据特定市场的需求构建 SoC,或在开始定制设计前使用此套件探索 Arm 的计算设计概念。

三、大模型落地边缘侧,有哪些趋势与挑战?

大模型和生成式 AI 正走向边缘和终端,通过量化、剪枝和聚类技术来缩减模型。大小模型云边端结合成为未来 AI 产品的重要发展趋势。

马健谈道,相较于此前的 AI 技术,大模型和生成式 AI 最大的优势是泛化能力及对多模态的支持,另外大模型和多模态的优势是微调时间,用较少的新样本进行模型的重新训练和微调,使这些模型很快适应之前没有看到过的新环境。

她期待未来通过大模型和多模态,物联网碎片化问题能得到更好的改进,AI 会从一个单一功能到多功能甚至是向通用 AI 演进,这样的演进方式也非常适合搭载 Arm 推出的通用处理器。

谈到在边缘部署大模型的挑战,马健主要提及三点:

第一,模型的成熟度。很多模型厂家聚焦在大模型的训练上,他们越来越多地开始关注边缘 AI,但这需要一个过程。边缘 AI 要通过模型量化与聚类等技术把大模型缩小,变成相对小的模型,才更适于在边缘设备上的部署。

第二,边缘 AI 平台的开发。过去很多边缘 AI 加速器只支持卷积神经网络 ( CNN ) ,而 Arm Ethos-U85 可实现对 Transformer 模型原生支持。

第三,整个生态链的支持,以及对大模型量化并在边缘部署的工具链的支持。

她谈道,Arm 已经为挑战物联网与大模型、多模态 AI 结合的性能与效率极限做好准备,边缘 AI 的广泛部署已趋向成熟,此次 Arm 全新推出的 Corstone-320 和 Ethos-U85 能够释放大模型和多模态 AI 在边缘部署的巨大潜力。

结语:Arm 正在 IP、参考设计和软件标准上持续投入

在带来机遇的同时,边缘 AI 带来了一些新的挑战,包括在计算能力与能效之间找到合适的平衡、保护数据安全和隐私、制定软件定义和适于软件移植的标准等等。

Arm 高级副总裁兼物联网事业部总经理 Paul Williamson 认为,随着边缘 AI 的部署规模持续扩大,芯片创新者必须应对日趋复杂的系统和软件、不断激增的 AI 性能需求,以及加速产品上市进程的压力。与此同时,软件开发者需要更加一致、简化的开发体验,并能更轻松地与新型的 AI 框架和库实现集成。

为了帮助整个边缘 AI 生态应对这些挑战,Arm 正在 IP、参考设计和软件标准上持续投入,尤其是在软件和工具链方面加强投资,与一系列软件算法与工具伙伴合作,以确保为边缘 AI 系统开发者提供其所需的工具和支持。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

arm ai 物联网 半导体
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论