安谋科技的第六代NPU IP，为什么是通用NPU IP？

近日，安谋科技（Arm China）发布了全新的中高算力 NPU" 周易 "X3，作为安谋科技自研的第六代 NPU IP，" 周易 "X3 一个很显著的特点是采用了专为大模型而生的最新 DSP+DSA 架构，即通用 NPU（GPNPU）架构，旨在兼顾 AI 加速器对性能与通用性的需求。

从初代 " 周易 "Z1 NPU 到第五代 " 周易 "X3 NPU，产品迭代大幅提升了性能、计算效率，也进行了架构的演进。" 周易 "NPU X3 针对 Transformer 及当下主流大模型进行了架构升级，成为一款单 Cluster 支持 8-80 FP8 TFLOPS 算力且可灵活配置、单 Core 带宽高达 256GB/s 的新一代边端侧 AI NPU IP 产品。

" 周易 "X3 NPU 的推出，一方面体现 AI 技术日新月异，展现安谋科技始终站在边缘和端侧 AI 的最前沿不断更新迭代。另一方面，也代表着 AI 加速器的竞争正处于 " 混乱 " 阶段，CPU、GPU、NPU 都在大幅提升其 AI 性能。

安谋科技 Arm China NPU 产品线负责人兼首席架构师舒浩博士对雷峰网表示，"AI 计算架构现在处于‘混乱发展期，大家在从不同维度探索，最终一定会收敛到一个相对最优的解决方案，这是任何技术发展都必经的过程。当下是一个‘百花齐放、百家争鸣’的时代。安谋科技会站在技术演进的潮头不断创新、持续演进，当好中国智能计算的生态领航者。"

为什么定义 8-80 FP8 TFLOPS 的 NPU 算力？

在芯片定义的早期，最关键也是最难的问题是到底要定义一款多大算力的芯片。" 面对这一问题，我们首先要思考两点：第一，我们要瞄准哪些领域和应用场景？第二，这些场景下产品对于 NPU 的系统约束是什么？"舒浩说，" 针对边端侧的主流场景和产品形态，我们进行了系统的分析和调研，定义了 8-80 FP8 TFLOPS 的产品算力规格。进而，针对不同领域和场景的需求，我们规划了灵活可配的产品特性，可以灵活、快速地适配不同场景对于 NPU 算力的差异化需求。此外，针对当下主流大模型对于 FP8 数据格式的需求，我们也及时进行了算力规格的支持。"

可以看到，" 周易 "X3 NPU 聚焦基础设施、智能汽车、移动终端、智能物联网四大核心领域，定义了 8-80 FP8 TFLOPS 的 AI 算力，可应用于加速卡、智能座舱、ADAS、具身智能、AI PC、AI 手机、智能网关、智能 IPC 等 AI 设备。

全新的 " 周易 "X3 NPU，相较于前代 " 周易 "X2，CNN 模型性能提升 30%~50%，多核算力线性度达到 70%~80%。在同算力规格下，AIGC 大模型能力提升 10 倍，这得益于 16 倍的 FP16 TFLOPS、4 倍的计算核心带宽，以及超 10 倍的 Softmax 和 LayerNorm 性能提升共同驱动。

安谋科技产品战略总监张冰表示，" ‘周易’ X3 的 8-80 FP8 TFLOPS 的算力在边端侧是面向中大 AI 算力场景，和 Arm 的 Ethos 的小算力形成了互补，Arm+Arm China 的产品组合可以覆盖整个边端侧的 AI 算力需求。"

为什么是 DSP+DSA 的通用 NPU 架构？

明确了芯片面向的场景以及所需的算力之后，下一步我们需要确定这些领域所需的 AI 算法和网络。通过系统地分析 AI 算法和网络的成熟度、发展状态以及在不同领域中的应用状态，这样我们就可以进一步确定合适的技术路线。" 周易 "X3 NPU 选择的是 DSP+DSA 的架构，这使得 " 周易 "X3 可以同时满足传统 CNN 模型，以及最新的 Transformer 模型的需求，在计算效率、互连带宽、精度适配、任务调度四大维度实现升级。

不过在数据类型的支持上，这款通用 NPU 呈现出一种看似 " 矛盾 " 的特性：一方面积极采用低比特量化以节省资源，另一方面又不吝资源地支持高精度的浮点数据格式。

" 周易 "X3 NPU 新增端侧大模型运行必备的 W4A8/W4A16 计算加速模式，新的计算加速模式对模型权重进行低比特量化，大幅降低带宽消耗，支持云端大模型向端侧的高效迁移。

而与此同时，" 周易 "X3 NPU 支持全面的矩阵计算数据格式：int4/int8/int16/ fp4/fp8/fp16/bf16 以及混合精度计算，增强了浮点运算 FLOPS，可以实现从定点到浮点计算的转换和兼容，同时满足了传统模型和大模型的计算需求。

对于端边侧的 NPU 来说，资源有限的情况下，业界在努力探索通过量化的方式在端侧实现更好的 AI 体验，" 周易 "X3 NPU 为什么强调浮点数据格式的支持？

舒浩解释道：" 对于传统模型来说，模型的能力已经满足了实际需求，这个时候大家的关注点会集中在模型效率和硬件计算效率上。针对这一类型的模型，业界会花更多的精力在量化等相关技术上，同时硬件层面也只要支持整形计算就可以满足模型的要求，进而获取更好的计算效率。但是，在大模型时代，目前整形数据格式还不能比较好地满足模型对精度的要求，业界的趋势是使用低精度的浮点数据格式和混合精度计算来做一个精度和效率之间权衡。同时，大模型网络仍在快速发展和不断演进之中，这个时候如何能够更快速地进行网络适配和端侧部署是更为重要的一件事。因此，" 周易 " X3 NPU 着重强调了对浮点数据格式以及混合精度计算的支持，其中包括了 Deepseek 率先使用的 fp8 数据格式。"

他补充道，" 另外，针对大模型算法，单从技术上来讲，我觉得现在业界没有一个足够高效和强大的网络满足应用的需求。无论是模型还是量化算法都还有很多的不确定性。在这个过渡期，量化数据格式并不知道最终会收敛于浮点还是定点，所以各种手段都要上，‘周易’ X3 就同时支持定点和浮点。"

支持浮点还有一个显著的优势，通过剪枝、蒸馏、量化等一系列方式进行模型等轻量化，在端侧部署时，会面临模型精度下降带来的体验下降，浮点计算能带来更高精度。

从系统层面上来说，这涉及到从模型、轻量化到硬件多个层面的复杂问题，" 周易 " X3 NPU 的策略是提供相对全面的全栈优化能力，将更多的优化空间留给客户。

舒浩也指出，" 如果客户是传统领域，不需要全部的浮点类型，或者有的客户只需要浮点计算，‘周易’ X3 NPU 都可以灵活配置，针对不同领域配置出相对最优的 NPU 方案。"

同时支持更低比特的量化和浮点计算正是 DSP+DSA 架构的通用 NPU 的优势。舒浩博士分享，在计算架构的演进上， " 周易 " X3 NPU 还将继续沿着混合架构这个方向前进，在 NPU 中吸纳更多 CPU 和 GPU 的思想，让 AI 的应用可以更高效地运行在 NPU 上，最终衍生出真正面向 AI 的 NPU 计算架构。

" 但这并不意味着 NPU 会替代 CPU，CPU 可以和 NPU 异构计算，承担更复杂的任务和功能。" 舒浩强调。

除了 DSP+DSA 的架构，" 周易 "X3 NPU 在架构层面还有其他创新，包括集成自研解压硬件 WDC，这使大模型 Weight 软件无损压缩后通过硬件解压能获得额外 15%~20% 等效带宽提升。

还有，" 周易 "X3 NPU 集成 AI 专属硬件引擎 AIFF（AI Fixed-Function）与专用硬化调度器，能够实现超低至 0.5% 的 CPU 负载与低调度延迟，灵活支持端侧多任务场景和任意优先级调度场景，确保高优先级任务的即时响应。

借助新特性，" 周易 "X3 NPU 让大模型的推理更加高效，在 Llama2 7B 大模型实测中，" 周易 "X3 NPU 在 Prefill 阶段算力利用率高达 72%，并在安谋科技自研的解压硬件 WDC 的加持下，实现 Decode 阶段有效带宽利用率超 100%，远超行业平均水平，满足大模型解码阶段的高吞吐需求。

为什么提供完备的软件平台？

" 周易 "X3 NPU 计算效率的大幅提升和新特性的实现，离不开软硬件充分协同。

安谋科技 Arm China 产品总监鲍敏祺指出：" ‘周易’ X3 NPU 遵循‘软硬协同、全周期服务与成就客户’的产品准则，提供从硬件、软件到售后服务的全链路支持。"

与 " 周易 "X3 NPU 配套的软件平台是 " 周易 "Compass AI，这一完备的软件平台提供覆盖开发全流程的工具链，平台中的 NN Compiler（神经网络编译器）集成 Parser（模型解析）、Optimizer（优化器）、GBuilder（生成器）及 AIPULLM（大模型运行工具），可实现主流模型的高效转化、自动化优化与部署配置生成，并且具备五大核心能力，包括：

广泛的框架与模型支持：支持超 160 种算子与 270 种模型，兼容 TensorFlow、ONNX、PyTorch、Hugging Face 等主流 AI 框架，提供开箱即用的 Model Zoo。

创新的 Hugging Face 模型 " 一键部署 "：通过 AIPULLM 工具链，直接支持 Hugging Face 格式模型，实现 " 一站式 " 转化与部署，极大降低开发门槛。

先进的模型推理优化：实现业界领先的大模型动态 shape 支持，高效处理任意长度输入序列；同时提供包括 Tensor/Channel/Token Level 多样量化方式，以及 GPTQ 等大模型主流量化方案，并增加对 LLM/VLM/VLA 及 MoE 等模型的高性能支持，保障推理精度并实现云到端快速迁移。

灵活的开发者赋能：提供多种开放接口，支持用户模型与自定义算子的开发与调试；配备丰富的调试工具与 Bit 精度软件仿真平台，支持多层次白盒开发与性能调优，极大简化算法移植与部署。

全面的系统与异构兼容：支持 Android、Linux、RTOS、QNX 等多种操作系统，并通过 TVM/ONNX 实现 SoC 异构计算，高效调度 CPU、GPU、NPU 等计算资源。

作为 IP 提供商，安谋科技为何要提供完备的软件平台？舒浩表示：" 边端侧 AI 落地过程中，客户需要投入大量的人力、物力进行模型适配、调优和部署。如果没有完备软件平台的支持，这会极大地增加客户业务落地的难度和工作量。‘周易’ X3 NPU 提供了完备的软件栈支持和丰富的工具，可以有效帮助客户加速 AI 业务的端侧部署工作。‘周易’ X3 Compass 端到端软件平台正是我们作为 AI 智能计算领航者一个很好的体现。作为一个开放的 AI 软件生态，‘周易’ X3 Compass 软件平台可以帮助客户降低工作量，提升开发效率，在此基础上我们也开放了很多的软件接口，客户可以构建其差异化的 AI 系统解决方案，进而构建差异化的产品竞争力。"

这是否意味着对于使用 " 周易 "X3 NPU 开发芯片产品的芯片公司来说，甚至不用在软件栈方面投入就可以给开发者使用？

舒浩解释，如果是与 AI 强相关的软件栈及标准模型，基本上客户不需再投入，使用 " 周易 " X3 Compass 软件栈就可以完成模型适配、调优等各种工作。" 我们的目标就是避免客户对于这些组件的重复投入与开发。同时，这种情况下我们也不建议客户进行额外的投入：因为 NPU 的软硬件耦合非常紧密，只在软件层面投入研发，在对硬件没有足够的了解的情况下，很难获取系统性有效的提升，这种投入可能是一个‘灾难’。"

" 另一方面，我们的‘周易’ X3 Compass AI 软件平台在 runtime（运行时）层面提供了更多的自定义接口，包括：自定义算子接口、自定义图优化接口、NPU 驱动接口等，使用这些接口客户可以根据 SoC 架构和软件系统构建适合于自己的 NPU 软件方案。" 舒浩补充道。

由此可见，" 周易 "Compass AI 软件平台完备的组件和工具，既可以满足开发者白盒部署需求，支持更易用的 DSL 算子编程语言，开发者也可以在深度开发模式下，使用平台中的 Compiler、Debugge 和 DSL 语言开发自定义算子，也可通过 Parser、Optimizer 等工具打造专属的模型编译器，极大提升开发效率。

一个能充分体现 " 周易 "X3 NPU 卓越硬件融合的例证是前面提到的 AIFF 模块软硬件设计中，硬件端充分结合软件使用场景，通过增大总线带宽、增加数据流水线并行及复杂算子加速等方式提升数据搬运、数据并行效率，软件端则针对硬件特性设计专属使用模式，如对模型进行合理切分以充分发挥多核并行优势。

All in AI 战略，安谋科技保持 AI 领导力

" 周易 "X3 NPU 是安谋科技 Arm China"All in AI" 产品战略下诞生的首款重磅产品，也是 "AI Arm CHINA" 战略发展方向的关键实践。

在这一战略之下，安谋科技会大力投入 NPU IP，保持业界领先地位，并以开放合作的态度积极适配主流模型和 OS，致力于为客户提供涵盖硬件、软件、技术服务的完整解决方案。

其实从过去五代 " 周易 "NPU 就能看出其领先性，接下来安谋科技的团队还会关注 PD 分离在端侧的衍生应用，存算一体以及 3D IC 等前沿半导体技术，保持在 AI 方面的持续投入和领先地位。雷峰网

宙世代

一起剪