边缘AI浪潮来袭，NPU、GPU、FPGA 架构卡位战打响

2025 年以来，生成式 AI 的一个主要趋势便是向边缘侧快速渗透，AI 手机、AI PC、AI 眼镜、AIoT 等应用的热度不断提升，乃至有人将 2025 年定义为边缘生成式 AI 的应用元年。然而，在边缘侧潜力被不断挖掘的同时，网络延迟、数据安全以及隐私保护等问题也逐渐凸显。这需要不断推进硬软件技术的进步，以满足 AI 模型市场新的需求。在此情况下，一场围绕边缘 AI 处理器的架构卡位战悄然打响。

2025，边缘 AI 将成行业新宠

生成式 AI 的快速发展为诸多行业带来新的机遇，当下有众多企业加速布局边缘 AI。据调研机构 Gartner 预测，到 2026 年 80% 的全球企业将使用生成式 AI，50% 的全球边缘部署将包含 AI。边缘 AI 是一种通过设备本地化处理数据的技术，无需依赖云服务器。其算法被直接部署在智能手机、传感器或物联网设备上，从而实现快速决策、增强数据隐私、减少带宽消耗等多重优势。

英特尔中国网络与边缘事业部总经理阮伯超在此前接受记者采访时表示，人工智能与边缘计算的融合将更加深入，边缘设备将具备更强大的智能处理能力，能够实时、高效地对海量数据进行处理和分析，大大减少了数据传输的延迟和带宽压力。Imagination 中国区技术总监艾克也指出，边缘 AI 凭借独特的技术架构与部署模式，在安全隐私、实时响应、能源效率等领域展现出显著优势，成为推动智能化变革的关键力量。

在安全隐私层面，边缘 AI 将数据处理从云端下沉至本地设备或边缘节点，数据无需长途传输至远程服务器，有效降低了数据在传输过程中被截获、篡改或泄露的风险。尤其在医疗、金融等对数据保密性要求极高的领域，敏感信息可在本地完成分析处理，数据的安全性更高。

在实时要求方面，边缘 AI 无需等待数据往返云端，直接在边缘侧完成分析与指令输出，极大缩短了延迟，对即时响应要求更高的场景，如工业自动化、智能交通等领域，可以确保任务的高效执行，满足对实时性的苛刻要求。

在能源效率与可持续发展方面，边缘 AI 减少了数据的长距离传输与云端大规模计算，可以降低能耗。数据中心的冷却、服务器运行等环节均需消耗大量电力，边缘 AI 分布式处理数据的模式，减少了对高能耗云端计算资源的依赖。

NPU、GPU、FPGA，硬件架构卡位战打响

随着边缘 AI 市场的扩展，一场围绕硬件架构的卡位战也在悄然打响。NPU，即神经网络处理器，是专为人工智能计算设计的芯片，在处理神经网络算法时展现出极高的效率。在生成式 AI 向边缘侧快速发展的浪潮中，NPU 企业凭借其独特的优势积极布局，抢占市场先机。

许多 MCU 企业如瑞萨、恩智浦、意法半导体等，在推出面向边缘 AI 市场的产品时，均选择集成 NPU。

例如，STM32N6 是意法半导体 STM32 系列中首款具有 AI 加速能力的高性能 MCU，集成 1 GHz 主频 NPU，计算性能可达 600 GOPS，可为计算机视觉和音频应用提供实时神经网络推理能力。" 随着 MCU 的算力增强，过去一些跑在 SoC 上面的应用也可以跑在 MCU 上。这样可以拉低用户 BoM 成本，减少外围器件，设计的复杂性也会随之降低。" 意法半导体中国区微控制器、数字 IC 与射频产品部 ( MDRF ) 微控制器产品市场经理丁晓磊表示。

GPU 最初是为图形处理而设计，其强大的并行计算能力在云端 AI 加强领域有着表现卓越。随着边缘市场的发展，移动 GPU 企业也在扩展边缘 AI 市场。近日，Imagination 公司推出新一代 E 系列 GPU IP，可以支持从 2 TOPS 到 200 TOPS（INT8 精度）的 AI 工作负载。Imagination 还嵌入新型 Burst Processors（爆发式处理器）。根据 Imagination 公司产品管理副总裁 Kristof Beets 介绍，这一设计改变了原本的 GPU 指令调度方式，在执行爆发式的数据处理时，所有计算会优先尝试利用爆发处理器的能力，尽可能实现复用，减少计算开销，平均功耗效率可以提升 35%。

Altera 于 4 月 14 日从英特尔独立，重新成为全球最大的独立 FPGA 半导体解决方案公司。独立后的 Altera 可获得更大的自主性，将深耕数据中心与边缘 AI 推理等市场。FPGA 作为一种可重构的集成电路，具有灵活性高、并行处理能力强、可扩展性好等优势，在边缘 AI 领域有着很多应用优势，可以根据不同的应用需求进行硬件逻辑的重新编程，实现定制化的计算加速。

移动 GPU vs NPU，既有优势也有痛点

作为专为 AI 计算设计的神经网络处理器，NPU 在处理神经网络模型时具有很多优势，如高效能、低延迟，以及更高的成本效益等，特别是对于一些对实时性要求较高且相对固定的应用场景，如智能安防、可穿戴监测等，使用 NPU 可以在保证性能的同时，降低硬件成本。但是，这也反映出 NPU 存在的部分局限性，如功能相对单一、编程难度较大等。

"NPU 与我们新推出的 E 系列 GPU 之间，一个重要的区别就在于—— NPU 是为支持一些特定 AI 应用而设计，一旦出现了新的应用，NPU 处理不了，这项任务就不得不被交给 CPU 去处理，CPU 在处理这些交回的任务时往往会产生较大延迟，对性能的影响较大。"Kristof Beets 表示。而 GPU 的通用性更强，从原则上讲，移动 GPU 不存在某个处理不了的 AI 任务，也就不会出现不得不交给其他的处理单元兜底的情况。这对用户应对快速更新迭代的 AI 行业十分重要。

此外，GPU 在软件工具与生态上也更具优势。目前 NPU 的编程框架和开发工具相对较少，且不同厂家的 NPU 架构和指令集差异较大，开发者需要针对具体的 NPU 进行专门的开发和优化，这增加了开发的难度和成本。GPU 有更成熟的编程框架和开发工具，行业内熟悉 GPU 编程的人才也更多，这使 GPU 在 AI 生态系统上拥有一定优势。

存算一体，竞逐边缘 AI 新势力

值得关注的是，新一代存算一体技术正在崭露头角，也为边缘 AI 领域带来了更多极具潜力的应用方向。有业内专家指出，传统的冯・诺依曼架构在面对日益增长的 AI 计算需求时，遭遇了 " 存储墙 " 难题，数据在存储单元与计算单元之间频繁搬运，不仅耗费大量时间，还导致能耗大幅增加，严重制约了计算效率的提升。存算一体技术则通过将存储和计算功能紧密集成在同一芯片上，有效规避了这一问题，为边缘 AI 发展开辟了新路径。

边缘设备通常受限于能源供应，对功耗要求极为严苛。存算一体技术让数据在存储位置附近即可完成计算，大幅减少了数据传输过程中的能耗。以智能安防摄像头为例，这类设备需实时处理大量视频数据以进行目标检测和识别。运用存算一体技术，摄像头可在本地高效运行 AI 算法，快速分析视频流中的人物、车辆等目标，同时降低设备整体功耗，延长电池续航时间或减少外接电源的依赖，尤其适用于一些难以布线供电的户外监控场景。

目前已有多家国内企业推出面向边缘 AI 应用的存算一体产品。如知存科技已量产旗下存算一体 SoC 芯片 WTM2101，从几十 Mops 到几 Gops，功耗低至亚毫安，还能同时运行多个深度学习算法，适用于语音识别、语音增强、健康监测、环境识别、远场唤醒、事件检测等多个应用场景。

苹芯科技近日面向终端侧模型，推出基于 SRAM 的存算一体 NPU IP N30，用户基于 NPU 可以打造端侧 SoC、MCU 等产品，动态精度引擎支持 4-16bit 混合精度，语音模型量化后精度损失

后摩智能推出的后摩漫界 M30 芯片，算力达到 100TOPS，功耗仅 12W 左右，每瓦特计算效率高达 7 - 8TOPS 。亿铸科技自研的 YICA 软件栈，不仅支持算子的 " 一键生成 " 和 " 自动优化 "，还能兼容现有主流深度学习框架，大幅降低了大模型部署和迁移成本。

总之，边缘 AI 作为一个新兴的应用市场，正吸引不同架构、不同阵营的厂商进入。随着未来市场规模的扩大，不同的解决方案之间的角力也将全面展开。

宙世代

一起剪

相关标签