智东西 02-14
软硬协同优化,安谋科技新一代“周易”NPU实现DeepSeek-R1端侧高效部署
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近日,搭载安谋科技最新一代 " 周易 "NPU 处理器的硬件平台成功运行 DeepSeek-R1 系列模型,性能卓越、成本优异,为用户带来了更高效、便捷的 AI 应用体验。这款创新性 NPU 处理器采用专为大模型特性优化的架构设计,其 beta 版本在 2024 年底已面向早期用户开放评估测试,并获得了广泛认可与积极反馈。预计今年上半年,这款备受期待的 NPU 产品将正式亮相市场,届时将为更多用户带来突破性的端侧算力体验。

DeepSeek 自发布以来,凭借其出色的性能表现和低成本训练模式,迅速成为 AI 领域的焦点。在 DeepSeek-R1 的 1.5B 和 7B 蒸馏版本推出后,安谋科技新一代 " 周易 "NPU 处理器短时间内在 Emulation 平台上完成了部署与优化,并在 FPGA 平台上成功实现了端到端应用的演示。

经过严苛的测试验证,新一代 " 周易 "NPU 处理器在运行 DeepSeek-R1 的 1.5B 和 7B 蒸馏版本时表现优异。在标准单批次输入、上下文长度为 1024 的测试环境中,其在首字计算阶段的算力利用率突破 40%,解码阶段的有效带宽利用率高达 80% 以上。其带宽利用率呈现高线性特性,能够灵活适配 16GB/s 至 256GB/s 的系统带宽需求。在 7B 版本、1024 上下文长度的场景下,该处理器在充分保障模型应用精度的同时,最高处理速度可达 40 tokens/s,并支持动态长度的模型推理输入。面对复杂 AI 任务时," 周易 "NPU 处理器凭借其卓越的计算性能、高带宽利用率和能效比,展现出显著的技术优势,为终端设备的智能化升级提供了强劲 " 芯 " 动力。

新一代 " 周易 "NPU 处理器运行 DeepSeek-R1 模型效果演示

新一代 " 周易 "NPU 处理器对 DeepSeek 等最新大模型的高效适配和调优,得益于其软件栈对大模型的成熟支持。软件栈提供高效的量化编译工具,能够在显著压缩模型体积的同时,保持高性能推理能力,并通过灵活的编译选项满足多样化需求。此外,软件栈针对大模型进行了深度优化,包括动态推理优化和硬件算力潜力的挖掘,从而显著提升推理速度和吞吐量。目前,软件栈已支持 Llama、Qwen、DeepSeek、ChatGLM 和 MiniCPM 等多种主流大模型,并提供了与 Hugging Face 模型库的对接工具链,方便用户直接部署主流模型。

在硬件层面,新一代 " 周易 "NPU 处理器突破了传统设计限制,将对外带宽提高至 256GB/s,有效解决了大模型计算的带宽瓶颈问题。为满足端侧大模型对高精度的需求,该 NPU 处理器全面支持 FP16 计算,并提供完整的 int4 软硬量化加速方案,确保模型高效稳定运行。针对端侧模型的低首字延迟需求," 周易 "NPU 处理器通过软硬协同优化,实现了多核算力的高效扩展。在 7nm 制程工艺下,单 Cluster 算力最高可达 80 TOPS,能够轻松应对超过 16K 上下文长度的大模型部署需求,同时满足多模态场景及思维链计算的高算力要求。此外,该 NPU 处理器还具备强大的多任务并行处理能力,通过细粒度的任务调度和优先级资源分配,实现多任务灵活切换,确保传统语音、视觉业务与大模型应用高效协同,为用户带来更加流畅的使用体验。

目前,安谋科技正在积极拓展 DeepSeek 系列模型在端侧加速卡的应用场景,通过提升模型推理性能,加速端侧 AI 应用的商业化落地进程。依托雄厚的技术积累、生态系统优势以及前瞻性布局,安谋科技将持续推动 AI 大模型技术在 PC、手机、智能汽车、机器人、可穿戴设备等多终端领域的深度应用与创新,全面加速端侧 AI 生态的构建与完善。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

周易 安谋科技 ai fpga 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论