国产DPU应用落地进展如何？中科驭数晒出五大方案

芯东西（公众号：aichip001）

作者 | ZeR0

编辑 | 漠影

随着数据浪潮持续爆发，数据处理器（DPU）被视作继 CPU、GPU 后的数据中心第三大主力芯片，负责围绕数据处理优化计算、网络、存储、安全、管控等基础设施虚拟化能力。

2023 年 10 月，工信部等六部门联合印发《算力基础设施高质量发展行动计划》，提出到 2025 年，算力规模超过 300EFLOPS，并将 DPU 设为重要任务之一。

英伟达、英特尔等国际芯片大厂均对这一芯片赛道积极布局，国内同样冲出中科驭数等几家代表性的 DPU 芯片创企。3 月 29 日，中科驭数举办以 "DPU 构建高性能运算力底座 " 为主题的线上技术开放日，期间集中展示了其在低时延网络、云原生网络、智算中心网络三大关键场景下的技术成果与五大核心 DPU 解决方案。

中科驭数基于自研 KPU 芯片架构率先在国内进行了三代 DPU 芯片研发，从芯片底层架构到网络、存储、计算等上层应用系统均已形成核心技术积累。其自研 DPU 芯片及系列产品可广泛应用于超低延迟网络、云和数据中心、金融计算、大数据处理、5G 边缘计算、高性能计算等场景。

中科驭数创始人、CEO 鄢贵海进行开场致辞，谈到 DPU 是解决数据中心计算效率低、资源利用率低、安全性低 " 三低 " 问题的关键技术。会前，中科驭数高级副总裁张宇与芯东西等媒体进行深入交流，分享 DPU 产业发展的现况与最新趋势。

在 4 月 19 日举行的 2024 中国生成式 AI 大会上中国智算中心创新论坛上，中科驭数产品运营部副总经理曹辉分享说，中科驭数旨在通过 DPU 将计算加速、存储加速、网络加速、安全加速及云原生加速等基础设施层深度整合，构建高性能、高集成的 AI 服务基础架构。

一、大模型时代，"3U 一体 " 组合如何降本增效？

如果将数据中心中的每台服务器比作一座城市，随着人口不断膨胀，交互需求爆炸式增长，城市需要从 " 乡间公路 " 向 " 高速铁路 " 升级。

DPU 便是帮助实现这一升级的关键组件。相比传统网卡，DPU 的高吞吐、低时延、基础设施卸载能力能够帮助数据中心规避 " 信息孤岛 " 问题，与 CPU、GPU 共同支持大规模新型数据中心的计算、网络、存储、安全、管控等数据处理需求。

中科驭数高级副总裁张宇谈道，DPU 有助于全面提升云计算性能、改善用户体验、降低成本、增加安全性，基于 DPU 打造云计算底座技术已成熟并在多行业广泛落地；随着低延迟网络场景需求爆发，DPU 成为低延迟算力的关键。随着大模型爆炸式发展，他认为 CPU+GPU+DPU"3U 一体 " 算力组合将发挥作用，包括：

在计算方面，节约超过 20% 的 CPU 开销，大幅降低 " 数据中心税 "。

在安全方面，提供高性能硬件安全防护和加解密处理能力，支持虚拟化 / 容器深度安全防护。

在存储方面，提升存储 IOPS，支持多存储协议，支持弹性裸金属服务无盘启动。

在管控方面，支持对物理主机、虚机、容器资源的统一管理，多层次可观测能力。

在网络方面，硬件级流表转发，大幅提升网络带宽和 PPS 处理能力，提供高性能虚拟化网络，可实现虚拟网络转发能力 10 倍提升。

通用智算架构需要强大算力基础设施支撑，在张宇看来，通用智算中心解决方案需要依靠 DPU 来疏导海量数据交互。DPU 在智算中心中的关键作用包括支持超大规模组网算力互连、支持 100G+ 超高带宽、RDMA 提供模型训练所需超低时延和抖动、NVMe-oF 提供更高效存储读取与处理。

二、预计每年 DPU 需求量将达百万片

根据 2023 年《中国数据中心产业发展白皮书》，预计至 2025 年 " 十四五 " 规划期末，拟实现数据中心机架规模增长至 1400 万架，规模总量翻两倍，总增量投资约 7000 亿元。按服务器规模预计，未来几年云与数据中心领域每年国内服务器出货量将维持在 500 万台左右，其中 DPU 渗透率在 10% 左右，单台服务器可配置一到多块 DPU 板卡，预计每年 DPU 需求量将在 100 万片左右。

张宇说，中科驭数是国内研发实力最强、规模最大、唯一大规模商业落地的 DPU 厂商，研发人员占比超过 80%，已构筑完备的知识产权布局，申请发明专利 550 项，授权发明专利 125 项，注册软件著作权 242 项，发表于国内外权威期刊的高质量论文 27 篇。

DPU 的研发基于软硬协同的自主研发技术。

在芯片设计方面，中科驭数提出了软件定义加速器技术路线，自主开发敏捷异构 KPU 创新架构，以解决 DPU 芯片设计碎片化的问题，具有软件定义可配置、低设计成本、计算高效的优势。

在芯片软件生态方面，中科驭数自研的 DPU 软件开发平台 HADOS，可兼容多种操作系统，大幅降低应用软件开发难度。

基于 DPU 软件开发平台 HADOS，中科驭数已与国内 6 大 CPU 芯片、12 家主流操作系统、9 家主流数据库厂商、8 家头部云 / 云原生厂商、17 家 TOP 级服务器厂商完成兼容性适配，并参与 10 大开源社区平台，共同推动技术发展。

三、三大关键场景、五大解决方案，构建高性能算力底座

中科驭数基于 DPU 打造超低时延网络、云原生网络、智算网络三大方案，搭建了完善的应用生态，客户可覆盖云服务厂商、数据中心、运营商、证券基金、银行等数字经济领域企业。

在 3 月 29 日举办的 "DPU 构建高性能运算力底座 " 主题线上技术开放日上，中科驭数集中展示了五大核心 DPU 解决方案。

云计算技术对异构需求越来越高，传统架构存在着处理能力与数据量增长不匹配、资源利用不足、安全风险等问题。对此，中科驭数高性能云计算底座解决方案带来物理隔离、业务卸载、硬件加速、业务快速迭代等诸多优势，通过将工作节点的存储、网络、管理等基础设施组件完全卸载到 DPU 硬件，释放 Worker 节点的 CPU 算力资源给到业务系统，帮助集群算效比大幅提升。

中科驭数高性能云计算底座解决方案也提供了一个 DPU 统一管理的平台，既能通过该平台来调度 DPU 上的各种业务，也能使得客户在庞杂的云管系统中引入一个新的 DPU 组件时，实现整个 DPU 系统状态和现有云管平台的无缝集成。

针对云原生业务面临的服务网格 sidecar 模式面临资源开销和时延两大服务治理挑战，中科驭数基于 DPU 的服务网络加速技术可高效应对，将服务网格的 sidecar 容器集中卸载到 DPU 卡上执行，显著降低服务器 CPU 的算力消耗；通过对容器网络 CNI 进行硬件卸载，高性能转发引擎实现了网络转发功能的加速，能有效降低业务时延。

目前基于 DPU 的服务网格方案已成功应用于国内某知名证券机构。引入中科驭数方案后，在七层服务治理下，其时延降至 100-130us；在四层流量下仅需 40us。通过插上 DPU 卡并配置网络即可实现简便的流量控制，实现即插即用的效果。

面向网络安全，传统 CPU 软加密、国密卡硬件加密两种技术架构存在性能瓶颈且不适用于国产和信创服务器平台。中科驭数基于 DPU 的高性能国产密码卸载安全方案，自研了高性能加解密算力引擎，实现国产密码全卸载，为每台服务器提供分布式贴身隔离防护，可降低主机 CPU 利用率至 90% 以上，确保业务零丢包，提高安全性能，减少客户工作量。

面向超算、智算场景，为了以更少的计算资源提供更强的网络传输能力，中科驭数用支持 RDMA 协议的 DPU 卡代替传统网卡，提出 RDMA 加速并行文件系统解决方案，基于 RDMA 协议零拷贝、内核旁路的特性，大幅降低并行文件系统在数据读写，数据传输的时延，提高带宽利用率，进而提升并行文件系统整体性能；同时利用 DPU 卡上的 VirtIO-FS 技术，将业务侧 host 的虚拟化功能卸载至 DPU，减少 host 端 CPU 的算力损耗。最终实现降低时延、提升带宽、并释放 CPU 算力。

面向金融证券期货交易场景，中科驭数推出了信创低时延网络解决方案，基于自主研发并量产的低时延网络 DPU 卡 KPU SWIFT-2200N 和超低时延数据处理开发平台 NDPP，搭配 6 大国产 CPU 构建低时延服务器，在系统层兼容各类国产操作系统，在应用层广泛适配多家业内金融软件厂商的交易系统，从而支撑核心交易业务从底层硬件到上层软件，向全信创平台迁移，同时还能获取媲美非信创的时延性能。

结语：算力正成为新质生产力的核心与产业变革的关键

随着 AI 日益普及，各行各业对基础设施的需求将更加多元化。相比 CPU 和 GPU，DPU 的市场和生态体量相对较小，需要相关企业合作来推动技术走向成熟、打造更多标杆商业案例，以持续壮大生态。

据张宇透露，中科驭数正全面拥抱国产化生态，并致力于与国际水平接轨，在时延、带宽、算力成本上均寻求超越。

如今算力正成为新质生产力的核心与产业变革的关键。作为新型算力基础设施的新兴主力芯片，DPU 能够分担激增的数据处理需求，为新一代数据中心提供更强计算底座，在各行各业数据中心的应用也将更加深入。

宙世代

智慧云

相关标签