仅仅不到 30 天,一些企业就已走过 DeepSeek 尝鲜阶段,从一体机,急速转向推理集群。
文|牛慧
DeepSeek 爆火之后,进展之快,让业界应接不暇。
春节开工后首月,政务、金融、教育、医疗等千行百业掀起尝鲜浪潮。根据爱分析的统计,截止 2 月 21 日,已有约 45% 的央国企部署了 DeepSeek 模型。不少企业都是快速买一两台一体机,来体验 DeepSeek 的效果。这让一体机商机几乎是以往的百倍,呈现井喷。
但仅仅不到 30 天,一些企业就已走过尝鲜阶段,从开箱即用的 DeepSeek 一体机,急速转向可支撑高并发、低时延的大规模专家并行(EP)推理集群。
在这场算力迭代角逐中,昇腾大规模跨节点专家并行(大 EP)方案,因对 DeepSeek 模型的支持及在技术思路上的契合,成为国内企业的主要选择。英伟达 H20 因算力短板和出口管制等不确定因素,面临挑战。
01
企业推理需求激增,算力扩容
随着 DeepSeek 引发的人工智能热潮,中国企业正加速 AI 部署。
开年不到一个月,一些企业就已走过试用阶段,开始探讨算力扩容问题。比如,一些企业先接入 DeepSeek,尝鲜通用能力,之后开始将业务系统对接 DeepSeek,结果用户增长快速,并发量越来越大。在这种情况下,一台一台增加一体机的线性扩展方式,已经不满足他们的需求。
DeepSeek 推动产业进入一个新阶段——当企业应用开始上量后,对推理部署提出了在高并发、低时延场景下,要实现高性价比、稳定的要求。
随着应用上量,目前市场上用户推理算力的规模,从早期一两台一体机,即 8 卡、16 卡规模,正在快速扩展到大几十卡、一两百卡以及千卡。而随着应用范围的扩大,推理算力的规模还在持续扩大中。
为什么这轮企业推理需求会持续急剧扩大?
非常重要的一点是,DeepSeek 给千行百业带来了信心——哪怕算力受限,依然能够做出一流的模型。DeepSeek 也开源了模型,很多企业有信心在强大的基础大模型之上,实现人工智能的真正落地,这带来了新一轮的百模千态。
DeepSeek 借助 MoE(混合专家模型)技术,通过大 EP 并行(大规模跨节点专家并行)和超集群互联技术,成功降低了对高算力单卡的依赖。
DeepSeek 也开辟了新的训练模式,让企业应用大模型的路径缩短了。以前搭建一个智能化平台,架构复杂、成本高昂。DeepSeek 让大家发现,原来二次训练没有那么复杂。从一些社区热议的外挂知识库,到先将模型蒸馏,再通过强化学习而不是之前的微调和 RAG,也能将自身数据训练到模型上去,这些过程比原来要快很多,所需的行业数据也至少少一个数量级,从而带动企业快速做出场景。
客户对 AI 的认知也发生了彻头彻尾的变化。以前是大模型企业到客户那里去 " 拿着锤子找钉子 ",现在是客户一下子拿出好多场景,主动要求做更多。
由于上述因素,千行百业以更快速度拥抱 DeepSeek,企业进入 DeepSeek 与业务结合的阶段。接下去,越来越多的智能体也将涌现,甚至业务系统与 DeepSeek 的对接,以及智能体的推广是并行的。未来三个月,我们将看到不断变革的过程。而这都要求智算市场做出及时反应,快速支撑。
02
DeepSeek 开源周后,推理集群怎么选
就在业界对推理算力提出更高要求的时候,DeepSeek 于 2025 年 2 月底举办了 " 开源周 " 活动,连续五天每天发布一个开源项目。
这些开源项目涉及大模型全流程。在推理加速上,DeepSeek 也开源了不少技术。而人们发现,这些实践都是在 200 多台服务器集群环境下做出的,规模远比企业目前一两台一体机要大得了。这也与当下企业推理扩容的方向一致。
值得关注的是,DeepSeek 模型采用的 MoE 架构,有大专家和小专家模式之分。大专家类似全科大夫,管的事情多,因此每个 token 激活的参数量多,计算量大,成本也高,走性能摸高之路。
DeepSeek 则采用了小专家模式,如 V2 有 160 个专家,V3 有 256 个专家,每次激活的参数量小,成本降低,在性能提升的同时,更有利于快速普及,而这两种方案将共存。
DeepSeek 的推理集群,也贴合了小专家 MoE 架构,是一种大规模跨节点专家并行(简称大 EP 并行)的方式。
它将众多小专家分布到更多的卡上,如 DeepSeek-R1 推理集群,每卡部署 1~2 个专家,每张卡占用的资源减少了,大量资源可用来支持更多并发用户,也降低了对高算力单卡的依赖。通过各类技术创新,实现了高效并行计算,这为 AI 推理提供了参考之路。
在 DeepSeek 开源周之后,由于技术思路上的高度契合,昇腾和科大讯飞联合团队,率先实现了 8 机 64 卡的跨节点专家并行推理集群,这是继 DeepSeek 公布其 MoE 模型训练推理方案后,业界首个基于自研算力的解决方案。
在大 EP 方案中,因为有更多专家,带来了负载均衡、卡间通信的挑战。昇腾大 EP 方案采用了 MoE 负载均衡、PD 分离部署、双流 / 多维混合并行、MLAPO 融合算子、MTP(多 token 预测)等技术,来实现集群的高效性。
这些优化技术,核心围绕两大方向:一是提高推理集群的吞吐,如 MoE 负载均衡,来服务更多用户;另一是降低时延,如 MLAPO 融合算子等,这与用户体验息息相关。
具体而言,MoE 负载均衡如何实现高吞吐?通俗说是要避免有的专家特别忙,有的则特别闲,还要解决专家之间交换意见占用了处理问题的时间等问题。通过自动寻优、自动配比、自动预测、自动降解等创新,昇腾大 EP 方案实现了负载均衡,极大提高了集群的吞吐量。
MLAPO 融合算子有如何降低时延?为了优化模型的推理效率和显存占用,DeepSeek 采用了 MLA(多头潜在注意力机制)。在 MLA 的预处理阶段,传统方案是多算子串行,频繁占用内存、通信等资源;昇腾则将各种小算子融合成单一算子,把上述频繁操作并行处理,降低计算耗时 70%,也就降低了时延。
这些技术中,还值得关注的是 PD 分离部署,这其实是业界一个公开的推理优化技术。生成式人工智能过程分为两个阶段,一是理解用户问题,称为预填充阶段(Prefill),需要大量计算。另一是生成回复,称为解码(Decode),对计算要求降低、访存要求提升。
之前两阶段由同一个节点完成,有资源竞争、推理延迟问题。业界目前将两者分开部署,成为提升推理效率的关键技术。传统的 PD 静态分离方案不够灵活,昇腾大 EP 提供了 autoPD 分离部署方案,适应动态调整的场景,系统有效吞吐提升 50% 以上。
经过多点技术的优化,目前昇腾大 EP 方案推理吞吐提升 3.2 倍,端到端时延降低 50%,并在持续提升中。
在这里,要提到不少企业关注的英伟达 H20,它被视为是替代 H100 的热门之选。H20 是 H100 的阉割版,其 AI 算力仅为 H100 的 15%,因此在大模型预训练上很难发挥作用。
在推理上,H20 因为算力制约,只适应特定模型架构,如稠密模型的长序列推理任务场景。
针对 DeepSeek 采用的 MoE,以上述 PD 场景为例,在预填充阶段(Prefill),需要较强算力,H20 性能不占优。在解码(Decode)阶段,在大 EP 的大批量(batch size)场景下,H20 算力也极易触及瓶颈,时延大幅增加,无法充分发挥 DeepSeek 专家并行机制带来的高吞吐优势,因此,DeepSeek 在推理服务上,也未采用 H20。
H20 目前被作为特定场景下的过渡性产品。
数智前线获悉,在此前一体机市场上,昇腾份额已达到 70% 以上。而根据用户的需求,昇腾大 EP 方案可支持从几十卡到几千卡甚至更大规模的推理集群。企业之前采购的一体机,可通过软件升级,扩展为大 EP 推理方案,实现平滑迁移,支撑企业加速 AI 部署带来的智算市场爆发。
进群、转载或商务合作联系后台
文章精选
全年超 458 个智算中心项目,我们总结了五大特点(附项目详情)
DeepSeek 搅动高校科研市场,百度 18+ 高校实战秘籍全公开
开工首日,国产芯片万卡集群和 DeepSeek 相关消息来了
登录后才可以发布评论哦
打开小程序可以发布评论哦