数智前线 03-16
中国企业加速AI部署,昇腾大EP方案成首选,H20遇挑战
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

仅仅不到 30 天,一些企业就已走过 DeepSeek 尝鲜阶段,从一体机,急速转向推理集群。

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文|牛慧‍‍‍

DeepSeek 爆火之后,进展之快,让业界应接不暇。

春节开工后首月,政务、金融、教育、医疗等千行百业掀起尝鲜浪潮。根据爱分析的统计,截止 2 月 21 日,已有约 45% 的央国企部署了 DeepSeek 模型。不少企业都是快速买一两台一体机,来体验 DeepSeek 的效果。这让一体机商机几乎是以往的百倍,呈现井喷。

仅仅不到 30 天,一些企业就已走过尝鲜阶段,从开箱即用的 DeepSeek 一体机,急速转向可支撑高并发、低时延的大规模专家并行(EP)推理集群

在这场算力迭代角逐中,昇腾大规模跨节点专家并行(大 EP)方案,因对 DeepSeek 模型的支持及在技术思路上的契合,成为国内企业的主要选择。英伟达 H20 因算力短板和出口管制等不确定因素,面临挑战。

01

企业推理需求激增,算力扩容

随着 DeepSeek 引发的人工智能热潮,中国企业正加速 AI 部署。

开年不到一个月,一些企业就已走过试用阶段,开始探讨算力扩容问题。比如,一些企业先接入 DeepSeek,尝鲜通用能力,之后开始将业务系统对接 DeepSeek,结果用户增长快速,并发量越来越大。在这种情况下,一台一台增加一体机的线性扩展方式,已经不满足他们的需求。

DeepSeek 推动产业进入一个新阶段——当企业应用开始上量后,对推理部署提出了在高并发、低时延场景下,要实现高性价比、稳定的要求

随着应用上量,目前市场上用户推理算力的规模,从早期一两台一体机,即 8 卡、16 卡规模,正在快速扩展到大几十卡、一两百卡以及千卡。而随着应用范围的扩大,推理算力的规模还在持续扩大中。

为什么这轮企业推理需求会持续急剧扩大?

非常重要的一点是,DeepSeek 给千行百业带来了信心——哪怕算力受限,依然能够做出一流的模型。DeepSeek 也开源了模型,很多企业有信心在强大的基础大模型之上,实现人工智能的真正落地,这带来了新一轮的百模千态

DeepSeek 借助 MoE(混合专家模型)技术,通过大 EP 并行(大规模跨节点专家并行)和超集群互联技术,成功降低了对高算力单卡的依赖

DeepSeek 也开辟了新的训练模式,让企业应用大模型的路径缩短了。以前搭建一个智能化平台,架构复杂、成本高昂。DeepSeek 让大家发现,原来二次训练没有那么复杂。从一些社区热议的外挂知识库,到先将模型蒸馏,再通过强化学习而不是之前的微调和 RAG,也能将自身数据训练到模型上去,这些过程比原来要快很多,所需的行业数据也至少少一个数量级,从而带动企业快速做出场景。

客户对 AI 的认知也发生了彻头彻尾的变化。以前是大模型企业到客户那里去 " 拿着锤子找钉子 ",现在是客户一下子拿出好多场景,主动要求做更多。

由于上述因素,千行百业以更快速度拥抱 DeepSeek,企业进入 DeepSeek 与业务结合的阶段。接下去,越来越多的智能体也将涌现,甚至业务系统与 DeepSeek 的对接,以及智能体的推广是并行的。未来三个月,我们将看到不断变革的过程。而这都要求智算市场做出及时反应,快速支撑。

02

DeepSeek 开源周后,推理集群怎么选

就在业界对推理算力提出更高要求的时候,DeepSeek 于 2025 年 2 月底举办了 " 开源周 " 活动,连续五天每天发布一个开源项目。

这些开源项目涉及大模型全流程。在推理加速上,DeepSeek 也开源了不少技术。而人们发现,这些实践都是在 200 多台服务器集群环境下做出的,规模远比企业目前一两台一体机要大得了。这也与当下企业推理扩容的方向一致。

值得关注的是,DeepSeek 模型采用的 MoE 架构,有大专家和小专家模式之分。大专家类似全科大夫,管的事情多,因此每个 token 激活的参数量多,计算量大,成本也高,走性能摸高之路。

DeepSeek 则采用了小专家模式,如 V2 有 160 个专家,V3 有 256 个专家,每次激活的参数量小,成本降低,在性能提升的同时,更有利于快速普及,而这两种方案将共存。

DeepSeek 的推理集群,也贴合了小专家 MoE 架构,是一种大规模跨节点专家并行(简称大 EP 并行)的方式。

它将众多小专家分布到更多的卡上,如 DeepSeek-R1 推理集群,每卡部署 1~2 个专家,每张卡占用的资源减少了,大量资源可用来支持更多并发用户,也降低了对高算力单卡的依赖。通过各类技术创新,实现了高效并行计算,这为 AI 推理提供了参考之路。

在 DeepSeek 开源周之后,由于技术思路上的高度契合,昇腾和科大讯飞联合团队,率先实现了 8 机 64 卡的跨节点专家并行推理集群,这是继 DeepSeek 公布其 MoE 模型训练推理方案后,业界首个基于自研算力的解决方案。

在大 EP 方案中,因为有更多专家,带来了负载均衡、卡间通信的挑战。昇腾大 EP 方案采用了 MoE 负载均衡、PD 分离部署、双流 / 多维混合并行、MLAPO 融合算子、MTP(多 token 预测)等技术,来实现集群的高效性。

这些优化技术,核心围绕两大方向:一是提高推理集群的吞吐,如 MoE 负载均衡,来服务更多用户;另一是降低时延,如 MLAPO 融合算子等,这与用户体验息息相关。

具体而言,MoE 负载均衡如何实现高吞吐?通俗说是要避免有的专家特别忙,有的则特别闲,还要解决专家之间交换意见占用了处理问题的时间等问题。通过自动寻优、自动配比、自动预测、自动降解等创新,昇腾大 EP 方案实现了负载均衡,极大提高了集群的吞吐量。

MLAPO 融合算子有如何降低时延?为了优化模型的推理效率和显存占用,DeepSeek 采用了 MLA(多头潜在注意力机制)。在 MLA 的预处理阶段,传统方案是多算子串行,频繁占用内存、通信等资源;昇腾则将各种小算子融合成单一算子,把上述频繁操作并行处理,降低计算耗时 70%,也就降低了时延。

这些技术中,还值得关注的是 PD 分离部署,这其实是业界一个公开的推理优化技术。生成式人工智能过程分为两个阶段,一是理解用户问题,称为预填充阶段(Prefill),需要大量计算另一是生成回复,称为解码(Decode),对计算要求降低、访存要求提升

之前两阶段由同一个节点完成,有资源竞争、推理延迟问题。业界目前将两者分开部署,成为提升推理效率的关键技术。传统的 PD 静态分离方案不够灵活,昇腾大 EP 提供了 autoPD 分离部署方案,适应动态调整的场景,系统有效吞吐提升 50% 以上。

经过多点技术的优化,目前昇腾大 EP 方案推理吞吐提升 3.2 倍,端到端时延降低 50%,并在持续提升中。

在这里,要提到不少企业关注的英伟达 H20,它被视为是替代 H100 的热门之选。H20 是 H100 的阉割版,其 AI 算力仅为 H100 的 15%,因此在大模型预训练上很难发挥作用。

在推理上,H20 因为算力制约,只适应特定模型架构,如稠密模型的长序列推理任务场景

针对 DeepSeek 采用的 MoE,以上述 PD 场景为例,在预填充阶段(Prefill),需要较强算力,H20 性能不占优。在解码(Decode)阶段,在大 EP 的大批量(batch size)场景下,H20 算力也极易触及瓶颈,时延大幅增加,无法充分发挥 DeepSeek 专家并行机制带来的高吞吐优势,因此,DeepSeek 在推理服务上,也未采用 H20。

H20 目前被作为特定场景下的过渡性产品。

数智前线获悉,在此前一体机市场上,昇腾份额已达到 70% 以上。而根据用户的需求,昇腾大 EP 方案可支持从几十卡到几千卡甚至更大规模的推理集群。企业之前采购的一体机,可通过软件升级,扩展为大 EP 推理方案,实现平滑迁移,支撑企业加速 AI 部署带来的智算市场爆发。

进群、转载或商务合作联系后台

文章精选

全年超 458 个智算中心项目,我们总结了五大特点(附项目详情)

历史进程中的浙大

DeepSeek 搅动高校科研市场,百度 18+ 高校实战秘籍全公开

DeepSeek 狂潮下,九张图表详解智算市场走向

西安,一座千年古都的历史科技共生之路

松下电视的结局,藏着日本家电的宿命

开工首日,国产芯片万卡集群和 DeepSeek 相关消息来了

阿里再上春晚,传递什么信号?

Salesforce 停止招聘程序员?中国大厂有什么动作

大模型五大 " 标王 " 与六边形战士

枪响在 2018:神秘东方力量,为何扎堆杭州

千亿通用服务器市场,出现两大新变化

存储,也是 " 一等公民 "

800 万下载的 AI 代码工具,为何能在企业级场景先落地?

字节 AI,C 端声量能换来 B 端客户吗?

广州汽车产业,再次走到命运的十字路口

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

一体机 ai 人工智能 英伟达 中国企业
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论