大数据在线 03-18
AI推理时代全面到来,大EP推理让行业智能化走深向实
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

技术的突破仅仅是序章,大规模应用而引发的连锁反应才是真正的变革。

今年初,DeepSeek 掀起的 AI 浪潮席卷全球,一周之内即实现亿级用户的爆发式增长和数百家企业踊跃接入,标志着中国 AI 企业开始掌握将技术突破转化为 AI 普惠应用的底层逻辑。

回望最近十年 AI 发展历史,算力始终是横亘在理想与现实之间的一道鸿沟。尤其是在我国,算力的稀缺,犹如悬挂在整个 AI 产业上的达摩克利斯之剑。而 DeepSeek 的技术突围,恰恰始于对这场 " 算力封锁 " 的颠覆,并激发起整个 AI 产业的全面创新。

DeepSeek 的火爆,让大规模跨节点专家并行(Expert Parallelism ,简称: EP)成为当下 AI 最重要的趋势之一,同时使得大 EP 推理解决方案迅速映入用户们的眼帘。随着 DeepSeek 开始全面进入各行各业的头部用户之中,大 EP 推理解决方案也成为行业智能化走深向实的那枚楔子,无比低调却又至关重要。

大 EP 推理为何成大势所趋

从 2012 年,AlexNet 点燃深度学习革命开始,算力一直是左右 AI 发展的核心力量。

尤其是在 Scaling Law 规则的驱动下,AI 大模型的训练与推理对于算力需求也迅速水涨船高。AI 头部巨头们更是纷纷加码基础设施的布局,从微软、Meta、AWS 等重金投建新数据中心,到 xAI 短时间构建起 20 万张 GPU 卡的 AI 集群,再到 OpenAI 推出 " 星际之门 " 项目," 得算力者得天下 " 深入人心,AI 头部巨头们无不在追求 " 少量大专家模式 " 的 " 性能摸高 "。

但这种 " 技术摸高 " 的模式会是 AI 发展创新的唯一路径么?

DeepSeek-R1 的横空出现,带来不一样的答案。DeepSeek 在工程层面大胆创新,采用大规模跨节点专家并行的模式,在算力规模和先进性受限的情况下,依然能打造出性能强大和先进的 AI 大模型。所谓 " 大规模跨节点专家并行 ",即将专家分布到更多的算力卡上,减少每张卡权重加载的时延,同时减少权重的显存占用,显著提升单卡并行的路数,从而推动 AI 大模型的创新。

事实上,在 DeepSeek 出现之前,AI 大模型在行业之中部署与应用依然面临着数据、算法和算力等一系列巨大挑战。很多行业用户既需要面临高质量数据缺乏的挑战,又面临着动辄千卡或者万卡的 AI 集群带来极高的成本,更受制于 AI 大模型闭源带来的部署与使用门槛。

而 DeepSeek 采用大规模跨节点专家并行的模式,利用强化学习来减少人工依赖和数据缺失的问题;通过全面开源的方式,大幅降低 AI 大模型的获取和部署成本,将 AI 推理资源池成本降到百卡 / 千卡范围;并且支持更加轻量、灵活的部署方式,真正降低 AI 大模型在行业用户环境中的部署与使用成本。

本质上,DeepSeek 在工程创新层面做了大量优化工作,真正为中国 AI 产业走出一条新路,给予整个产业界巨大的信心,并激发起千行百业的 AI 应用创新。业界也认为,未来 AI 发展‘性能摸高’和‘工程创新’两条技术路径未来会继续并存。

大 EP 推理挑战在哪里

就像医院问诊一样,过去属于 " 少量大专家 " 的模式,通过少量的全科大夫坐诊,每个大夫均处于繁忙状态;而现在,大规模跨节点专家则属于 " 大量小专家 " 模式,每个门诊(每张算力卡)均有自己的大夫,不仅可以处理更多用户的需求,还能够带来更好地用户体验。

当然,除了具备具备多种优势之外,大规模跨节点专家并行模式也并非完美无瑕,随着专家数量的增加,一系列新挑战也接踵而至。

事实上,大规模跨节点专家并行模式并不是专家越多越好;相反,专家数量存在一个 " 甜点 " 区域,当超过这个区域,性能提升并不明显甚至会出现下降。在大规模跨节点专家并行模式中,多专家的负载均衡和通信优化是最为突出的挑战。

例如,AI 大模型的推理属于自回归过程,包括 Prefill 和 Decode 两个阶段。Prefill 属于预填充,将用户请求的 prompt 传入大模型并进行计算,属于典型的计算密集型,需要耗费大量算力;而 Decode 则是增量推理阶段,从显存读取前文产生的 KVCache 再进行计算,属于访存密集型。这两个阶段对于算力资源需求存在着明显差异,需要算力效率和通信开销进行均衡优化。

所谓多专家负载均衡,即在业务处理中,肯能会出现某一位专家特别忙,而其他专家处于闲置状态,需要尽可能让所有专家 " 人尽其用 ",从而让算力资源高效化。而通信优化则是需要觉接 ALL2ALL 通信占比时间过高的问题,即当需要多个专家处理某个问题时候,专家互相之间交换意见的时间需要不短优化,以实现更高效地处理好业务。

因此,在大 EP 推理解决方案中,算力等硬件能力只是基础,系统层面的整体优化才是推理加速的关键因素,这也要求解决方案商必须具备从架构到算法的端到端全栈优化能力。

事实上,环顾当下整个市场,针对 DeepSeek AI 大模型的推理解决方案并不少,而华为依然占据着整个市场的大部分份额,其成功的关键就在于全栈能力。华为昇腾的大 EP 推理解决方案涵盖从推理系列硬件,到 CANN 硬件使能层,再到推理引擎,以及全面的开发工具链和套件,从而实现性能更高、并发更高和体验更优。

据悉,华为昇腾大 EP 推理解决方案能够实现单卡并发 3 倍的提升,Decode 时延能够降低 50% 以上,大幅降低用户的部署和使用成本,使用体验也得以大幅提升。此外,用户之前一体机方案,通过交换机进行参数面互联,基于现有组网架构软件升级,即可升级到华为昇腾大 EP 推理方案。

让行业智能化走深向实

如今,AI 全面走向推理时代。有人甚至认为,应用的未来在于推理,推理将成为所有应用未来的核心组件之一。

毫无疑问,在当前的行业智能化建设中,降低 AI 推理的部署、使用和成本门槛具有极为意义重大。降低门槛,意味着有更多行业用户能够把 AI 推理用起来和使用好,进而推动 AI 在行业场景中创新的充分释放,再进一步带动 AI 应用在 To B 领域的繁荣,最终形成良性循环。

华为昇腾大 EP 推理解决方案的推出,无疑为 AI 推理的普及带来一份重要答卷,也为行业智能化走深向实提供坚实基础。

首先,凭借对 AI 技术趋势的前瞻洞察以及战略定力,华为昇腾大 EP 推理解决方案拥有大量关键创新,包括 MoE 负载均衡、autoPD 分离部署、双流 / 多维混合并行、MLAPO 融合算力等五大关键技术,能够实现整体方案层面的性能吞吐和时延最优,真正帮助行业用户应对 AI 推理时代的到来。

例如,华为的 autoPD 分离部署是自适应 PD 分离部署,自动感知负载变化,且无需人工介入,实现多级缓存内存资源池化,冷热 KV 分层加载,不仅能够大幅提升系统的资源利用率,而且可以动态适应场景的变化需求。

其次,除了全栈自研能力之外,华为在计算、网络和 AI 大模型等多个领域拥有丰富的经验积累,使得昇腾大 EP 推理解决方案不仅实现性能最优,更贴近当前用户的使用需求。

相反,目前国际厂商针对中国市场的 " 阉割版 " 方案,其性能落差巨大、短板明显,FP16 算力只有 148TFLOPS。面对大规模分布式任务时,在类似 DeepSeek 大规模专家并行模式的推理场景下," 阉割版 " 方案无法有效支撑提升并发数和单卡吞吐,尤其是输入样本数量和序列长度提升的情况下,算力瓶颈暴露无疑。

此外,DeepSeek 等 AI 大模型采用 " 潮汐导读 " 实现 92% 的日均算力利用率,即利用 " 白天推理、晚上训练 " 的模式来充分释放硬件性能,而 " 阉割版 " 方案对于特定架构过度依赖,算力受限使得其在 AI 没到校预训练场景中几乎难有作为,无法满足训推一体的使用需求。加上 AI 大模型加速向 MoE 模式演进," 阉割版 " 方案不仅成本高昂,还面临着潜在的战略隐患,使得其很难满足当下行业用户的需求。

以 MoE 负载均衡为例,华为自身是通信起家,对于大容量、大并发的通信场景拥有大量时间,并且积累起丰富的经验,针对大规模跨节点专家并行,不仅能够根据业务情况、集群规模、专家情况来自动寻优,还能自动预测和自动降解,让专家与资源配比最优,实现整个 MoE 负载均衡在业界最优。

最后,华为昇腾大 EP 推理解决方案始终秉持开放共赢的战略,聚焦底层根技术的基础创新,不仅与 DeepSeek 等 AI 大模型企业保持着紧密联系,共同攻坚与联合创新来应对 AI 日新月异的发展苏,更携手产业链伙伴形成 AI 应用普惠化的产业协同效应,推动中国 AI 产业良性发展轨道。

综合观察,历史告诉我们:伟大的基础设施从来不只是工具,更是产业变革和社会经济发展的引擎。当 AI 应用开始走进田间地头、政务大厅、工厂厂房、医疗机构、港口码头、金融柜台……中国正引领 AI 推理时代最大的技术平权运动。而以 DeepSeek、华为等为代表的中国企业,在 AI 基础设施领域的持续探索与创新,无疑中国 AI 普惠开辟出一条属于自己的康庄大道。

END

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 深度学习 基础设施 浪潮
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论