技术的突破仅仅是序章,大规模应用而引发的连锁反应才是真正的变革。
今年初,DeepSeek 掀起的 AI 浪潮席卷全球,一周之内即实现亿级用户的爆发式增长和数百家企业踊跃接入,标志着中国 AI 企业开始掌握将技术突破转化为 AI 普惠应用的底层逻辑。
回望最近十年 AI 发展历史,算力始终是横亘在理想与现实之间的一道鸿沟。尤其是在我国,算力的稀缺,犹如悬挂在整个 AI 产业上的达摩克利斯之剑。而 DeepSeek 的技术突围,恰恰始于对这场 " 算力封锁 " 的颠覆,并激发起整个 AI 产业的全面创新。
DeepSeek 的火爆,让大规模跨节点专家并行(Expert Parallelism ,简称: EP)成为当下 AI 最重要的趋势之一,同时使得大 EP 推理解决方案迅速映入用户们的眼帘。随着 DeepSeek 开始全面进入各行各业的头部用户之中,大 EP 推理解决方案也成为行业智能化走深向实的那枚楔子,无比低调却又至关重要。
大 EP 推理为何成大势所趋
从 2012 年,AlexNet 点燃深度学习革命开始,算力一直是左右 AI 发展的核心力量。
尤其是在 Scaling Law 规则的驱动下,AI 大模型的训练与推理对于算力需求也迅速水涨船高。AI 头部巨头们更是纷纷加码基础设施的布局,从微软、Meta、AWS 等重金投建新数据中心,到 xAI 短时间构建起 20 万张 GPU 卡的 AI 集群,再到 OpenAI 推出 " 星际之门 " 项目," 得算力者得天下 " 深入人心,AI 头部巨头们无不在追求 " 少量大专家模式 " 的 " 性能摸高 "。
但这种 " 技术摸高 " 的模式会是 AI 发展创新的唯一路径么?
DeepSeek-R1 的横空出现,带来不一样的答案。DeepSeek 在工程层面大胆创新,采用大规模跨节点专家并行的模式,在算力规模和先进性受限的情况下,依然能打造出性能强大和先进的 AI 大模型。所谓 " 大规模跨节点专家并行 ",即将专家分布到更多的算力卡上,减少每张卡权重加载的时延,同时减少权重的显存占用,显著提升单卡并行的路数,从而推动 AI 大模型的创新。
事实上,在 DeepSeek 出现之前,AI 大模型在行业之中部署与应用依然面临着数据、算法和算力等一系列巨大挑战。很多行业用户既需要面临高质量数据缺乏的挑战,又面临着动辄千卡或者万卡的 AI 集群带来极高的成本,更受制于 AI 大模型闭源带来的部署与使用门槛。
而 DeepSeek 采用大规模跨节点专家并行的模式,利用强化学习来减少人工依赖和数据缺失的问题;通过全面开源的方式,大幅降低 AI 大模型的获取和部署成本,将 AI 推理资源池成本降到百卡 / 千卡范围;并且支持更加轻量、灵活的部署方式,真正降低 AI 大模型在行业用户环境中的部署与使用成本。
本质上,DeepSeek 在工程创新层面做了大量优化工作,真正为中国 AI 产业走出一条新路,给予整个产业界巨大的信心,并激发起千行百业的 AI 应用创新。业界也认为,未来 AI 发展‘性能摸高’和‘工程创新’两条技术路径未来会继续并存。
大 EP 推理挑战在哪里
就像医院问诊一样,过去属于 " 少量大专家 " 的模式,通过少量的全科大夫坐诊,每个大夫均处于繁忙状态;而现在,大规模跨节点专家则属于 " 大量小专家 " 模式,每个门诊(每张算力卡)均有自己的大夫,不仅可以处理更多用户的需求,还能够带来更好地用户体验。
当然,除了具备具备多种优势之外,大规模跨节点专家并行模式也并非完美无瑕,随着专家数量的增加,一系列新挑战也接踵而至。
事实上,大规模跨节点专家并行模式并不是专家越多越好;相反,专家数量存在一个 " 甜点 " 区域,当超过这个区域,性能提升并不明显甚至会出现下降。在大规模跨节点专家并行模式中,多专家的负载均衡和通信优化是最为突出的挑战。
例如,AI 大模型的推理属于自回归过程,包括 Prefill 和 Decode 两个阶段。Prefill 属于预填充,将用户请求的 prompt 传入大模型并进行计算,属于典型的计算密集型,需要耗费大量算力;而 Decode 则是增量推理阶段,从显存读取前文产生的 KVCache 再进行计算,属于访存密集型。这两个阶段对于算力资源需求存在着明显差异,需要算力效率和通信开销进行均衡优化。
所谓多专家负载均衡,即在业务处理中,肯能会出现某一位专家特别忙,而其他专家处于闲置状态,需要尽可能让所有专家 " 人尽其用 ",从而让算力资源高效化。而通信优化则是需要觉接 ALL2ALL 通信占比时间过高的问题,即当需要多个专家处理某个问题时候,专家互相之间交换意见的时间需要不短优化,以实现更高效地处理好业务。
因此,在大 EP 推理解决方案中,算力等硬件能力只是基础,系统层面的整体优化才是推理加速的关键因素,这也要求解决方案商必须具备从架构到算法的端到端全栈优化能力。
事实上,环顾当下整个市场,针对 DeepSeek AI 大模型的推理解决方案并不少,而华为依然占据着整个市场的大部分份额,其成功的关键就在于全栈能力。华为昇腾的大 EP 推理解决方案涵盖从推理系列硬件,到 CANN 硬件使能层,再到推理引擎,以及全面的开发工具链和套件,从而实现性能更高、并发更高和体验更优。
据悉,华为昇腾大 EP 推理解决方案能够实现单卡并发 3 倍的提升,Decode 时延能够降低 50% 以上,大幅降低用户的部署和使用成本,使用体验也得以大幅提升。此外,用户之前一体机方案,通过交换机进行参数面互联,基于现有组网架构软件升级,即可升级到华为昇腾大 EP 推理方案。
让行业智能化走深向实
如今,AI 全面走向推理时代。有人甚至认为,应用的未来在于推理,推理将成为所有应用未来的核心组件之一。
毫无疑问,在当前的行业智能化建设中,降低 AI 推理的部署、使用和成本门槛具有极为意义重大。降低门槛,意味着有更多行业用户能够把 AI 推理用起来和使用好,进而推动 AI 在行业场景中创新的充分释放,再进一步带动 AI 应用在 To B 领域的繁荣,最终形成良性循环。
华为昇腾大 EP 推理解决方案的推出,无疑为 AI 推理的普及带来一份重要答卷,也为行业智能化走深向实提供坚实基础。
首先,凭借对 AI 技术趋势的前瞻洞察以及战略定力,华为昇腾大 EP 推理解决方案拥有大量关键创新,包括 MoE 负载均衡、autoPD 分离部署、双流 / 多维混合并行、MLAPO 融合算力等五大关键技术,能够实现整体方案层面的性能吞吐和时延最优,真正帮助行业用户应对 AI 推理时代的到来。
例如,华为的 autoPD 分离部署是自适应 PD 分离部署,自动感知负载变化,且无需人工介入,实现多级缓存内存资源池化,冷热 KV 分层加载,不仅能够大幅提升系统的资源利用率,而且可以动态适应场景的变化需求。
其次,除了全栈自研能力之外,华为在计算、网络和 AI 大模型等多个领域拥有丰富的经验积累,使得昇腾大 EP 推理解决方案不仅实现性能最优,更贴近当前用户的使用需求。
相反,目前国际厂商针对中国市场的 " 阉割版 " 方案,其性能落差巨大、短板明显,FP16 算力只有 148TFLOPS。面对大规模分布式任务时,在类似 DeepSeek 大规模专家并行模式的推理场景下," 阉割版 " 方案无法有效支撑提升并发数和单卡吞吐,尤其是输入样本数量和序列长度提升的情况下,算力瓶颈暴露无疑。
此外,DeepSeek 等 AI 大模型采用 " 潮汐导读 " 实现 92% 的日均算力利用率,即利用 " 白天推理、晚上训练 " 的模式来充分释放硬件性能,而 " 阉割版 " 方案对于特定架构过度依赖,算力受限使得其在 AI 没到校预训练场景中几乎难有作为,无法满足训推一体的使用需求。加上 AI 大模型加速向 MoE 模式演进," 阉割版 " 方案不仅成本高昂,还面临着潜在的战略隐患,使得其很难满足当下行业用户的需求。
以 MoE 负载均衡为例,华为自身是通信起家,对于大容量、大并发的通信场景拥有大量时间,并且积累起丰富的经验,针对大规模跨节点专家并行,不仅能够根据业务情况、集群规模、专家情况来自动寻优,还能自动预测和自动降解,让专家与资源配比最优,实现整个 MoE 负载均衡在业界最优。
最后,华为昇腾大 EP 推理解决方案始终秉持开放共赢的战略,聚焦底层根技术的基础创新,不仅与 DeepSeek 等 AI 大模型企业保持着紧密联系,共同攻坚与联合创新来应对 AI 日新月异的发展苏,更携手产业链伙伴形成 AI 应用普惠化的产业协同效应,推动中国 AI 产业良性发展轨道。
综合观察,历史告诉我们:伟大的基础设施从来不只是工具,更是产业变革和社会经济发展的引擎。当 AI 应用开始走进田间地头、政务大厅、工厂厂房、医疗机构、港口码头、金融柜台……中国正引领 AI 推理时代最大的技术平权运动。而以 DeepSeek、华为等为代表的中国企业,在 AI 基础设施领域的持续探索与创新,无疑中国 AI 普惠开辟出一条属于自己的康庄大道。
END
登录后才可以发布评论哦
打开小程序可以发布评论哦