中国大模型的算力问题解决了?
如果你在今年年初问秋香这个问题,秋香还觉得大概率不可能。毕竟国内 AI 芯片的能力和英伟达的差距还不小,短期内没法赶上。
但要不说历史是创造出来的,华为还真就把这个事情干成了。
今年四月,微博网友老师木的一句 " 虽然华为芯片单颗比起用英伟达还是有落差,但是组成系统后,效率明显就高了 " 直接炸开了锅,许多网友根本不相信。
到了六月,华为团队与老师木所在的硅基流动(Silicon Flow)联合署名的论文在 arXiv 上公开,详细阐述了如何在 CloudMatrix 384 超节点上部署 DeepSeek 大模型,给了网友们一点小小的震撼。
而在前几天的华为开发者大会上,这个话题迎来了终结。
华为常务董事、华为云计算 CEO 张平安表示,基于 CloudMatrix384 超节点的新一代昇腾 AI 云服务,算力从单台服务器的 6.4P flops 提升到超节点服务器的 300P flops,提升了 50 倍;单卡的吞吐量从 600Tokens/s 提升到 2300 Tokens/s,与非超节点相比提升 4 倍。
秋香去对比了下,英伟达 NVLink72 平台的单节点算力为 180PFLOPs。华为比英伟达要高出 67%。也难怪今年 5 月,英伟达 CEO 黄仁勋公开表示,ClouldMatrix 384 超节点的集群规模甚至超过了最新一代 Grace Blackwell。
不过明明单卡的能力不如英伟达,华为云是怎么实现突破的呢?秋香研读了一下华为那篇论文,还找业内人士问了问,发现关键有两个。
一个是对等池化架构。
大模型像是人工智能爆发时代的一个需求怪兽,迅速吞噬着现代计算机的三个主要要素:计算,内存和网络,而传统的数据中心基础设施在许多方面很难满足这个需求。
简单举个例子,AI 任务类型多样,训练、推理、数据预处理等对 NPU、CPU、内存的资源需求各不相同。而固定配置的节点设计会让部分硬件 " 没活干 ",从而导致资源的 " 短板效应 ",整体资源利用率低。
用华为技术专家的话说就是," 超大规模 MoE 模型的训练就是一项复杂的系统工程,挑战很大,如果你深入下去就会发现到处是拥塞,很多是串行,到处是等待,很大情况是资源不匹配,还有一些则是重复计算或重复数据搬运,蕴藏着巨大的改进空间 "。
这就给了华为超车的机会。
CloudMatrix384 最核心的特点就是首创将 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 通过全新高速网络 MatrixLink 全对等互联,形成一台超级 "AI 服务器 "。这么做的好处是几乎抹平了跨节点通信的性能衰减,计算、内存和网络资源可以被动态汇聚、统一访问和独立扩展,减少数据局部约束性从而促进统一的资源池化和高效的工作负载编排。
如果说传统的数据中心基础设施就像一艘动力优秀但是无法全速前进的大船,那么 CloudMatrix384 超级节点可以被视为一个耦合更紧密、没有短板的舰艇。他虽然单个发动机不如前者,但是组合在一起却能跑出更好的效果。
第二个是 " 一卡一专家 " 的超节点部署。
DeepSeek 的出现,标志着推理任务从单机跑推理任务,转变成分布式推理时代。啥意思呢,大模型在推理过程中,最核心的流程有两部分,Prefill(预填充),和 Decode(解码)。想要推理效果更好,就要尽可能的完成 prefill 阶段的 " 高吞吐 " 和 decode 阶段的的 " 低时延 "。
DeepSeek 采用的 MOE 架构由多个专家模型组成,通过让最相关的专家模型处理相关需求,从而实现更大的批量处理能力——既能显著减少单卡的内存访问量,提升吞吐量,还能优化推理延迟。
那有没有更好的支持这种分布式推理的技术呢?最好的方法肯定是让每个专家都能有一张卡去处理数据。Deepseek 有 256 个专家,如果采用一个专家一张卡的模式,大概需要 352 张卡。
这个方法的问题在于会带来巨大的通信开销,通信延迟不可控。但 CloudMatrix 384 超节点的对等池化架构,就解决了通信延迟的问题,从而实现每个昇腾 NPU 卡独立处理一个专家模型的推理任务,多个卡并行工作,大幅提升整体推理速度,单卡吞吐量可以达到 2300 Tokens/s。
根据论文数据,在部署 DeepSeek-R1 这类大规模 MoE 模型时,CloudMatrix384 在单卡吞吐量上,全面超越英伟达体系。
根据华为官方数据,对于万亿、十万亿参数的大模型训练任务,华为的云数据中心可以把 432 个超节点连在一起,形成一个 16 万卡的 AI 集群,提供十万 P Flops 算力,支持约 1300 个千亿参数的大模型同时做训练。这也意味着,未来即便面对更大规模的算力需求,华为都能提供服务。
现在,已经有越来越多的厂商开始基于 CloudMatrix384 昇腾 AI 云服务进行开发,并且拿到了不错的结果。
中科院基于 CloudMatrix384 昇腾 AI 云服务,打造了自己的模型训练框架,快速构建了中科院 AI for Science 科研大模型。新浪也基于 CloudMatrix384 昇腾 AI 云服务,为 " 智慧小浪 " 智能服务体系构建了统一的推理平台,推理的交付效率提升超过 50%,模型上线速度成倍加快。
秋香觉得,随着芯片制裁越来越严格,能不能把算力握在自己手里,对于大模型产业发展非常重要。华为的这波技术突破也意味着中美算力真正进入掰手腕阶段,你觉得呢?
登录后才可以发布评论哦
打开小程序可以发布评论哦